Wie EPFL-Forschende KI-Modelle gegen Manipulationsversuche rüsten wollen

News

KI-Systeme haben ein Zuverlässigkeitsproblem. Algorithmen zum Klassifizieren von Inhalten lassen sich beispielsweise vergleichsweise leicht austricksen. Forschende der EPFL glauben, dem mit einem neuen Trainingsmodell ein Ende setzen zu können.

(Source: Nadia Snopek / Fotolia)

Immer mehr Entscheidungen werden von künstlicher Intelligenz (KI) getroffen. Doch bei aller Macht, die KI-Systeme haben, sind sie oft nicht immun gegen subtile, aber wirkungsvolle Angriffe, wie die EPFL erklärt. Oft genügen winzige Änderungen an den Eingabedaten, um ein KI-Modell auszutricksen.

Als Beispiel nennt die Hochschule die Inhaltsfilter auf Video-Streamingportalen wie Youtube. Die schiere Menge an hochgeladenen Videos mache es unmöglich, dass menschliche Kontrolleure sie alle sichten und etwa auf gewalttätige oder sexualisierte Inhalte prüfen könnten. Stattdessen erledigen KI-Systeme die Klassifizierung.

Allerdings können solche Systeme unterlaufen werden, wie die EPFL weiter erklärt: Ein böswilliger Hacker könnte einem Video mit unangemessenem Inhalt Hintergrundrauschen hinzufügen. Während dieses für das menschliche Auge nicht wahrnehmbar ist, verwirrt es das KI-System genug, um die Sicherheitsmechanismen des Streamingportals zu umgehen. In der Folge könnten beispielsweise Kinder auch bei aktivem Inhaltsfilter die problematischen Aufnahmen zu sehen bekommen.

Neues Trainingsmodell

Doch die Tage der leicht manipulierbaren KI-Systeme könnten bald gezählt sein. Dies glaubt zumindest ein Team aus Forschenden der EPFL und der University of Pennsylvania (UPenn) unter der Leitung von EPFL-Professor Volkan Cevher. Sie wollen mit einem neuen Trainingsansatz die KI-Systeme robuster und zuverlässiger machen.

Das bisherige Trainingsmodell, schreibtdie EPFL, beruhte auf dem Konzept eines gegnerischen Trainings, ähnlich einer Impfung. Traditionell werde dieses Training "als ein Nullsummenspiel mit zwei Spielern formuliert: Ein Verteidiger versucht, den Klassifizierungsfehler zu minimieren, während der Gegner versucht, ihn zu maximieren. Wenn einer gewinnt, verliert der andere", erklärt die EPFL.

Gehe es darum, diesen Ansatz in die reale Welt zu übertragen, stehe man vor Herausforderungen, heisst es weiter. Die Forschenden schlagen darum ein neues Konzept vor: Eine Nicht-Nullsummen-Strategie. Sie präsentierten auch schon einen dazu passenden Trainingsalgorithmus namens "BETA" (BEst Targeted Attack). Dieser Algorithmus verlangt, dass der Verteidiger und der Gegner unterschiedliche Ziele optimieren. Dies führe zu einer kontinuierlichen, zweistufigen Optimierung, heisst es in der Mitteilung.

Volkan Cevher, Professor an der EPFL. (Source: zVg)

Volkan Cevher, Professor an der EPFL. (Source: zVg)

Technisch ausgedrückt, minimiert der Verteidiger eine Obergrenze für den Klassifizierungsfehler. Währenddessen maximiert der Gegner die Wahrscheinlichkeit des Klassifizierungsfehlers, indem er er ein Ziel für die Fehlerspannen verwendet.

Der stärkere Gegner komme realen Situationen näher, erklären Cevher und sein Team. Dadurch können die KI-Systeme besser trainiert werden.

Man habe bereits einen erfolgreichen Versuch unternommen, mit diesem neuen Modell die Sicherheit von KI-Systemen zu verbessern. Zudem wurde die Forschungsarbeit auf der 2023 International Conference on Machine Learning's New Frontiers and Adversarial Machine Learning Workshop mit einem "Best Paper Award" ausgezeichnet. Die Arbeit habe zweifellos die Grenzen des Fachgebiets verschoben und hat das Potenzial, die Zukunft des gegnerischen maschinellen Lernens zu gestalten, schreiben die Autoren.

ChatGPT erobert die Welt im Sturm und die darunterliegende Technologie findet in immer mehr Tools Verwendung. Auch Schweizer Unternehmen bedienen sich Large Language Models, um Assistenten zu kreieren, die den Arbeitsalltag erleichtern sollen. Hier finden Sie eine Übersicht.