Falsche Anreize fördern KI-Halluzinationen
KI-Halluzinationen lassen sich vermeiden - das behauptet zumindest OpenAI in einem neuen Forschungspapier. Darin zeigt der ChatGPT-Entwickler auf, warum generative KI gelegentlich Fehler macht und wie man dem Problem entgegenwirken kann.

Grosse Sprachmodelle (LLMs) halluzinieren, weil die gängigen Trainings- und Evaluationsverfahren falsche Anreize setzen - zu diesem Schluss kommt jedenfalls OpenAI in einem neuen Forschungspapier (PDF). Demnach belohnen Standardtests ein Modell stärker dafür, dass es rät, als dafür, dass es Unsicherheit eingesteht. Der ChatGPT-Hersteller vergleicht das Vorgehen mit einem Multiple-Choice-Test: Eine geratene Antwort hat eine gewisse Chance, korrekt zu sein, während eine Enthaltung garantiert keine Punkte bringt. Dementsprechend lernen KI-Modelle, im Zweifel lieber eine Antwort zu erfinden, als keine zu geben.
Wie sich diese Strategie auswirkt, zeigt OpenAI am Beispiel des "SimpleQA"-Benchmarks. Ein älteres Modell ("o4-mini") erreicht hier zwar 24 Prozent Genauigkeit, liegt aber in 75 Prozent der Fälle falsch. Es rät also aggressiv. Ein neueres Modell ("gpt-5-thinking-mini") erzielt zwar nur 22 Prozent Genauigkeit, irrt sich aber nur in 26 Prozent der Fälle, da es bei Unsicherheit zu 52 Prozent die Antwort verweigert. Weil Ranglisten primär die Genauigkeit bewerten, belohnen sie Modelle, die eine hohe Fehlerrate in Kauf nehmen.
Die eigentliche Ursache für solche sachlichen Fehler liegt laut der Analyse im Pretraining der Modelle. Diese lernen, indem sie das nächste Wort in riesigen Textmengen vorhersagen. Dabei erkennen sie zuverlässig konsistente Muster wie Rechtschreibung oder Grammatik. Arbiträre Fakten mit geringer Frequenz, wie etwa das Geburtsdatum einer Person, kann das Modell jedoch nicht aus Mustern ableiten, was zwangsläufig zu Fehlern führt. Nachfolgende Trainingsphasen könnten diese zwar korrigieren, scheitern aber oft an der beschriebenen Anreizstruktur der Evaluationen.
Neue Benchmarks sollen es richten
Als Lösung schlägt OpenAI eine grundlegende Reform der Bewertungsmetriken vor. Anstatt nur die Genauigkeit zu belohnen, sollte man falsche Antworten bei der Bewertung negativ gewichten – ähnlich wie bei manchen standardisierten Tests. Im Gegenzug könnten Modelle, die bei Unsicherheit eine Frage nicht beantworten, dafür Teilpunkte erhalten. Ein solches System würde den Anreiz zum blinden Raten beseitigen. Entscheidend sei dabei, so OpenAI, dass diese neue Logik in die primären, weit verbreiteten Benchmarks integriert wird. Denn solange die wichtigsten Ranglisten das Raten belohnen, werden Entwickler ihre Modelle darauf optimieren.
KI-Halluzinationen seien vermeidbar, behauptet OpenAI in der Schlussfolgerung - allerdings nur insofern, als LLMs mithilfe einer neuen Bewertungspraxis lernen könnten, ihre eigene Unsicherheit zu erkennen und in solchen Fällen auf eine Antwort zu verzichten. Dies sei nicht nur eine Fähigkeit grosser Modelle; laut OpenAI kann es für ein kleines Modell sogar einfacher sein, die eigenen Grenzen zu erkennen.
Bezüglich der Frage, ob KI-Halluzinationen tatsächlich vermeidbar sind, zeigt sich die Fachwelt allerdings skeptisch. Tobias Häberlein, Departementsleiter Informatik an der Fernfachhochschule Schweiz, verneint dies. Im Interview erklärt er, warum mangelndes kritisches Denken in Bezug auf KI eine grosse Gefahr birgt - und was man dagegen tun kann.

Globaler Cloud-Markt wächst um 22 Prozent

Falsche Anreize fördern KI-Halluzinationen

Post verlagert 200 IT-Stellen nach Lissabon

Apple härtet das iPhone, verschlankt es als Air und stärkt die Pro-Modelle

Check-Point-Browser bringt Zero Trust auf nicht verwaltete Geräte

OT-Sicherheit wird Chefsache

77 neue ICT-Fachleute dürfen sich über ihr Diplom freuen

Star-Wars-Sonate auf fancy Flügel

Update: Bald gibt’s den digitalen Lernfahrausweis in der ganzen Schweiz
