Focus: KI-Halluzinationen

Wieso KIs halluzinieren und wie man sich dagegen wappnet

Uhr

Generative KI erzeugt mitunter falsche Antworten – nicht aus Böswilligkeit, sondern aus Prinzip. Denn sie funktioniert eher wie ein Würfel als wie ein Taschenrechner. Tobias Häberlein von der FFHS erklärt, wie Halluzinationen entstehen und warum wir uns dagegen wappnen müssen.

Tobias Häberlein, Departementsleiter Informatik, Fernfachhochschule Schweiz. (Source: zVg)
Tobias Häberlein, Departementsleiter Informatik, Fernfachhochschule Schweiz. (Source: zVg)

Wie kommt es dazu, dass generative KI immer wieder falsche oder irreführende Ausgaben erzeugt?

Tobias Häberlein: Zunächst muss man sich bewusst machen, dass ein Large Language Model stochastisch nach dem Prinzip der "Next Word Prediction" funktioniert. Ergebnisse sind also immer Ergebnisse eines Zufallsprozesses und können ganz natürlicherweise zu falschen oder inkonsistenten Antworten führen. Der immer wieder zu lesende Vergleich mit Taschenrechnern ist daher irreführend. Zwar führte die Einführung von Taschenrechnern in den 70er-Jahren auch zu Diskussionen, ob man denn künftig das Rechnen überhaupt noch lernen müsse; Taschenrechner liefern aber immer ein wahres Ergebnis und funktionieren deterministisch. LLMs dagegen liefern auch Antworten auf Fragen, die sich prinzipiell nicht eindeutig beantworten lassen, und sie liefern – wenn sie die Antwort nicht "wissen" – teilweise auch zwar plausibel klingende, aber frei erfundene Antworten.

Sind solche Halluzinationen grundsätzlich vermeidbar?

Nein. Sie lassen sich minimieren, aber nie grundsätzlich vermeiden.

Welche technischen Ansätze oder Methoden bieten sich an, um KI-Halluzinationen effektiv zu erkennen, zu reduzieren oder allenfalls zu verhindern?

Es gibt tatsächlich einige etablierte Techniken, wie sich Halluzinationen reduzieren lassen. Zunächst einmal mittels Retrieval Augmented Generation, das heisst, indem man mittels Ähnlichkeitsmassen Textteile einer konkreten Wissensbasis – etwa Dokumente oder Datenbanken – in die Prompts miteinschleusst und so Wissenslücken oder Unsicherheiten minimiert. Es gibt auch etablierte Prompting-Techniken wie das sogenannte "Chain-Of-Thought-Prompting". Hier bittet man das LLM, seine Überlegungen und Zwischenschritte offenzulegen. Zum einen erhöht das für den menschlichen Benutzer die Transparenz, und Denkfehler werden offensichtlicher. Zum anderen hat sich gezeigt, dass Chain-Of-Thought-Prompting auch die Güte der LLM-Antworten erhöht, und offenbar kann sich nicht nur der Mensch, sondern auch das LLM selbst die erhöhte Transparenz seiner Reflexionen zunutze machen.

Kann man Anwendungen generativer KI so konzipieren, dass sie ihre eigene Unsicherheit tatsächlich offen kommunizieren? ChatGPT behauptet beispielsweise immer wieder, dies auf Aufforderung zu tun – macht es dann aber in der Praxis doch nicht.

Man kann Modelle entwickeln oder Prompting-Techniken entwickeln, sodass LLMs ihre eigene Unsicherheit verbalisieren oder Konfidenzwerte mit angeben. Aber auch das kann offenbar nicht verhindern, dass LLMs ihre eigene Unsicherheit stellenweise nicht erkennen. Man kann den Dunning-Kruger-Effekt – eine übrigens sehr menschliche Eigenschaft, sich bei geringer eigener Kompetenz systematisch zu überschätzen – der LLMs so offenbar nicht vollständig in den Griff bekommen.

Welche Rolle spielen in diesem Zusammenhang die Hersteller grosser Sprachmodelle? Verschärft sich das Problem der KI-Halluzinationen, weil OpenAI & Co. ihre Modelle bewusst so gestalten, dass sie vor allem überzeugend wirken und nicht unbedingt faktentreu sind?

Wir wissen, dass Unternehmen wie Anthropic, OpenAI oder Google erhebliche Mittel in die Sicherheitsforschung und Halluzinationsreduktion investieren. Der Vorwurf, dass man Faktentreue bewusst zugunsten überzeugend klingender Antworten vernachlässigen würde, greift meines Erachtens zu kurz. Die dahinterliegende Technologie erzeugt einfach vernünftig klingende beziehungsweise "echt" klingende Antworten und keine wahren Antworten. Man kann bezweifeln, dass sich Menschen und LLMs hier grundlegend unterscheiden: Auch die Menschen selbst geben gelegentlich vernünftig klingende Aussagen von sich, die nicht der Wahrheit entsprechen.

Welche Rolle spielt die Qualität der Trainingsdaten bei der Entstehung von Halluzinationen? 

Natürlich enthalten auch die Trainingsdaten widersprüchliche Informationen; bei grossen Web-Crawls ist das unvermeidbar. Häufig vorkommende Muster werden auch überbetont. Das merkt man etwa daran, wie schwer es ist, einem LLM zu "erklären" , dass der Schweizer Franken aktuell mehr wert ist als der Euro, denn ein Grossteil der (historischen) Daten im Web überbetont das umgekehrte Verhältnis.

Welche Auswirkungen haben die Grösse und Komplexität der KI-Modelle auf die Häufigkeit falscher Ausgaben?

Grössere Modelle (mit Milliarden oder Billionen Parametern) zeigen oft eine bessere Leistung bei Faktenfragen, da sie mehr "Weltwissen" speichern können. Es zeigt sich, dass bestimmte Fähigkeiten erst ab gewissen Schwellenwerten emergent auftreten, etwa logisches Schliessen oder arithmetische Fähigkeiten. Allerdings verbessert sich die Faktentreue nicht grundsätzlich linear mit der Grösse. Ab einem gewissen Punkt bringen zusätzliche Parameter "diminishing returns".

Gibt es bereits etablierte Benchmarks oder Testverfahren, um die Verlässlichkeit von KI-Ausgaben zu messen?

Es haben sich schon einige etabliert, wie etwa "TruthfulQA" (ca. 800 Fragen, die Menschen oft falsch beantworten), "FEVER" (Fact Extraction and VERification, 180 000 Wikipedia-basierte "Wahrheiten"), "HaluEval" (generierte Halluzinationsbeispiele, Kritik ist aber die künstliche Natur der Testfälle) oder "Fact­Score" (nutzt Biografien realer Personen). Aber alle haben ihre Tücken und das grundsätzliche Problem ist letztlich, was wir unter "Wahrheit" verstehen. Bei kontroversen Themen, bei sich entwickelnden Situationen, bei kulturell abhängigen Themen versagen klassische Benchmarks natürlicherweise.

Wie beurteilen Sie die Gefahr, dass sich User zu stark auf KI-Modelle verlassen, obwohl diese keine echte Urteilsfähigkeit besitzen?

Es ist eine nicht zu unterschätzende Gefahr, die alle User aus allen Bildungsschichten betrifft, denn es sind psychologische und nicht nur rationale Mechanismen beteiligt. Der bekannte "Automation Bias" führt dazu, dass Menschen maschinellen Ausgaben mehr vertrauen als menschlichen Urteilen – ähnlich dem "Authority Bias". Das Prinzip des sogenannten "Cognitive Offloading", das tief in unserer Psyche wurzelt, ist besonders heikel: Menschen lagern kognitive Fähigkeiten gerne aus und verlieren dabei eigene Fähigkeiten. Gerade in der Bildung zeigt sich das Problem akut: Schüler und Studierende nutzen KI für Hausaufgaben und Aufsätze, ohne die zugrundeliegenden Konzepte verstanden zu haben. Mangelndes kritisches Denken in Bezug auf KI birgt zudem eine grosse Gefahr: Wir müssen befürchten, dass gesellschaftliche Diskurse zunehmend durch KI-generierte Inhalte geprägt werden und dadurch manipulierbar werden. Eine unheimliche Gefahr für die Demokratie.

Was kann man dagegen tun?  

Wir brauchen mehr KI-Literacy. Curricula müssen angepasst werden, kritisches Denken muss neu gedacht und vermittelt werden. Das ist aus meiner Sicht das Wichtigste.

Welche Perspektiven sehen Sie für die Entwicklung von vertrauenswürdigen KI-Systemen?

Was die technische Entwicklung vertrauenswürdiger KI-Systeme betrifft, bin ich eher skeptisch; es betrifft das fundamentale sogenannte "Alignment Problem», das heisst die Unmöglichkeit, sicherzustellen, dass KI-Systeme tatsächlich menschliche Werte und Ziele verfolgen, statt nur so zu tun. Wir verstehen eben nicht, wie grosse Modelle ihre Entscheidungen treffen. Es sind eben keine deterministischen algorithmischen Systeme mehr, sondern komplexe – nicht nur komplizierte – Systeme, gigantische neuronale Netze, die durch einfache Regeln oder Anweisungen nicht oder nur oberflächlich beeinflussbar sind.

Webcode
tkNWPdKf