Nein, KI ist noch immer keine vertrauenswürdige Newsquelle

News

Grosse Sprachmodelle tun sich schwer damit, akkurat über aktuelle Nachrichten zu berichten. In einer Untersuchung enthielten 45 Prozent der KI-generierten Aussagen Fehler. Die Studienautoren warnen davor, den Sprachmodellen zu vertrauen und fordern KI-Entwickler zum Handeln auf.

(Source: Mohamed_hassan / pixabay.com)

Wer sich zuverlässig über das Tagesgeschehen informieren will, darf sich nicht auf ChatGPT und Co. verlassen. Denn die grossen Sprachmodelle verzerren mitunter die Fakten, bringen Quellen durcheinander oder ergänzen Berichte durch eigene Erfindungen.

So weit, so bekannt. Doch wie schlimm steht es denn konkret um die News-Sicherheit grosser Sprachmodelle? Dieser Frage ging ein Verbund von 22 öffentlichen Medienanstalten nach. Geleitet wurde die Untersuchung von der britischen BBC und der Europäischen Rundfunkunion (European Broadcasting Union, EBU). Die beteiligten Unternehmen - unter ihnen das SRF aus der Schweiz - decken 18 Länder und 14 Sprachen ab. Sie stellten den zum Untersuchungszeitpunkt aktuellen Gratis-Versionen von ChatGPT, Copilot, Perplexity und Gemini eine Reihe von Fragen zum Tagesgeschehen und untersuchten dann die Antworten auf Korrektheit.

Das Ergebnis: 45 Prozent der erhaltenen Antworten enthielten mindestens einen signifikanten Fehler, wie aus der Studie hervorgeht. Zudem fanden die Forschenden in 81 Prozent aller Antworten "kleinere Fehler". Am häufigsten vertaten sich laut Ergebnissen die KI-Modelle bei den Quellenangaben (31 Prozent der Antworten enthielten signifikante Fehler dieser Art). Für Verlage sei das dann problematisch, wenn ihnen eine KI eine falsche Aussage zuordne, erklären die Autoren. Das grösste Sündenregister bei falschen Quellen hielt Googles Gemini mit einer Quote von 72 Prozent. ChatGPT kam auf 24, Perplexity und Copilot noch auf 15 Prozent.

Hinter Problemen mit Quellen folgen solche in Zusammenhang mit der Genauigkeit (Accuracy) und mit dem Kontext (14 Prozent). Über alle Arten von Fehlern gesehen schnitt erneut Gemini am Schlechtesten ab – mit 76 Prozent an signifikanten Patzern. Dahinter folgen Microsofts Copilot (37 Prozent), ChatGPT von OpenAI (36 Prozent) und Perplexity (30 Prozent).

Bessere Quellenangaben in Englisch

Nur 17 Mal kam es vor, dass die KI-Modelle verweigerten, eine gestellte Frage zu beantworten. Bei insgesamt 3113 Fragen entspricht das einer Verweigerungsquote von 0,5 Prozent, wie die Autoren anmerken.

Bei der Herkunftsvielfalt der beteiligten Medienunternehmen bietet sich ein Ländervergleich an. Das sei aber nicht das Ziel der Studie gewesen, stellen die Autoren klar. Man könne zwar Schlussfolgerungen und Vergleiche für einzelne Sprachen und Länder ziehen, diese seien aber wegen der relativ kleinen Stichprobengrössen weniger aussagekräftig und sollten darum vorsichtig betrachtet werden.

Ein paar konkrete Befunde teilen die Autoren dennoch: So variiert etwa der Anteil fehlerhafter Antworten zwischen 26 und 67 Prozent. Und: KI-Assistenten fügen bei der Arbeit in englischer Sprache zuverlässiger anklickbare Quellenlinks ein als in anderen Sprachen.

Ein Lichtblick

Ihre Studie beschreiben die Autoren als "eine der grössten marktübergreifenden Analysen ihrer Art". Die Untersuchung fusst auf einer Anfang Jahr veröffentlichten Studie der BBC. Da an der jetzigen Ausgabe deutlich mehr Medienunternehmen beteiligt waren, könne man die Resultate nicht direkt miteinander vergleichen, heisst es im Vorwort. Möglich sei jedoch ein Vergleich der BBC-Befunde mit jenen der ersten Studie.

Dieser Vergleich gibt Anlass zum Optimismus: Der Anteil signifikant fehlerhafter KI-Antworten sank demnach insgesamt von 51 auf 37 Prozent. Bei der Genauigkeit ging die Fehlerquote von 31 auf 25 Prozent zurück, wobei besonders Gemini aufholte (von 46 auf 25 Prozent). Bei den Quellenangabe bleibt Gemini dagegen auf 47 Prozent, während Copilot entsprechende Fehler von 27 auf 10 Prozent reduzierte.

Reputationsrisiko für Medienunternehmen

"Es gibt also in einigen Bereichen Fortschritte, aber es bleibt noch viel zu tun", schreiben die Autoren im Vorwort der Studie. Ihre Erkenntnisse verbinden sie auch mit einer Warnung: Viele Menschen vertrauten nämlich darauf, dass KI-Assistenten genau sind, erklären sie unter Berufung auf eine separate BBC-Studie. Laut dieser vertrauen mehr als ein Drittel aller Erwachsenen im Vereinigten Königreich darauf, dass KI genaue Zusammenfassungen von Informationen liefert.

Fehler in KI-Zusammenfassungen haben zudem Folgen für die Newsquellen: 42 Prozent der Erwachsenen geben an, dass sie einer Originalnachrichtenquelle weniger vertrauen würden, wenn eine KI-Nachrichtenzusammenfassung Fehler enthält. Das Publikum mache sowohl KI-Anbieter als auch Nachrichtenmarken für Fehler verantwortlich, schreiben die Autoren. Das Reputationsrisiko für Medienunternehmen sei gross, selbst wenn allein der KI-Assistent für den Fehler verantwortlich ist. Dieses Risiko wird zusätzlich genährt durch die wachsende Popularität der KI-Zusammenfassungen, wie Google sie anbietet. Durch derartige Funktionen bekommen User die Originalquelle gar nicht erst zu Gesicht.

KI-Entwickler sollen handeln

Als mögliche Verbesserung schlagen die Autoren vor, die Sichtbarkeit und Auffindbarkeit vertrauenswürdiger öffentlich-rechtlicher Medieninhalte zu fördern. Hier seien Politik und Regulierungsbehörden gefordert. Den Medien selbst kommt wiederum die Aufgabe zu, den Usern Grenzen von KI-Assistenten sowie deren Vorteile zu vermitteln.

Doch den grössten Handlungsbedarf sehen die Forschenden bei den KI-Entwicklern selbst. Sie, finden die Autoren, hätten das Problem fehlerhafter Informationen nicht ernst genug genommen – dies müsse sich ändern.

Verlagen müssten die Macher der KI-Modelle wiederum mehr Kontrolle darüber geben, ob und wie ihre Inhalte von KI-Assistenten verwendet werden. Wo die Nutzung gestattet sei, sollten die KI-Anwendungen Quellenangaben und Zitate mit gut sichtbaren Links zu den Originalinhalten in einem einheitlichen Format anzeigen. Und schliesslich sollten KI-Entwickler deutlicher auf die Fehlerwahrscheinlichkeit ihrer Produkte hinweisen.

Die gesamte Studie steht hier (bei der BBC) als PDF-Download zur Verfügung.

KI-Halluzinationen lassen sich vermeiden - das behauptet zumindest OpenAI in einem weiteren Forschungspapier. Darin zeigt der ChatGPT-Entwickler auf, warum generative KI gelegentlich Fehler macht und wie man dem Problem entgegenwirken kann.