Darum sind KI-Modelle schlechte medizinische Berater
Grosse Sprachmodelle mögen mit ihrem medizinischen Wissen zwar mit Ärztinnen und Ärzten aus Fleisch und Blut mithalten. Doch wer bei einer gesundheitlichen Unpässlichkeit Rat sucht, sollte sich nicht auf KI allein verlassen, wie eine Studie zeigt.
Was taugen ChatGPt und co. als medizinische Erstberater? Nicht gerade viel, wie eine Studie der Universität Oxford nahelegt. Sie untersuchte, inwiefern KI-Modelle im Gespräch mit Testpersonen ein gesundheitliches Problem diagnostizieren und eine dazu passende Behandlungsempfehlung abgeben konnten. Die annähernd 1300 Testpersonen unterteilten die Forschenden in vier Gruppen: Drei Gruppen erhielten den Auftrag, eine medizinische Unpässlichkeit mit einem der drei grossen Sprachmodelle GPT-4o, Llama 3 oder Command R+ zu diagnostizieren, die vierte – als Kontrollgruppe eingesetzt - sollte dafür "eine Quelle ihrer Wahl" nutzen, wie es in der Zusammenfassung der Studie heisst.
Das Ergebnis: In unter 34 Prozent der Fälle konnten Testpersonen im Gespräch mit Dr. KI ihr medizinisches Leiden korrekt identifizieren; und in weniger als 45 Prozent konnten sie den von medizinischen Fachpersonen empfohlenen Behandlungsweg herausfinden. Die Kontrollgruppe identifizierte eine Krankheit in 47 Prozent der Tests korrekt, lagen aber beim Ermitteln der Behandlungsmethode mit 43 Prozent ähnlich oft richtig wie die KI-User.
Dass die ärztliche Beratung durch grosse Sprachmodelle nicht öfter zum Erfolg führte, hängt nicht mit fehlendem Fachwissen der KI zusammen, wie die Forschenden ebenfalls belegen. Sie testeten nämlich die in der späteren Untersuchung verwendeten medizinischen Szenarien selber mit den KI-Modellen. Dabei konnten die grossen Sprachmodelle in 94,7 Prozent aller Tests mindestens einen relevanten medizinischen Zustand identifizieren.
Als tatsächliche Schwachstelle identifiziert das wissenschaftliche Team stattdessen das Zusammenspiel der menschlichen User mit den KI-Modellen. Etwas konkreter stellten die Forschenden fest, dass menschliche Testpersonen den KI-Modellen "nur unvollständige Informationen zur Verfügung stellen", wie sie in der Studie schreiben; andererseits kam es auch vor, dass grosse Sprachmodelle zwar korrekte Antworten vorschlugen, "diese Informationen jedoch nicht effektiv an die Benutzer weitergeben".
Die Forschenden kommen in ihrer Untersuchung zum Schluss, "dass keines der getesteten Sprachmodelle für den Einsatz in der direkten Patientenversorgung bereit war". Sowohl KI-Entwicklern als auch Entscheidungsträgern im Gesundheitswesen empfehlen sie, die Interaktion zwischen KI-Systemen und echten Menschen ausführlich zu testen, bevor solche Systeme in der Patientenversorgung eingesetzt werden.
Lesen Sie auch: OpenAI testet mit ChatGPT Health eine neue Anwendung für den Gesundheitsbereich. Der KI-Chatbot kann dabei medizinische Daten aus Drittanbieter-Apps nutzen. Die neue Funktion ist bislang jedoch aufgrund regulatorischer Vorgaben weder in der Schweiz noch in Europa verfügbar.
Palo Alto Networks überarbeitet das Nextwave-Partnerprogramm
Die Geschichte des Schweizer Sackmessers
Wie Cyberoperationen geopolitische Konflikte beeinflussen
EPFL-Forschende sprengen die Zeitgrenze für KI-generierte Videos
CRIF übernimmt Credittrust
Hackergruppe erpresst Zahnbürstenhersteller Trisa
Informatec wird Solutions Partner Data & AI von Microsoft
Darum sind KI-Modelle schlechte medizinische Berater
Cablex baut im zweistelligen Bereich Stellen ab