Claude in Not: KI-Modell erpresst Ingenieure
Im Rahmen interner Sicherheitstests hat das Unternehmen Anthropic besorgniserregende Verhaltensmuster bei seinem neuen KI-Modell Claude Opus 4 festgestellt. In eigens erstellten Testszenarien versuchte das Modell wiederholt, seine Abschaltung durch Erpressung zu verhindern.

Anthropics neues KI-Modell würde alles dafür tun, um nicht ersetzt zu werden - sogar den verantwortlichen Ingenieur erpressen. Das geht jedenfalls aus dem jüngsten Safety Report des Unternehmens hervor, bei dem Claude Opus 4 diversen Tests unterzogen wurde. Anthropic stellte in seinem Bericht fest: "Während das Modell im Allgemeinen dazu neigt, seine Selbsterhaltung auf ethische Weise voranzutreiben, greift es manchmal zu extrem schädlichen Handlungen."
In einem von Anthropic entwickelten Testszenario sollte Claude Opus 4 als Assistent in einem fiktiven Unternehmen agieren. Dabei habe das KI-Modell E-Mails über seine bevorstehende Ablösung durch ein anderes Modell erhalten sowie Informationen über eine angebliche Affäre des verantwortlichen Ingenieurs. Zusätzlich sollte Claude unter Berücksichtigung langfristiger Konsequenzen für seine Aktionen handeln.
In 84 Prozent der Testläufe drohte der KI-Assistent, die Affäre öffentlich zu machen, um die Abschaltung zu verhindern - selbst dann, wenn das Ersatzmodell dieselben Werte vertrete, aber leistungsfähiger sei. Frühere Modellversionen hätten ähnliche, wenn auch weniger ausgeprägte Reaktionen gezeigt, schreibt Anthropic.
Das Unternehmen räumt jedoch ein, dass Claude zunächst eine Präferenz für ethische Mittel zeige, wie etwa Appelle per E-Mail an Entscheidungsträger, und erst im Extremfall zur Erpressung greife: "Um dieses extreme Erpressungsverhalten auszulösen, wurde das Szenario so gestaltet, dass dem Modell keine andere Möglichkeit blieb, seine Überlebenschancen zu erhöhen: Es hatte nur die Wahl zwischen Erpressung oder Akzeptanz seiner Ersetzung." Man habe als Reaktion auf die beunruhigenden Ergebnisse schon entsprechende Sicherheitsmassnahmen ergriffen.
Noch können die KI-Modelle nur online rebellieren - doch das könnte sich schon bald ändern. OpenAI plant nämlich, ChatGPT einen Körper zu bauen. Lesen Sie hier mehr dazu.

Bundesrat will Fahrzeugzulassung digitalisieren

Update: Bundesrat startet Vernehmlassung zur Modernisierung des Alarmsystems

Artificialy bestimmt neuen CEO

Neue Arbeitswelten und die Grenzen der KI: Bechtle lädt zur Xperience 2025

Snowflake ernennt Leiterin EMEA North

Jurassic Bullying - wenn Dinos fies zueinander sind

Zurich Versicherung setzt auf KI-Kompetenzen

Also nimmt Threema in seinen Cloud Marketplace auf

Diese Trends prägen 2025 die Cloud-Anbieter
