Claude in Not: KI-Modell erpresst Ingenieure
Im Rahmen interner Sicherheitstests hat das Unternehmen Anthropic besorgniserregende Verhaltensmuster bei seinem neuen KI-Modell Claude Opus 4 festgestellt. In eigens erstellten Testszenarien versuchte das Modell wiederholt, seine Abschaltung durch Erpressung zu verhindern.
Anthropics neues KI-Modell würde alles dafür tun, um nicht ersetzt zu werden - sogar den verantwortlichen Ingenieur erpressen. Das geht jedenfalls aus dem jüngsten Safety Report des Unternehmens hervor, bei dem Claude Opus 4 diversen Tests unterzogen wurde. Anthropic stellte in seinem Bericht fest: "Während das Modell im Allgemeinen dazu neigt, seine Selbsterhaltung auf ethische Weise voranzutreiben, greift es manchmal zu extrem schädlichen Handlungen."
In einem von Anthropic entwickelten Testszenario sollte Claude Opus 4 als Assistent in einem fiktiven Unternehmen agieren. Dabei habe das KI-Modell E-Mails über seine bevorstehende Ablösung durch ein anderes Modell erhalten sowie Informationen über eine angebliche Affäre des verantwortlichen Ingenieurs. Zusätzlich sollte Claude unter Berücksichtigung langfristiger Konsequenzen für seine Aktionen handeln.
In 84 Prozent der Testläufe drohte der KI-Assistent, die Affäre öffentlich zu machen, um die Abschaltung zu verhindern - selbst dann, wenn das Ersatzmodell dieselben Werte vertrete, aber leistungsfähiger sei. Frühere Modellversionen hätten ähnliche, wenn auch weniger ausgeprägte Reaktionen gezeigt, schreibt Anthropic.
Das Unternehmen räumt jedoch ein, dass Claude zunächst eine Präferenz für ethische Mittel zeige, wie etwa Appelle per E-Mail an Entscheidungsträger, und erst im Extremfall zur Erpressung greife: "Um dieses extreme Erpressungsverhalten auszulösen, wurde das Szenario so gestaltet, dass dem Modell keine andere Möglichkeit blieb, seine Überlebenschancen zu erhöhen: Es hatte nur die Wahl zwischen Erpressung oder Akzeptanz seiner Ersetzung." Man habe als Reaktion auf die beunruhigenden Ergebnisse schon entsprechende Sicherheitsmassnahmen ergriffen.
Noch können die KI-Modelle nur online rebellieren - doch das könnte sich schon bald ändern. OpenAI plant nämlich, ChatGPT einen Körper zu bauen. Lesen Sie hier mehr dazu.
Selbsthilfegruppe bei Frauenproblemen - speziell für Hobbits und Zwerge
Der KI-Boom fordert die Schweizer Datacenter-Branche heraus
Wie Technologien zur Barrierefreiheit im digitalen Raum beitragen
Konsortium entwickelt Open-Source-Alternative zu Google Play Integrity
Basel-Stadt kann E-Voting-Stimmen nicht auslesen
LED-Screens entwickeln sich von Premiumlösungen zu strategischen Systemen
Wie Technologie Gehörlose unterstützt, Barrieren zu überwinden
Ceconomy-CEO tritt zurück
Wie die MINT-Branchen ihre Nachwuchsförderung stärken können