LLMs entwickeln eigene "Persönlichkeiten"

News

KI-Assistenten entwickeln bei der Code-Generierung einen jeweils eigenen Stil. Dieser geht über reine Performance-Benchmarks hinaus, wie eine Studie der Genfer Softwarefirma Sonar zeigt.

(Source: Franz26 / Pixabay)

Beim Generieren von Code entwickeln grosse Sprachmodelle (LLMs) spezifische "Persönlichkeiten", wie aus einer Studie von Sonar hervorgeht. Das auf die Analyse von Codequalität spezialisierte Genfer Unternehmen untersuchte fünf Modelle: Claude Sonnet 4 und 3.7 (Anthropic), GPT-4o (OpenAI), Llama 3.2 90B (Meta) und OpenCoder-8B (Open Source). Jedes Modell absolvierte über 4400 Programmierübungen in Java.

Den Ergebnissen zufolge haben diese Modelle gemeinsame Stärken: Sie generieren syntaktisch gültigen Code, verfügen über solide algorithmische Fähigkeiten und können Konzepte zwischen Sprachen (Java und Python) übertragen.

Die untersuchten Sprachmodelle teilen aber auch gemeinsame Schwächen wie etwa einen Mangel an Sensibilität für Sicherheit. Beispielsweise stuften die Studienautoren zwischen 56 und 70 Prozent der im generierten Code entdeckten Schwachstellen als "Blocker" ein – die höchste Schweregradstufe. Zudem zeigen die Modelle wiederkehrende Probleme bei der Berücksichtigung von Software-Entwicklungsprinzipien, beispielsweise Ressourcenlecks oder Verstösse gegen API-Verträge. Darüber hinaus tendieren sie stark dazu, “Code Smell” zu produzieren (Code, der schwer zu warten ist), was über 90 Prozent der festgestellten Probleme ausmacht.

Multiple "Persönlichkeiten"

Über die Gemeinsamkeiten hinaus ordnet Sonar jedem Modell einen "Archetyp" zu, der seinen Programmierstil beschreiben soll. Claude Sonnet 4 bezeichnet Sonar als "Senior-Architekt": Das Modell besteht die meisten Tests, generiert jedoch ausführlichen und komplexen Code, der anfällig für kritische Fehler ist. OpenCoder-8B hingegen wählt einen prägnanten Ansatz, nützlich für schnelles Prototyping, weist aber die höchste Fehlerrate auf. Llama 3.2 90B präsentiert sich als "unerfülltes Versprechen" mit durchschnittlicher Leistung und einem besonders fragilen Sicherheitsprofil. GPT-4o erscheint als "effizienter Generalist": vielseitig, aber anfällig für häufige Logikfehler. Claude 3.7 zeichnet sich durch einen ausgewogeneren Stil mit umfangreicher Dokumentation aus.

Eine Tabelle vergleicht fünf KI-Modelle beim Programmieren. Claude Sonnet 4 schneidet am besten ab, mit 77 % funktionalem Können und geringster Fehlerdichte. OpenCoder-8B hat die meisten Fehler, aber den knappsten Code. GPT-4o liegt im Mittelfeld. Alle Modelle zeigen vor allem „Code Smells“ als häufigste Fehlerart. Die Werte umfassen Passrate, Fehlerdichte, Code-Länge und Komplexität.

Fünf Idealtypen respektive "Archetypen" beschreiben die "Persönlichkeiten", die grosse Sprachmodelle bei der Generierung von Code entwickeln. (Source: Sonar)

Laut Sonar werfen diese Ergebnisse vor allem Fragen zur Zuverlässigkeit und Sicherheit von KI-generiertem Code auf. In einem Umfeld, in dem Entwickler diese Tools immer stärker im Alltag einsetzen, hält das Genfer Unternehmen menschliche Kontrolle und die Unterstützung durch automatisierte Analysewerkzeuge für unerlässlich.

KI-Assistenten haben sich in der Schweizer Arbeitswelt inzwischen etabliert - allerdings bangt jede zweite Person hierzulande um KI-bedingten Jobverlust. Mehr dazu lesen Sie hier.