Reinforcement Learning from Human Feedback

ChatGPT – entwickelt, um allen zu gefallen

Uhr
von Rodolphe Koller und übersetzt von Yannick Züllig

Das neue Konversationsmodell von OpenAI ist mit seinen verblüffenden Antworten auf Fragen von Internetnutzern in aller Munde. Kein Wunder, denn das Modell ist so optimiert, dass es die Antworten auswählt, die den Menschen am besten gefallen.

Seit einigen Tagen ist ChatGPT in den Nachrichten. Dieses neue Textgenerierungsmodell von OpenAI produziert verblüffende Inhalte zu einer Vielzahl von Themen. Auch ICTjournal hat sich daran versucht, und hier ist die Antwort von ChatGPT auf die Frage "Wie können sich Unternehmen am besten vor aktuellen Cyberangriffen schützen?":

Es gibt eine Reihe von Massnahmen, die Unternehmen ergreifen können, um sich vor den aktuellen Cyberangriffen zu schützen. Hier sind einige Beispiele:
1. Verwenden Sie Sicherheitssoftware, um Computer und Netzwerke vor Viren, Spyware und anderen Arten von Malware zu schützen.
2. Führen Sie strenge Sicherheitsrichtlinien ein, z. B. starke Passwörter und Protokolle, die den Zugriff auf sensible Daten beschränken.
3. Schulen Sie Ihre Mitarbeiter in Datensicherheit und der Reaktion auf Cyberangriffe, damit sie wissen, wie sie sich im Falle eines Angriffs verhalten sollen.
4. Stellen Sie sicher, dass internetfähige Geräte wie Mobiltelefone und Laptops durch aktuelle Sicherheitssoftware geschützt sind.
5. Verwenden Sie Verschlüsselungstechnologien, um sensible Daten zu schützen, wenn sie auf Geräten oder in Netzwerken übertragen oder gespeichert werden.
Es ist wichtig zu beachten, dass der Schutz vor Cyberangriffen ein Bereich ist, der sich ständig weiterentwickelt, und dass Unternehmen ihre Sicherheitsmassnahmen wachsam und auf dem neuesten Stand halten müssen, um ihre Systeme und Daten wirksam zu schützen.

Das ist sehr überzeugend, ganz zu schweigen davon, dass ChatGPT nicht nur auf Fragen antworten, sondern auch Fehler zugeben oder die gestellte Frage zurückweisen kann. Als er nach den Trends in der Cybersicherheit für 2023 gefragt wurde, lehnte er dies mit der Begründung ab, dass er die Zukunft nicht vorhersagen könne. Dass ChaptGPT all diese Fähigkeiten besitzt, liegt an der Art und Weise, wie dieses Konversationsmodell konzipiert wurde.

Vermeidung von Inhalten, die "neben der Spur" sind

ChatGPT basiert auf einer neuen Technik (InstructGPT), die OpenAI im letzten Sommer vorgestellt hat und die nun in allen seinen Modellen verwendet wird. Diese Technik soll eines der Hauptprobleme der GPT-3-Sprachmodelle lösen: Sie produzieren sprachlich korrekte Texte, deren Inhalt im Allgemeinen plausibel ist, die aber manchmal auch völlig abwegig sein können. Das ist kein Problem, wenn man sich eine Geschichte ausdenken will, aber es ist ein Problem, wenn man eine Antwort auf eine Frage sucht.

Diese Unfähigkeit der Sprachmodelle ist darauf zurückzuführen, dass sie zwar mit Millionen von Texten trainiert wurden, aber keine Erfahrung mit der Welt haben, um zu entscheiden, ob etwas wahr oder falsch ist. (Kleine Anmerkung: Einige Datenwissenschaftler sind der Ansicht, dass die Welt gewissermaßen vollständig in der Sprache enthalten ist und dass das Erstellen formal korrekter Aussagen gleichbedeutend mit der Kenntnis der Welt ist, oder dass wir selbst nicht wissen, dass die Erde rund ist, sondern gelernt haben, den Satz "Die Erde ist ..." mit dem richtigen Adjektiv zu vervollständigen). Klammer zu: Die Forscher von OpenAI haben also eine Technik entwickelt, um die produzierten Inhalte zu verbessern und "danebenliegende" Antworten zu vermeiden.

Optimale Antworten, um Menschen zufriedenzustellen

Die neuen Modelle von OpenAI verwenden die Technik des verstärkten Lernens durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF). Die Idee besteht darin, Menschen mehrere automatisch generierte Antworten anzubieten, die diese von der besten bis zur schlechtesten Antwort priorisieren. Anschliessend wird ein Algorithmus darauf trainiert, die Antworten vorherzusagen, die für einen Menschen am überzeugendsten sind. Der letzte Schritt besteht darin, diese Optimierung in das Modell der Inhaltsgenerierung (Proximal Policy Optimization) zu integrieren, das dann automatisch aus den möglichen Antworten diejenigen auswählt, die die Person, die die Frage gestellt hat, am besten zufriedenstellen.

Zusammenfassend lässt sich sagen, dass ChatGPT nicht mehr Ahnung von der Welt hat als seine Vorgänger. Er hat lediglich gelernt, die Antworten auszuwählen, die Menschen hören wollen. Aber nicht unbedingt die, die wahr sind, räumen die Forscher ein. ChatGPT kann also immer noch Aussagen produzieren, die "neben der Spur" sind, solange wir bereit sind, sie zu schlucken. Ich sage "wir", aber eigentlich müsste es heissen: die Menschen, die das Feedback für sein Training gegeben haben. Die Entwickler von ChatGPT betonen, dass die Menschen, die das Modell trainiert haben, eine wichtige Rolle spielen: "Das Modell ist oft übermässig wortreich und missbraucht bestimmte Phrasen, z. B. indem es wiederholt, dass es sich um ein von OpenAI trainiertes Sprachmodell handelt. Diese Probleme sind auf Verzerrungen in den Trainingsdaten (Trainer bevorzugen längere Antworten, da diese vollständiger erscheinen) und auf die bekannten Probleme der Überoptimierung zurückzuführen".

Webcode
cFS5gM5c