Block the Machine

So kann man ChatGPT daran hindern, auf eigene Websites zuzugreifen

Uhr
von Rodolphe Koller und übersetzt von Yannick Züllig

ChatGPT durchsucht das Internet mithilfe eines Plug-ins nach neuen Informationen. Wem das nicht passt, der kann seine Website entsprechend konfigurieren.

(Source: Kyle Glenn / Unsplash)
(Source: Kyle Glenn / Unsplash)

Vor einigen Tagen hat OpenAI die ersten Plugins für ChatGPT vorgestellt. Diese Komponenten ermöglichen es, den Chat-Agenten durch den Zugriff auf Anwendungen von Drittanbietern mit zusätzlichen Fähigkeiten auszustatten. So kann das Chat-Tool zum Beispiel im Internet surfen, um neuere Informationen zu finden, oder Wolfram nutzen, um nur geprüfte Informationen zu erhalten. 

Da Entwickler solche Plug-ins erstellen können, ist es wahrscheinlich, dass es immer mehr solcher Komponenten geben wird. Denkbar wären vor allem Plugins, die auf bestimmte Quellen abzielen, um hochwertige Informationen zu bestimmten Bereichen zu liefern. Beispielsweise ein Plugin für einen Chatbot zur Unterstützung von VMware-Lösungen, der sich Informationen aus technischen Foren holt, oder ein Plugin zur Empfehlung von Filmen, das sich aus Kinostunden und Kritiken in den Medien speist.

Warum sollten Sie den Zugang zu Ihren Inhalten blockieren?

Wenn Sie ChatGPT und seinen Plugins erlauben, Ihre Inhalte zu nutzen, birgt dies zwei grosse Risiken. Erstens ermöglicht es einem Chat-Agenten, die von Ihnen erstellten Inhalte ohne Bezahlung zu nutzen. Im Gegensatz zu Suchmaschinen, die Besucher auf die Website bringen können, nutzen Chatbots die Inhalte, um direkt zu antworten, ohne auf die Quellen zu verweisen - zumindest im Moment. Das ist beim neuen Bing nicht anders, bei dem man nicht weiss, ob alle Quellen der Antwort mit den genannten Links übereinstimmen.

Zweites Risiko: Datenschutz und geistiges Eigentum. Es ist bekannt, dass Riesensprachmodelle halluzinieren und falsche Informationen erzeugen können, aber sie können auch Inhalte, auf die sie trainiert wurden, unverändert wiedergeben, sie sozusagen speichern. In einem kürzlich erschienenen Artikel haben Forscher der EPFL unter anderem gezeigt, dass bildgenerierende Diffusionsmodelle (Dall-e 2, Stable Diffusion) Trainingsinhalte manchmal fast identisch replizieren. Die Forscher erwähnen insbesondere Personenfotos und Logos, von denen jedoch ein Drittel urheberrechtlich geschützt ist. Sie warnen, dass das gleiche Phänomen auch mit sensiblen medizinischen Daten, die zum Training verwendet wurden, auftreten könnte, und betonen, dass die Techniken, um dies zu verhindern (privacy-enhancing), unbefriedigend sind. 

Im Jahr 2020 hatten dieselben Forscher ein ähnliches Phänomen bei Tools zur Textgenerierung beschrieben. Im Januar dieses Jahres wurde bekannt, dass die Technologie-Website CNET Plagiate veröffentlichte, indem sie von der KI generierte Inhalte veröffentlichte, die fast identisch mit den Artikeln anderer Medien waren.

Wie können Sie den Zugriff auf Ihre Inhalte blockieren?

Es gibt drei verschiedene Möglichkeiten. Bei Inhalten, die bereits zum Trainieren der Modelle verwendet wurden, gibt es nicht viel zu tun. 

Bei neueren Inhalten ist es möglich, Common Crawl zu blockieren. Seit 2008 erstellt diese nicht kommerzielle Organisation eine Kopie des Internets, die sie Forschern, Unternehmen und Privatpersonen kostenlos zur Verfügung stellt. Diese riesige Datenbank machte 60 Prozent der Trainingsdaten von GPT-3 aus. Um zu verhindern, dass die Datenbank Ihre Texte anzapft, müssen Sie nur die Datei robots.txt der Website ändern und die Anweisung hinzufügen:

User-agent: CCBot
Disallow: /

Ein dritter Fall sind Plugins, die ChatGPT ergänzen. OpenAI erklärt, dass Sie diese ebenfalls blockieren können, indem Sie die Datei robots.txt mit der Anweisung bearbeiten:

User-agent: ChatGPT-User
Disallow: /

Die Anweisung kann auch geändert werden, um nur bestimmte Teile der Website auszuschließen oder den Plugins ausdrücklich zu erlauben, Inhalte der Website zu sammeln, so OpenAI in seiner Dokumentation.

Webcode
DkdvJLsr