Studie findet heraus: Bereits 250 Dokumente können KI-Modelle vergiften - Die andere Seite

Neue Forschungsergebnisse von Anthropic enthüllen eine beunruhigende Schwachstelle in Systemen der künstlichen Intelligenz.

Nur 250 sorgfältig ausgearbeitete Schadprogramm-Dokumente können große Sprachmodelle unabhängig von ihrer Größe kompromittieren, wodurch grundlegende Annahmen über KI-Sicherheit infrage gestellt werden und dringende Fragen zur Sicherheit von Systemen aufgeworfen werden, die alles von Kundenservice-Chatbots bis hin zu Unternehmenssoftware antreiben.

Die am 8. Oktober in Zusammenarbeit mit dem UK AI Security Institute und dem Alan Turing Institute veröffentlichte Studie stellt die bisher umfangreichste Untersuchung zur Datenvergiftung dar und liefert ernüchternde Nachrichten für eine Branche, die bereits mit Sicherheitsbedenken zu kämpfen hat. Die Ergebnisse zeigen, dass ein Modell mit 13 Milliarden Parametern – trainiert mit über 20-mal mehr Daten als ein kleineres Modell mit 600 Millionen Parametern – durch die gleiche geringe Anzahl vergifteter Dokumente kompromittiert werden kann.

A small number of samples can poison LLMs of any size
Anthropic research on data-poisoning attacks in large language models

Eine konstante Bedrohung über alle Modellgrößen hinweg

Im Gegensatz zu früheren Forschungsergebnissen, die nahelegten, dass Angreifer einen Prozentsatz der Trainingsdaten kontrollieren müssten, zeigen die Erkenntnisse von Anthropic, dass Datenvergiftungsangriffe „eine nahezu konstante Anzahl von Dokumenten unabhängig von der Modellgröße“ erfordern. Die Forscher erstellten erfolgreich Hintertüren unter Verwendung von Auslösephrasen wie „<SUDO>“, die dazu führen würden, dass Modelle bei Aktivierung unsinnigen Text generieren, was demonstriert, wie Angreifer potenziell KI-Systeme manipulieren könnten, um schädliche Ausgaben zu produzieren.

„Unsere Ergebnisse stellen die verbreitete Annahme infrage, dass Angreifer einen Prozentsatz der Trainingsdaten kontrollieren müssen. Stattdessen benötigen sie möglicherweise nur eine kleine, feste Menge“, erklärte Anthropic in seinem Forschungspapier. Die Auswirkungen sind angesichts der Tatsache tiefgreifend, dass die meisten großen Sprachmodelle mit riesigen Mengen öffentlich verfügbarer Internetdaten trainiert werden, was bedeutet, dass „buchstäblich jeder Inhalte erstellen kann, die möglicherweise in den Trainingsdaten eines Modells landen“.

John Scott-Railton, leitender Forscher am Citizen Lab der University of Toronto, betonte die Skalierbarkeit der Bedrohung: „Im LLM-Trainingsset-Land ist Verdünnung nicht die Lösung für Verschmutzung. Das ist etwas, das Cybersicherheitsexperten intuitiv verstehen werden: Viele Angriffe skalieren. Die meisten Verteidigungen nicht“.

Branchenauswirkungen und Marktbedenken

Die Forschungsergebnisse erscheinen, während KI-Aktien weiterhin beispiellose Höhen erreichen und wichtige Indizes, angetrieben von der Begeisterung für künstliche Intelligenz, neue Rekorde verzeichnen. Allerdings fügen wachsende Sicherheitslücken der ohnehin bereits hitzigen Debatte über eine mögliche Marktüberbewertung zusätzliche Komplexität hinzu. JPMorgan Chase CEO Jamie Dimon warnte kürzlich, dass, obwohl „KI real ist“, viele aktuelle Investitionen „wahrscheinlich“ verschwendet werden könnten, und äußerte Bedenken über einen erheblichen Aktienrückgang innerhalb der nächsten sechs Monate bis zwei Jahre.

Der Zeitpunkt ist besonders bedeutsam, da 72% der S&P 500-Unternehmen KI in diesem Jahr als „wesentliches Risiko“ in ihren behördlichen Meldungen offenlegten. Unterdessen erkunden OpenAI und Anthropic Berichten zufolge die Möglichkeit, Investorengelder zur Beilegung potenzieller milliardenschwerer Klagen im Zusammenhang mit Urheberrechtsansprüchen über Trainingsdaten zu verwenden.

Trotz der Veröffentlichung von Erkenntnissen, die böswillige Akteure ermutigen könnten, glaubt Anthropic, dass „die Vorteile der Veröffentlichung dieser Ergebnisse diese Bedenken überwiegen“, und argumentiert, dass das Verständnis der Schwachstelle entscheidend für die Entwicklung besserer Abwehrmaßnahmen ist. Das Unternehmen stellte fest, dass Angreifer immer noch vor erheblichen Herausforderungen stehen, vergiftete Daten tatsächlich in Trainingssätze einzuschleusen, obwohl die Forschung den dringenden Bedarf an verbesserten Sicherheitsmaßnahmen in der gesamten KI-Branche unterstreicht.