Kleinen Moment, ich lade ...

Startseite » Ein Tagebuch der Welt » Studie findet heraus: Bereits 250 Dokumente können KI-Modelle vergiften

Studie findet heraus: Bereits 250 Dokumente können KI-Modelle vergiften

0
algomindai-Frame.jpg

Neue Forschungsergebnisse von Anthropic enthüllen eine beunruhigende Schwachstelle in Systemen der künstlichen Intelligenz.

Nur 250 sorgfältig ausgearbeitete Schadprogramm-Dokumente können große Sprachmodelle unabhängig von ihrer Größe kompromittieren, wodurch grundlegende Annahmen über KI-Sicherheit infrage gestellt werden und dringende Fragen zur Sicherheit von Systemen aufgeworfen werden, die alles von Kundenservice-Chatbots bis hin zu Unternehmenssoftware antreiben.

Die am 8. Oktober in Zusammenarbeit mit dem UK AI Security Institute und dem Alan Turing Institute veröffentlichte Studie stellt die bisher umfangreichste Untersuchung zur Datenvergiftung dar und liefert ernüchternde Nachrichten für eine Branche, die bereits mit Sicherheitsbedenken zu kämpfen hat. Die Ergebnisse zeigen, dass ein Modell mit 13 Milliarden Parametern – trainiert mit über 20-mal mehr Daten als ein kleineres Modell mit 600 Millionen Parametern – durch die gleiche geringe Anzahl vergifteter Dokumente kompromittiert werden kann.

A small number of samples can poison LLMs of any size

Anthropic research on data-poisoning attacks in large language models

Eine konstante Bedrohung über alle Modellgrößen hinweg

Im Gegensatz zu früheren Forschungsergebnissen, die nahelegten, dass Angreifer einen Prozentsatz der Trainingsdaten kontrollieren müssten, zeigen die Erkenntnisse von Anthropic, dass Datenvergiftungsangriffe „eine nahezu konstante Anzahl von Dokumenten unabhängig von der Modellgröße“ erfordern. Die Forscher erstellten erfolgreich Hintertüren unter Verwendung von Auslösephrasen wie „<SUDO>“, die dazu führen würden, dass Modelle bei Aktivierung unsinnigen Text generieren, was demonstriert, wie Angreifer potenziell KI-Systeme manipulieren könnten, um schädliche Ausgaben zu produzieren.

„Unsere Ergebnisse stellen die verbreitete Annahme infrage, dass Angreifer einen Prozentsatz der Trainingsdaten kontrollieren müssen. Stattdessen benötigen sie möglicherweise nur eine kleine, feste Menge“, erklärte Anthropic in seinem Forschungspapier. Die Auswirkungen sind angesichts der Tatsache tiefgreifend, dass die meisten großen Sprachmodelle mit riesigen Mengen öffentlich verfügbarer Internetdaten trainiert werden, was bedeutet, dass „buchstäblich jeder Inhalte erstellen kann, die möglicherweise in den Trainingsdaten eines Modells landen“.

John Scott-Railton, leitender Forscher am Citizen Lab der University of Toronto, betonte die Skalierbarkeit der Bedrohung: „Im LLM-Trainingsset-Land ist Verdünnung nicht die Lösung für Verschmutzung. Das ist etwas, das Cybersicherheitsexperten intuitiv verstehen werden: Viele Angriffe skalieren. Die meisten Verteidigungen nicht“.

Branchenauswirkungen und Marktbedenken

Die Forschungsergebnisse erscheinen, während KI-Aktien weiterhin beispiellose Höhen erreichen und wichtige Indizes, angetrieben von der Begeisterung für künstliche Intelligenz, neue Rekorde verzeichnen. Allerdings fügen wachsende Sicherheitslücken der ohnehin bereits hitzigen Debatte über eine mögliche Marktüberbewertung zusätzliche Komplexität hinzu. JPMorgan Chase CEO Jamie Dimon warnte kürzlich, dass, obwohl „KI real ist“, viele aktuelle Investitionen „wahrscheinlich“ verschwendet werden könnten, und äußerte Bedenken über einen erheblichen Aktienrückgang innerhalb der nächsten sechs Monate bis zwei Jahre.

Der Zeitpunkt ist besonders bedeutsam, da 72% der S&P 500-Unternehmen KI in diesem Jahr als „wesentliches Risiko“ in ihren behördlichen Meldungen offenlegten. Unterdessen erkunden OpenAI und Anthropic Berichten zufolge die Möglichkeit, Investorengelder zur Beilegung potenzieller milliardenschwerer Klagen im Zusammenhang mit Urheberrechtsansprüchen über Trainingsdaten zu verwenden.

Trotz der Veröffentlichung von Erkenntnissen, die böswillige Akteure ermutigen könnten, glaubt Anthropic, dass „die Vorteile der Veröffentlichung dieser Ergebnisse diese Bedenken überwiegen“, und argumentiert, dass das Verständnis der Schwachstelle entscheidend für die Entwicklung besserer Abwehrmaßnahmen ist. Das Unternehmen stellte fest, dass Angreifer immer noch vor erheblichen Herausforderungen stehen, vergiftete Daten tatsächlich in Trainingssätze einzuschleusen, obwohl die Forschung den dringenden Bedarf an verbesserten Sicherheitsmaßnahmen in der gesamten KI-Branche unterstreicht.

avatar40px
Redaktion

Mach mit!

Abonniere unseren Newsletter und reise mit uns durch Kultur, Politik, Zeitgeschehen, Wissenschaft und Forschung.

Probiere es! Du kannst den Newsletter jederzeit wieder abbestellen

Datenschutzerklärung

Unterstütze unsere Projekte mit einer Spende!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert