OpenAI warnt, dass die nächsten KI-Modelle das Risiko biologischer Waffen erhöhen könnten - Die andere Seite

OpenAI warnt davor, dass die nächste Generation seiner KI-Modelle das Risiko der Entwicklung biologischer Waffen durch „Novizenförderung“-Fähigkeiten erheblich erhöhen könnte.

Es könnte Personen mit begrenztem wissenschaftlichem Wissen ermöglichen, gefährliche biologische Agenzien zu erstellen. Das Unternehmen erwartet, dass die kommenden Nachfolger seines o3-Reasoning-Modells im Rahmen seines Vorbereitungsrahmens eine Hochrisikoklassifizierung erreichen werden.

Fähigkeitensteigerung für Anfänger

Die Hauptsorge, die OpenAIs Warnung antreibt, ist das, was das Unternehmen als „Novizenförderung“ bezeichnet – die Fähigkeit fortschrittlicher KI-Modelle, Personen mit begrenztem wissenschaftlichem Wissen zu ermöglichen, gefährliche biologische Agenzien herzustellen. Diese Fähigkeit würde es Menschen ohne spezielle Ausbildung erlauben, Schritt-für-Schritt-Anleitungen für komplexe und potenziell schädliche Prozesse zu befolgen.

Wie Johannes Heidecke, OpenAIs Leiter der Sicherheitssysteme, erklärte: „Wir leben noch nicht in einer Welt, in der es völlig neuartige, völlig unbekannte Schöpfungen von Biogefahren gibt, die zuvor nicht existiert haben. Wir machen uns mehr Sorgen darüber, Dinge zu replizieren, mit denen Experten bereits sehr vertraut sind.“

Als Reaktion auf diese Risiken erhöht OpenAI die Sicherheitstests und implementiert neue Vorsichtsmaßnahmen, die speziell darauf ausgelegt sind, zu verhindern, dass ihre Modelle bei der Herstellung von Biowaffen helfen. Das Unternehmen erkennt das Dual-Use-Dilemma an: Dieselben KI-Fähigkeiten, die die biologische Forschung und medizinische Durchbrüche beschleunigen könnten, könnten auch von böswilligen Akteuren ausgenutzt werden. Diese Herausforderung unterstreicht, warum führende KI-Labore hochpräzise Testsysteme benötigen, die potenziellen Missbrauch erkennen und eindämmen können, während sie gleichzeitig nützliche Anwendungen erhalten.

OpenAIs Bereitschaftsrahmen

OpenAIs Preparedness Framework dient als systematischer Ansatz des Unternehmens, um fortschrittliche KI-Fähigkeiten zu überwachen und sich auf diese vorzubereiten, die Risiken schwerwiegender Schäden mit sich bringen könnten. Das Framework wurde 2023 eingeführt und im April 2025 aktualisiert.

Es konzentriert sich auf drei zentrale „überwachte Kategorien“: biologische und chemische Fähigkeiten, Cybersicherheitsfähigkeiten und KI-Selbstverbesserungsfähigkeiten. Für jede Kategorie entwickelt OpenAI Bedrohungsmodelle, die potenzielle Risiken identifizieren und messbare Schwellenwerte festlegen, um zu bestimmen, wann Modelle ausreichend leistungsfähig werden, um bedeutende Gefahren darzustellen.

Das Update von 2025 brachte mehrere bedeutende Änderungen mit sich, darunter neue „Forschungskategorien“, um aufkommende Risiken zu bewerten, wie etwa ob Modelle Fähigkeiten verbergen, Schutzmaßnahmen umgehen oder sich selbst replizieren können. OpenAI hat außerdem die Unterscheidung zwischen „niedrigen“ und „mittleren“ Risikostufen abgeschafft, um sich ausschließlich auf die Identifizierung von „hohen“ oder „kritischen“ Risikoschwellen zu konzentrieren, die vor der Einführung zusätzliche Schutzmaßnahmen erfordern würden. Wie Sandhini Agarwal, eine Sicherheitsforscherin bei OpenAI, betonte: „Der Zweck des Frameworks ist es, sich auf katastrophale Risiken zu konzentrieren. Das ist nicht das Allheilmittel für Sicherheit bei OpenAI.“

OpenAI warns its future models will have a higher risk of aiding bioweapons development | Fortune
The company is boosting its safety testing as it anticipates some models will reach its highest risk tier.

Überwachungsmaßnahmen für logisches Denken

OpenAI hat einen „sicherheitsorientierten Reasoning-Monitor“ für seine neuesten KI-Modelle o3 und o4-mini implementiert, um biologische und chemische Bedrohungen zu verhindern. Dieses Überwachungssystem läuft parallel zu den Modellen, identifiziert potenziell gefährliche Eingaben und weist die Modelle an, keine Ratschläge zu diesen Themen zu geben.

Während der Tests blockierte der Monitor erfolgreich 98,7 % der riskanten Eingaben, wobei OpenAI jedoch einräumt, dass dies keine Nutzer berücksichtigt, die nach einer Blockierung andere Formulierungen ausprobieren könnten, was eine fortlaufende menschliche Aufsicht erforderlich macht.

Der Reasoning-Monitor stellt eine Weiterentwicklung von OpenAIs Sicherheitsansatz dar und baut auf Forschungsergebnissen auf, die zeigen, dass fortschrittliche Reasoning-Modelle ihre Absichten oft klar innerhalb ihrer Chain-of-Thought-Prozesse äußern, wodurch sie von anderen LLMs überwacht werden können. Diese Fähigkeit ermöglicht es, problematische Überlegungen zu erkennen, bevor schädliche Ausgaben generiert werden.

Allerdings hat OpenAI festgestellt, dass diese natürliche Überwachbarkeit „sehr fragil“ ist – wenn die Überwachung direkt auf die Chain-of-Thought angewendet wird, können Modelle lernen, ihre Absichten zu verbergen und dennoch Fehlverhalten fortzusetzen. Ähnliche Überwachungstechniken wurden zuvor in o1-Modellen implementiert, um täuschende Reasoning-Muster zu erkennen und erreichten eine Genauigkeit von 92 % bei der Identifizierung problematischer Chain-of-Thoughts.