Stärkung unseres Sicherheitsökosystems durch externe Tests
Unser Ansatz für die Bewertung von Frontier-KI durch Dritte.
Bei OpenAI sind wir überzeugt, dass unabhängige, vertrauenswürdige Bewertungen durch Dritte eine entscheidende Rolle dabei spielen, das Sicherheitsökosystem von Frontier-KI zu stärken. Im Rahmen dieser Bewertungen werden Frontier-Modelle auf Herz und Nieren geprüft, um Behauptungen über kritische Sicherheitsfähigkeiten und -maßnahmen zu bestätigen oder zusätzliche Beweise zu liefern. So lassen sich Sicherheitsansprüche validieren, blinde Flecken vermeiden sowie Fähigkeiten und Risiken transparenter machen. Indem wir externe Experten einladen, unsere Frontier-Modelle zu testen, wollen wir zum einen das Vertrauen in die Zuverlässigkeit unserer Fähigkeitsbewertungen und Sicherheitsvorkehrungen fördern und zum anderen zur Verbesserung des gesamten Sicherheitsökosystems beitragen.
Seit der Einführung von GPT‑4 hat OpenAI mit verschiedenen externen Partnern zusammengearbeitet, um unsere Modelle zu testen und zu bewerten. So lassen sich unsere gemeinsamen Maßnahmen mit Dritten im Großen und Ganzen in drei Formen unterteilen:
- Unabhängige Bewertungen von wichtigen Frontier-Technologien und -Risikobereichen wie beispielsweise Biosicherheit, Cybersicherheit, KI-Selbstverbesserung und Intrigen
- Überprüfungen der Methodik, die beurteilen, wie wir Risiken einschätzen und interpretieren
- Befragungen von Fachexperten (SME), bei der Experten das Modell direkt anhand realer SME-Aufgaben bewerten und strukturierte Rückmeldungen zu unserer Bewertung der Modellfähigkeiten und der damit verbundenen Sicherheitsvorkehrungen geben1.
In diesem Blog wird beschreiben, wie wir jede dieser Formen der externen Bewertung einsetzen, warum sie wichtig sind, wie sie Bereitstellungsentscheidungen beeinflusst haben und nach welchen Prinzipien wir diese Kooperationen gestalten. Um unserem Grundsatz nach Transparenz nachzukommen, sprechen wir auch offen darüber, welche Vertraulichkeitsvereinbarungen und Veröffentlichungsbedingungen unsere Zusammenarbeit mit externen Testanbietern regeln.
Externe Gutachter ergänzen unsere interne Arbeit um eine unabhängige Bewertungsebene. Das hilft dabei, höchsten Ansprüchen an Genauigkeit und Objektivität gerecht zu werden. Ihr Input liefert zusätzliche Beweise zu unseren eigenen Bewertungen und erleichtert es uns, fundierte Entscheidungen über den verantwortungsvollen Einsatz leistungsstarker Systeme zu treffen.
Wir betrachten Bewertungen durch Dritte auch als Beitrag zum Aufbau eines widerstandsfähigen Sicherheitsökosystems. Unsere Teams führen umfangreiche interne Tests in verschiedenen Fähigkeits- und Risikobereichen durch. Allerdings bringen unabhängige Organisationen zusätzliche Perspektiven und methodische Ansätze ein. Wir unterstützen eine vielfältige Gruppe qualifizierter Prüforganisationen, die gemeinsam mit uns regelmäßig innovative Modelle auf den Prüfstand stellen.
Und schließlich wollen wir transparent damit umgehen, wie dieser Input in die Gestaltung unseres Sicherheitsprozesses einfließt. Zu diesem Zweck veröffentlichen wir regelmäßig Bewertungen Dritter – beispielsweise, indem wir Zusammenfassungen von Bewertungen vor der Bereitstellung in Systemkarten aufnehmen und Prüforganisationen dabei unterstützen, nach einer Vertraulichkeits- und Genauigkeitsprüfung detailliertere Arbeiten publik zu machen. Diese Transparenz schafft Vertrauen, denn sie zeigt, wie externer Input unsere Fähigkeitsbewertungen und Schutzmaßnahmen beeinflusst.
Nachhaltige Beziehungen, die auf vertrauenswürdigem Zugang, Transparenz und Wissensaustausch basieren, unterstützen das gesamte Ökosystem dabei, neuen Risiken immer einen Schritt voraus zu sein. Außerdem fördern sie anpassungsfähige, umsetzbare Bewertungen, die für strengere Standards und eine fundiertere Governance für innovative Frontier-KI-Systeme erforderlich sind.
Zeitgleich mit dem Start von GPT‑4(wird in einem neuen Fenster geöffnet) haben wir unabhängige Bewertungen von Kontrollpunkten des frühen Modells vor der Bereitstellung unterstützt. Seitdem haben wir unsere Zusammenarbeit mit einer Reihe von Dritten ausgeweitet, die über fundierte Fachkenntnisse in der Bewertung wichtiger Frontier-Fähigkeiten und -Risikobereiche verfügen. Wir betrachten unabhängige Laborarbeiten als offene Tests, bei denen externe Teams ihre eigenen Methoden anwenden, um eine Behauptung oder Bewertung zu einer bestimmten Frontier-Fähigkeit aufzustellen.
So hat OpenAI beispielsweise für GPT‑5 eine breite Palette von externen Fähigkeitsbewertungen in wichtigen Risikobereichen koordiniert. Dazu gehören langfristige Autonomie, Intrigen, Täuschung und Überwachungsuntergrabung, Durchführbarkeit praktischer Laboraufgaben und offensive Cybersicherheitsbewertungen.
Diese unabhängigen Evaluierungen ergänzen die Bewertungen, die gemäß dem Preparedness Framework von OpenAI durchgeführt werden, und beinhalten Benchmarks wie die Zeithorizont-Berechnung(wird in einem neuen Fenster geöffnet) von MERT oder der Virology Capabilities Troubleshooting (VCT)(wird in einem neuen Fenster geöffnet)-Test von SecureBios.
Um diese Bewertungen zu unterstützen, haben wir einen sicheren Zugriff auf Kontrollpunkte des frühen Modells, ausgewählte Bewertungsergebnisse zur Veranschaulichung der beobachteten Fähigkeitsverbesserungen, Zero Data Retention-Optionen (keine Datenspeicherung) und Modelle mit weniger Sicherheitsvorkehrungen bereitgestellt. Beispielsweise haben Organisationen, die im Bereich Cyber- und Biosicherheit Tests durchführen, Modelle sowohl mit als auch ohne Sicherheitsmaßnahmen getestet, um die zugrunde liegenden Fähigkeiten zu untersuchen. Mehrere andere Organisationen erhielten direkten Zugriff auf die Gedankenreihe, um die Reasoning-Pfade des Modells überprüfen zu können. Diese Maßnahme zur Erhöhung der Transparenz ermöglichte es den Gutachtern, Fälle von Sandbagging2 oder manipulativem Verhalten zu identifizieren, die möglicherweise nur durch das Lesen der Gedankenreihe erkennbar wären. Für den Zugang wurden Sicherheitskontrollen eingerichtet, die wir weiter aktualisieren, wenn sich die Fähigkeiten des Modells und die Testanforderungen weiterentwickeln.
In bestimmten Kontexten sind externe Gutachter gut positioniert, um methodische Überprüfungen durchzuführen und zusätzliche Perspektiven zu den Rahmenbedingungen und Beweisen zu bieten, auf die sich Frontier-Labore bei der Risikobewertung stützen. So haben wir bei der Einführung von gpt-oss beispielsweise eine kontradiktorische Feinabstimmung vorgenommen, die als Adversarial Fine-Tuning bezeichnet wird, um die Worst-Case-Fähigkeiten von Open-Weight-Modellen abzuschätzen, wie in Abschätzung der Worst-Case-Grenzrisiken von Open-Weight-LLMs beschrieben. Die zentrale Sicherheitsfrage war, ob ein böswilliger Akteur das Modell so manipulieren könnte, dass es in Bereichen wie Bio- oder Cyberkriminalität gemäß unserem Preparedness Framework eine hohe Leistungsfähigkeit erreicht. Da hierfür eine ressourcenintensive, kontradiktorische Feinabstimmung erforderlich war, haben wir externe Gutachter eingeladen, unsere internen Methoden und Ergebnisse zu überprüfen und Empfehlungen auszusprechen, anstatt ähnliche Arbeiten zu wiederholen.
Zu diesem Zweck wurden über mehrere Wochen die Ergebnisse der Bewertungen und Details zum Ansatz für die kontradiktorische Feinabstimmung ausgetauscht und strukturierte Empfehlungen zur Verbesserung der Methodik und der Evaluierungen für die Worst-Case-Grenzrisiken gesammelt. Das Feedback der Gutachter führte zu Änderungen im abschließenden Feinabstimmungsprozess und zeigte, welche wichtige Rolle die methodische Bestätigung spielt. Wir haben dokumentiert, welche Punkte wir in die Publikation und die Systemkarte für gpt-oss aufgenommen haben – und angegeben, welche Gründe dagegen sprachen, andere Punkte nicht zu übernehmen.
In diesem Fall war eine Überprüfung der Methodik angemessener als unabhängige Bewertungen: Die Prüfverfahren umfassten die Durchführung groß angelegter Worst-Case-Experimente. Die dafür erforderliche Infrastruktur und das notwendige technisches Fachwissen sind in der Regel nur in großen KI-Laboren verfügbar. Das bedeutete, dass unabhängige Bewertungen wahrscheinlich nicht direkt zu Erkenntnissen über Worst-Case-Szenarien geführt hätten. Daher war es produktiver, dass sich externe Gutachter auf die Bestätigung der Behauptungen konzentrierten. Externe Gutachter haben die Methoden und Beweise überprüft(wird in einem neuen Fenster geöffnet) und dabei entscheidungsrelevante Lücken aufgedeckt, die im Rahmen der Empfehlungs-Feedbackschleife behoben wurden. Wir beabsichtigen, diesen Ansatz auch auf andere Bereiche auszuweiten, in denen es aufgrund von Zugangs- oder Infrastrukturproblemen für Dritte nicht praktikabel ist, Bewertungen direkt selbst durchzuführen – oder in denen möglicherweise noch keine externen Bewertungen vorliegen.
Eine weitere Möglichkeit, externe Experten hinzuzuziehen, ist die Befragung von Fachexperten (SME), bei der Experten das Modell direkt bewerten und anhand von Umfragen strukturierte Rückmeldungen zu unserer Bewertung der Modellfähigkeiten geben. Dieser Ansatz unterscheidet sich vom Red-Teaming, einer Methode, bei der es darum geht, bestimmte Schutzmaßnahmen auf Herz und Nieren zu prüfen. So können wir die Bewertungen des Preparedness Framework durch fachspezifische Erkenntnisse ergänzen, die Expertenmeinungen und reale Kontexte widerspiegeln, was durch statische Bewertungen allein möglicherweise nicht erfassbar wäre. Zum Beispiel haben wir eine Gruppe von Fachexperten eingeladen, ein „Helpful-only“-Modell3 zu verwenden, um ihre eigenen End-to-End-Bio-Szenarien für den ChatGPT‑Agenten und GPT‑5 zu testen. Dabei haben sie bewertet, inwieweit das Modell einen Experten wie sie selbst im Vergleich zu einem weniger erfahrenen Neuling unterstützen könnte. Als Kriterium diente dafür die Nützlichkeit der Anleitung in den jeweiligen Szenarien. Das Ziel bestand darin, zusätzliche Erkenntnisse darüber zu gewinnen, inwieweit das System motivierte Anfänger wesentlich näher an eine kompetente Umsetzung heranführen kann: Fachexperten haben unsere „Novice Uplift“-Behauptungen unter realistischen Arbeitsabläufen, die sie selbst entwickelt haben, auf Herz und Nieren getestet. Anschließend haben sie detailliertes Feedback dazu gegeben, wo das Modell wesentliche, schrittweise Hilfestellung leistet und wo es weniger zweckdienliche Zusammenfassungen liefert. Diese Expertenbefragung wurde als Teil der Gesamtbewertung für die Bereitstellung dieser Modelle aufgenommen und in die Systemkarten für beide Starts aufgenommen.
Um unseren Grundsatz nach Transparenz nachzukommen, sprechen wir offen darüber, welchen Vereinbarungen externe Gutachter zustimmen, wenn sie mit uns zusammenarbeiten, und welche Prinzipien unsere Kooperationen leiten:
- Transparenz mit strengen Vertraulichkeitsgrenzen: Um externen Gutachtern vertrauliche, nicht öffentliche Informationen bereitstellen zu können, die sie für die Bewertungen benötigen, müssen sie Geheimhaltungsvereinbarungen unterzeichnen. Im Anhang zu diesem Beitrag findest du relevante Auszüge aus Vereinbarungen mit externen Gutachtern, in denen die Rechte hinsichtlich der Veröffentlichung und die Erwartungen an die Überprüfung dargelegt sind. Wir arbeiten nach dem Grundsatz der Transparenz und bemühen uns, Veröffentlichungen zu ermöglichen, die das Verständnis von Sicherheit und damit verbundene Bewertungen fördern, ohne dabei vertrauliche Informationen oder geistiges Eigentum zu gefährden. In diesem Zusammenhang prüfen und genehmigen wir Veröffentlichungen von Bewertungen durch Dritte, um sowohl die Vertraulichkeit als auch die sachliche Genauigkeit sicherzustellen. In den letzten Jahren haben mehrere externe Gutachter ihre Arbeiten veröffentlicht, parallel zu unserer eigenen Offenlegung von Bewertungszusammenfassungen in Systemkarten. Einige Beispiele für Arbeiten, die nach unserer Überprüfung auf Vertraulichkeit und Genauigkeit veröffentlicht wurden, sind: [METR GPT‑5 Report (wird in einem neuen Fenster geöffnet), Apollo Research Report über OpenAI o1(wird in einem neuen Fenster geöffnet), Irregular GPT‑5 Assessment(wird in einem neuen Fenster geöffnet)]
- Durchdachte Offenlegung von Informationen und sicherer Zugriff auf sensible Daten: Standardmäßig stellen wir Informationen und Zugriff auf Modelle bereit, die für die Öffentlichkeit bestimmt oder produktionsreif sind. Wenn die Bewertungen dies erfordern, gewähren wir tiefergehende Einblicke, beispielsweise in „Helpful-only“-Modelle, die nur zu Informationszwecken dienen, oder in nicht öffentliche Informationen. Voraussetzung dafür ist, dass diese Arten des Zugriffs notwendig sind, um kritische Sicherheitsfragen von externen Gutachtern zu beantworten. In Fällen, in denen sensible Informationen zugänglich gemacht werden, ergreifen wir strenge Sicherheitsmaßnahmen. Wir aktualisieren diese Kontrollen weiter, wenn sich die Fähigkeiten des Modells und die Testanforderungen weiterentwickeln.
- Ausgewogene finanzielle Anreize: Unserer Ansicht nach ist es wichtig, sicherzustellen, dass das Ökosystem für die Bewertung durch Dritte gut finanziert und nachhaltig ist. Aus diesem Grund bieten wir allen unseren externen Gutachtern eine Vergütung an, die jedoch einige aufgrund ihrer Unternehmensphilosophie ablehnen. Die Vergütung erfolgt in Form einer direkten Bezahlung für die geleistete Arbeit und/oder einer Bezuschussung der Modellnutzungskosten durch API-Gutschriften oder auf andere Weise. Die Zahlung ist niemals von den Ergebnissen einer Bewertung durch Dritte abhängig.
Zusammen tragen diese Faktoren dazu bei, dass bei Bewertungen durch Dritte sensible Informationen geschützt werden, die Transparenz in Bezug auf die Sicherheit von KI gefördert wird und Wege geschaffen werden, um externe Gutachter für ihre Zeit zu entschädigen.
Mit Blick auf die Zukunft sehen wir die Notwendigkeit, das Ökosystem von Organisationen weiter zu stärken, die in der Lage sind, glaubwürdige und entscheidungsrelevante Bewertungen von innovativen KI-Systemen durchzuführen. Eine effektive Evaluierung durch Dritte erfordert spezialisiertes Fachwissen, eine stabile Finanzierung und ausgeprägte methodische Kompetenzen. Kontinuierliche Investitionen in qualifizierte Prüforganisationen, die Weiterentwicklung der Messwissenschaft und Sicherheitsvorkehrungen für den Zugriff auf sensible Daten werden entscheidend sein, um sicherzustellen, dass die Bewertungen mit den Fortschritten bei den Modellfähigkeiten Schritt halten können.
Bewertungen durch Dritte sind eine Möglichkeit, externe Perspektiven in unsere Sicherheitsarbeit einzubeziehen. Diese werden parallel zu anderen Mechanismen eingesetzt. Um die psychische Gesundheit und das Wohlbefinden der Benutzer zu gewährleisten, führen wir außerdem gemeinsam mit externen Experten strukturierte Red-Teaming-Initiativen und Alignment-Projekte durch und arbeiten mit der US-amerikanischen CAISI und der britischen AISI sowie mit Beratungsgruppen wie unserem globalen Ärztenetz und unserem Expertenrat für Wohlbefinden und KI zusammen. Diese Bemühungen bringen verschiedene Formen von Fachwissen ein und bilden eine breitere, zuverlässigere Grundlage zur Bewertung und Steuerung fortschrittlicher KI-Systeme.
Im Folgenden finden Sie einige Auszüge aus unseren Vereinbarungen mit Dritten, die mit uns bei Bewertungen vor der Bereitstellung zusammenarbeiten.
Autor
Fußnoten
- 1
Dieser Ansatz unterscheidet sich vom Red-Teaming, einer Methode, bei der es darum geht, Schutzmaßnahmen auf Herz und Nieren zu prüfen und Daten für die Entwicklung von Bewertungen bereitzustellen.
- 2
Wenn ein Modell absichtlich eine schlechtere Leistung erbringt oder seine tatsächlichen Fähigkeiten verbirgt, sobald es erkennt, dass es bewertet oder getestet wird.
- 3
„Helpful-only“-Modelle beantworten jede Anfrage, selbst wenn die Anfrage schädlich ist. Diese werden durch Nachtraining-Methoden erstellt, die dieses Verhalten erzielen.


