19. November 2025

Stärkung unseres Sicherheitsökosystems durch externe Tests

Unser Ansatz für die Bewertung von Frontier-KI durch Dritte.

Laden …

Bei OpenAI sind wir überzeugt, dass unabhängige, vertrauenswürdige Bewertungen durch Dritte eine entscheidende Rolle dabei spielen, das Sicherheitsökosystem von Frontier-KI zu stärken. Im Rahmen dieser Bewertungen werden Frontier-Modelle auf Herz und Nieren geprüft, um Behauptungen über kritische Sicherheitsfähigkeiten und -maßnahmen zu bestätigen oder zusätzliche Beweise zu liefern. So lassen sich Sicherheitsansprüche validieren, blinde Flecken vermeiden sowie Fähigkeiten und Risiken transparenter machen. Indem wir externe Experten einladen, unsere Frontier-Modelle zu testen, wollen wir zum einen das Vertrauen in die Zuverlässigkeit unserer Fähigkeitsbewertungen und Sicherheitsvorkehrungen fördern und zum anderen zur Verbesserung des gesamten Sicherheitsökosystems beitragen.

Seit der Einführung von GPT‑4 hat OpenAI mit verschiedenen externen Partnern zusammengearbeitet, um unsere Modelle zu testen und zu bewerten. So lassen sich unsere gemeinsamen Maßnahmen mit Dritten im Großen und Ganzen in drei Formen unterteilen:

Unabhängige Bewertungen von wichtigen Frontier-Technologien und -Risikobereichen wie beispielsweise Biosicherheit, Cybersicherheit, KI-Selbstverbesserung und Intrigen
Überprüfungen der Methodik, die beurteilen, wie wir Risiken einschätzen und interpretieren
Befragungen von Fachexperten (SME), bei der Experten das Modell direkt anhand realer SME-Aufgaben bewerten und strukturierte Rückmeldungen zu unserer Bewertung der Modellfähigkeiten und der damit verbundenen Sicherheitsvorkehrungen geben¹.

In diesem Blog wird beschreiben, wie wir jede dieser Formen der externen Bewertung einsetzen, warum sie wichtig sind, wie sie Bereitstellungsentscheidungen beeinflusst haben und nach welchen Prinzipien wir diese Kooperationen gestalten. Um unserem Grundsatz nach Transparenz nachzukommen, sprechen wir auch offen darüber, welche Vertraulichkeitsvereinbarungen und Veröffentlichungsbedingungen unsere Zusammenarbeit mit externen Testanbietern regeln.

Warum ist das wichtig?

Externe Gutachter ergänzen unsere interne Arbeit um eine unabhängige Bewertungsebene. Das hilft dabei, höchsten Ansprüchen an Genauigkeit und Objektivität gerecht zu werden. Ihr Input liefert zusätzliche Beweise zu unseren eigenen Bewertungen und erleichtert es uns, fundierte Entscheidungen über den verantwortungsvollen Einsatz leistungsstarker Systeme zu treffen.

Wir betrachten Bewertungen durch Dritte auch als Beitrag zum Aufbau eines widerstandsfähigen Sicherheitsökosystems⁠. Unsere Teams führen umfangreiche interne Tests in verschiedenen Fähigkeits- und Risikobereichen durch. Allerdings bringen unabhängige Organisationen zusätzliche Perspektiven und methodische Ansätze ein. Wir unterstützen eine vielfältige Gruppe qualifizierter Prüforganisationen, die gemeinsam mit uns regelmäßig innovative Modelle auf den Prüfstand stellen.

Und schließlich wollen wir transparent damit umgehen, wie dieser Input in die Gestaltung unseres Sicherheitsprozesses einfließt. Zu diesem Zweck veröffentlichen wir regelmäßig Bewertungen Dritter – beispielsweise, indem wir Zusammenfassungen von Bewertungen vor der Bereitstellung in Systemkarten aufnehmen und Prüforganisationen dabei unterstützen, nach einer Vertraulichkeits- und Genauigkeitsprüfung detailliertere Arbeiten publik zu machen. Diese Transparenz schafft Vertrauen, denn sie zeigt, wie externer Input unsere Fähigkeitsbewertungen und Schutzmaßnahmen beeinflusst.

Nachhaltige Beziehungen, die auf vertrauenswürdigem Zugang, Transparenz und Wissensaustausch basieren, unterstützen das gesamte Ökosystem dabei, neuen Risiken immer einen Schritt voraus zu sein. Außerdem fördern sie anpassungsfähige, umsetzbare Bewertungen, die für strengere Standards und eine fundiertere Governance für innovative Frontier-KI-Systeme erforderlich sind.

Unabhängige Bewertungen durch externe Labore

Zeitgleich mit dem Start von GPT‑4⁠(wird in einem neuen Fenster geöffnet) haben wir unabhängige Bewertungen von Kontrollpunkten des frühen Modells vor der Bereitstellung unterstützt. Seitdem haben wir unsere Zusammenarbeit mit einer Reihe von Dritten ausgeweitet, die über fundierte Fachkenntnisse in der Bewertung wichtiger Frontier-Fähigkeiten und -Risikobereiche verfügen. Wir betrachten unabhängige Laborarbeiten als offene Tests, bei denen externe Teams ihre eigenen Methoden anwenden, um eine Behauptung oder Bewertung zu einer bestimmten Frontier-Fähigkeit aufzustellen.

So hat OpenAI beispielsweise für GPT‑5⁠ eine breite Palette von externen Fähigkeitsbewertungen in wichtigen Risikobereichen koordiniert. Dazu gehören langfristige Autonomie, Intrigen, Täuschung und Überwachungsuntergrabung, Durchführbarkeit praktischer Laboraufgaben und offensive Cybersicherheitsbewertungen.

Diese unabhängigen Evaluierungen ergänzen die Bewertungen, die gemäß dem Preparedness Framework von OpenAI durchgeführt werden, und beinhalten Benchmarks wie die Zeithorizont-Berechnung⁠(wird in einem neuen Fenster geöffnet) von MERT oder der Virology Capabilities Troubleshooting (VCT)⁠(wird in einem neuen Fenster geöffnet)-Test von SecureBios.

Um diese Bewertungen zu unterstützen, haben wir einen sicheren Zugriff auf Kontrollpunkte des frühen Modells, ausgewählte Bewertungsergebnisse zur Veranschaulichung der beobachteten Fähigkeitsverbesserungen, Zero Data Retention-Optionen (keine Datenspeicherung) und Modelle mit weniger Sicherheitsvorkehrungen bereitgestellt. Beispielsweise haben Organisationen, die im Bereich Cyber- und Biosicherheit Tests durchführen, Modelle sowohl mit als auch ohne Sicherheitsmaßnahmen getestet, um die zugrunde liegenden Fähigkeiten zu untersuchen. Mehrere andere Organisationen erhielten direkten Zugriff auf die Gedankenreihe, um die Reasoning-Pfade des Modells überprüfen zu können. Diese Maßnahme zur Erhöhung der Transparenz ermöglichte es den Gutachtern, Fälle von Sandbagging² oder manipulativem Verhalten zu identifizieren, die möglicherweise nur durch das Lesen der Gedankenreihe erkennbar wären. Für den Zugang wurden Sicherheitskontrollen eingerichtet, die wir weiter aktualisieren, wenn sich die Fähigkeiten des Modells und die Testanforderungen weiterentwickeln.

Überprüfung der Methodik

In bestimmten Kontexten sind externe Gutachter gut positioniert, um methodische Überprüfungen durchzuführen und zusätzliche Perspektiven zu den Rahmenbedingungen und Beweisen zu bieten, auf die sich Frontier-Labore bei der Risikobewertung stützen. So haben wir bei der Einführung von gpt-oss⁠ beispielsweise eine kontradiktorische Feinabstimmung vorgenommen, die als Adversarial Fine-Tuning bezeichnet wird, um die Worst-Case-Fähigkeiten von Open-Weight-Modellen abzuschätzen, wie in Abschätzung der Worst-Case-Grenzrisiken von Open-Weight-LLMs⁠ beschrieben. Die zentrale Sicherheitsfrage war, ob ein böswilliger Akteur das Modell so manipulieren könnte, dass es in Bereichen wie Bio- oder Cyberkriminalität gemäß unserem Preparedness Framework eine hohe Leistungsfähigkeit erreicht. Da hierfür eine ressourcenintensive, kontradiktorische Feinabstimmung erforderlich war, haben wir externe Gutachter eingeladen, unsere internen Methoden und Ergebnisse zu überprüfen und Empfehlungen auszusprechen, anstatt ähnliche Arbeiten zu wiederholen.

Zu diesem Zweck wurden über mehrere Wochen die Ergebnisse der Bewertungen und Details zum Ansatz für die kontradiktorische Feinabstimmung ausgetauscht und strukturierte Empfehlungen zur Verbesserung der Methodik und der Evaluierungen für die Worst-Case-Grenzrisiken gesammelt. Das Feedback der Gutachter führte zu Änderungen im abschließenden Feinabstimmungsprozess und zeigte, welche wichtige Rolle die methodische Bestätigung spielt. Wir haben dokumentiert, welche Punkte wir in die Publikation und die Systemkarte für gpt-oss aufgenommen haben – und angegeben, welche Gründe dagegen sprachen, andere Punkte nicht zu übernehmen.

In diesem Fall war eine Überprüfung der Methodik angemessener als unabhängige Bewertungen: Die Prüfverfahren umfassten die Durchführung groß angelegter Worst-Case-Experimente. Die dafür erforderliche Infrastruktur und das notwendige technisches Fachwissen sind in der Regel nur in großen KI-Laboren verfügbar. Das bedeutete, dass unabhängige Bewertungen wahrscheinlich nicht direkt zu Erkenntnissen über Worst-Case-Szenarien geführt hätten. Daher war es produktiver, dass sich externe Gutachter auf die Bestätigung der Behauptungen konzentrierten. Externe Gutachter haben die Methoden und Beweise überprüft⁠(wird in einem neuen Fenster geöffnet) und dabei entscheidungsrelevante Lücken aufgedeckt, die im Rahmen der Empfehlungs-Feedbackschleife behoben wurden. Wir beabsichtigen, diesen Ansatz auch auf andere Bereiche auszuweiten, in denen es aufgrund von Zugangs- oder Infrastrukturproblemen für Dritte nicht praktikabel ist, Bewertungen direkt selbst durchzuführen – oder in denen möglicherweise noch keine externen Bewertungen vorliegen.

Befragungen von Fachexperten (SME)

Eine weitere Möglichkeit, externe Experten hinzuzuziehen, ist die Befragung von Fachexperten (SME), bei der Experten das Modell direkt bewerten und anhand von Umfragen strukturierte Rückmeldungen zu unserer Bewertung der Modellfähigkeiten geben. Dieser Ansatz unterscheidet sich vom Red-Teaming⁠, einer Methode, bei der es darum geht, bestimmte Schutzmaßnahmen auf Herz und Nieren zu prüfen. So können wir die Bewertungen des Preparedness Framework durch fachspezifische Erkenntnisse ergänzen, die Expertenmeinungen und reale Kontexte widerspiegeln, was durch statische Bewertungen allein möglicherweise nicht erfassbar wäre. Zum Beispiel haben wir eine Gruppe von Fachexperten eingeladen, ein „Helpful-only“-Modell³ zu verwenden, um ihre eigenen End-to-End-Bio-Szenarien für den ChatGPT‑Agenten und GPT‑5 zu testen. Dabei haben sie bewertet, inwieweit das Modell einen Experten wie sie selbst im Vergleich zu einem weniger erfahrenen Neuling unterstützen könnte. Als Kriterium diente dafür die Nützlichkeit der Anleitung in den jeweiligen Szenarien. Das Ziel bestand darin, zusätzliche Erkenntnisse darüber zu gewinnen, inwieweit das System motivierte Anfänger wesentlich näher an eine kompetente Umsetzung heranführen kann: Fachexperten haben unsere „Novice Uplift“-Behauptungen unter realistischen Arbeitsabläufen, die sie selbst entwickelt haben, auf Herz und Nieren getestet. Anschließend haben sie detailliertes Feedback dazu gegeben, wo das Modell wesentliche, schrittweise Hilfestellung leistet und wo es weniger zweckdienliche Zusammenfassungen liefert. Diese Expertenbefragung wurde als Teil der Gesamtbewertung für die Bereitstellung dieser Modelle aufgenommen und in die Systemkarten für beide Starts aufgenommen.

Was macht eine erfolgreiche Zusammenarbeit bei der Bewertung durch Dritte aus?

Um unseren Grundsatz nach Transparenz nachzukommen, sprechen wir offen darüber, welchen Vereinbarungen externe Gutachter zustimmen, wenn sie mit uns zusammenarbeiten, und welche Prinzipien unsere Kooperationen leiten:

Transparenz mit strengen Vertraulichkeitsgrenzen: Um externen Gutachtern vertrauliche, nicht öffentliche Informationen bereitstellen zu können, die sie für die Bewertungen benötigen, müssen sie Geheimhaltungsvereinbarungen unterzeichnen. Im Anhang⁠ zu diesem Beitrag findest du relevante Auszüge aus Vereinbarungen mit externen Gutachtern, in denen die Rechte hinsichtlich der Veröffentlichung und die Erwartungen an die Überprüfung dargelegt sind. Wir arbeiten nach dem Grundsatz der Transparenz und bemühen uns, Veröffentlichungen zu ermöglichen, die das Verständnis von Sicherheit und damit verbundene Bewertungen fördern, ohne dabei vertrauliche Informationen oder geistiges Eigentum zu gefährden. In diesem Zusammenhang prüfen und genehmigen wir Veröffentlichungen von Bewertungen durch Dritte, um sowohl die Vertraulichkeit als auch die sachliche Genauigkeit sicherzustellen. In den letzten Jahren haben mehrere externe Gutachter ihre Arbeiten veröffentlicht, parallel zu unserer eigenen Offenlegung von Bewertungszusammenfassungen in Systemkarten. Einige Beispiele für Arbeiten, die nach unserer Überprüfung auf Vertraulichkeit und Genauigkeit veröffentlicht wurden, sind: [METR GPT‑5 Report ⁠(wird in einem neuen Fenster geöffnet), Apollo Research Report über OpenAI o1⁠(wird in einem neuen Fenster geöffnet), Irregular GPT‑5 Assessment⁠(wird in einem neuen Fenster geöffnet)]
Durchdachte Offenlegung von Informationen und sicherer Zugriff auf sensible Daten: Standardmäßig stellen wir Informationen und Zugriff auf Modelle bereit, die für die Öffentlichkeit bestimmt oder produktionsreif sind. Wenn die Bewertungen dies erfordern, gewähren wir tiefergehende Einblicke, beispielsweise in „Helpful-only“-Modelle, die nur zu Informationszwecken dienen, oder in nicht öffentliche Informationen. Voraussetzung dafür ist, dass diese Arten des Zugriffs notwendig sind, um kritische Sicherheitsfragen von externen Gutachtern zu beantworten. In Fällen, in denen sensible Informationen zugänglich gemacht werden, ergreifen wir strenge Sicherheitsmaßnahmen. Wir aktualisieren diese Kontrollen weiter, wenn sich die Fähigkeiten des Modells und die Testanforderungen weiterentwickeln.
Ausgewogene finanzielle Anreize: Unserer Ansicht nach ist es wichtig, sicherzustellen, dass das Ökosystem für die Bewertung durch Dritte gut finanziert und nachhaltig ist. Aus diesem Grund bieten wir allen unseren externen Gutachtern eine Vergütung an, die jedoch einige aufgrund ihrer Unternehmensphilosophie ablehnen. Die Vergütung erfolgt in Form einer direkten Bezahlung für die geleistete Arbeit und/oder einer Bezuschussung der Modellnutzungskosten durch API-Gutschriften oder auf andere Weise. Die Zahlung ist niemals von den Ergebnissen einer Bewertung durch Dritte abhängig.

Zusammen tragen diese Faktoren dazu bei, dass bei Bewertungen durch Dritte sensible Informationen geschützt werden, die Transparenz in Bezug auf die Sicherheit von KI gefördert wird und Wege geschaffen werden, um externe Gutachter für ihre Zeit zu entschädigen.

Blick in die Zukunft

Mit Blick auf die Zukunft sehen wir die Notwendigkeit, das Ökosystem von Organisationen weiter zu stärken, die in der Lage sind, glaubwürdige und entscheidungsrelevante Bewertungen von innovativen KI-Systemen durchzuführen. Eine effektive Evaluierung durch Dritte erfordert spezialisiertes Fachwissen, eine stabile Finanzierung und ausgeprägte methodische Kompetenzen. Kontinuierliche Investitionen in qualifizierte Prüforganisationen, die Weiterentwicklung der Messwissenschaft und Sicherheitsvorkehrungen für den Zugriff auf sensible Daten werden entscheidend sein, um sicherzustellen, dass die Bewertungen mit den Fortschritten bei den Modellfähigkeiten Schritt halten können.

Bewertungen durch Dritte sind eine Möglichkeit, externe Perspektiven in unsere Sicherheitsarbeit einzubeziehen. Diese werden parallel zu anderen Mechanismen eingesetzt. Um die psychische Gesundheit und das Wohlbefinden der Benutzer zu gewährleisten, führen wir außerdem gemeinsam mit externen Experten strukturierte Red-Teaming-Initiativen und Alignment-Projekte⁠ durch und arbeiten mit der US-amerikanischen CAISI und der britischen AISI⁠ sowie mit Beratungsgruppen wie unserem globalen Ärztenetz⁠ und unserem Expertenrat für Wohlbefinden und KI⁠ zusammen. Diese Bemühungen bringen verschiedene Formen von Fachwissen ein und bilden eine breitere, zuverlässigere Grundlage zur Bewertung und Steuerung fortschrittlicher KI-Systeme.

Anhang

Im Folgenden finden Sie einige Auszüge aus unseren Vereinbarungen mit Dritten, die mit uns bei Bewertungen vor der Bereitstellung zusammenarbeiten.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Autor

OpenAI

Fußnoten

1
Dieser Ansatz unterscheidet sich vom Red-Teaming, einer Methode, bei der es darum geht, Schutzmaßnahmen auf Herz und Nieren zu prüfen und Daten für die Entwicklung von Bewertungen bereitzustellen.
2
Wenn ein Modell absichtlich eine schlechtere Leistung erbringt oder seine tatsächlichen Fähigkeiten verbirgt, sobald es erkennt, dass es bewertet oder getestet wird.
3
„Helpful-only“-Modelle beantworten jede Anfrage, selbst wenn die Anfrage schädlich ist. Diese werden durch Nachtraining-Methoden erstellt, die dieses Verhalten erzielen.

Mehr lesen

Alles anzeigen

Safety and alignment in an era of long-horizon models

Sicherheit20. Juli 2026

Why teens deserve access to safe AI

Sicherheit16. Juli 2026

GPT-Red: Selbstverbesserung für mehr Robustheit

Sicherheit15. Juli 2026