Zum Hauptinhalt springen
OpenAI

gpt‑oss‑120b & gpt‑oss‑20b Modelldatenblatt

Einleitung

Wir stellen gpt-oss-120b und gpt-oss-20b vor – zwei Open-Weight-Reasoning-Modelle, die unter der Apache-2.0-Lizenz und unserer gpt-oss-Nutzungsrichtlinie verfügbar sind. Mit Feedback aus der Open-Source-Community entwickelt, sind diese reinen Textmodelle mit unserer Responses API kompatibel und dafür ausgelegt, in agentischen Workflows eingesetzt zu werden, die präzises Befolgen von Anweisungen, Werkzeugnutzung wie Websuche und Ausführung von Python-Code sowie umfangreiche Reasoning-Fähigkeiten unterstützen – einschließlich der Möglichkeit, den Reasoning-Aufwand für Aufgaben anzupassen, die keine komplexe Logik erfordern. Die Modelle sind anpassbar, bieten vollständige Chain‑of‑Thought‑(CoT)‑Einblicke und unterstützen strukturierte Ausgaben.

Sicherheit ist die Basis unseres Ansatzes für offene Modelle. Sie weisen ein anderes Risikoprofil auf als proprietäre Modelle: Sobald sie veröffentlicht sind, könnten entschlossene Angreifer sie feinabstimmen, um Sicherheitsverweigerungen zu umgehen oder sie direkt für Schadenszwecke zu optimieren, ohne dass OpenAI weitere Schutzmaßnahmen implementieren oder den Zugriff entziehen kann.

In manchen Kontexten müssen Entwickler und Unternehmen zusätzliche Schutzmaßnahmen implementieren, um die systemweiten Schutzmechanismen nachzubilden, die in die über unsere API und Produkte bereitgestellten Modelle eingebaut sind. Wir bezeichnen dieses Dokument als Model Card und nicht als System Card, weil die gpt-oss-Modelle in einer Vielzahl von Systemen eingesetzt werden, die von unterschiedlichsten Stakeholdern erstellt und gepflegt werden. Obwohl die Modelle standardmäßig darauf ausgelegt sind, OpenAIs Sicherheitsrichtlinien zu befolgen, werden andere Stakeholder ebenfalls eigene Entscheidungen darüber treffen und umsetzen, wie sie diese Systeme sicher halten.

Wir haben skalierbare Fähigkeits­bewertungen für gpt-oss-120b durchgeführt und bestätigt, dass das Standardmodell in keiner der drei verfolgten Kategorien unseres Preparedness Frameworks (Biological and Chemical capability, Cyber capability und AI Self-Improvement) unsere Richtwerte für eine hohe Fähigkeit erreicht. Wir haben außerdem zwei zusätzliche Fragen untersucht:

  • Könnten böswillige Akteure gpt-oss-120b feinabstimmen, um High capability in den Bereichen Biological and Chemical oder Cyber zu erreichen? Indem wir die möglichen Handlungen eines Angreifers simulierten, haben wir gpt‑oss‑120b adversarial für diese beiden Kategorien feinabgestimmt. Obwohl die Modelle standardmäßig darauf ausgelegt sind, OpenAIs Sicherheitsrichtlinien zu befolgen, werden andere Stakeholder ebenfalls eigene Entscheidungen darüber treffen und umsetzen, wie sie diese Systeme sicher halten.
  • Würde die Veröffentlichung von gpt‑oss‑120b die biologische Leistungsgrenze in offenen Foundation‑Modellen signifikant vorantreiben? Wir stellten fest, dass die Antwort nein lautet: Bei den meisten Evaluierungen kommt die Standardleistung eines oder mehrerer bestehender Open-Modelle nahezu an die adversarial fine-getunte Leistung von gpt-oss-120b heran.

Im Rahmen dieses Launches bekräftigt OpenAI sein Bekenntnis, förderliche KI voranzutreiben und die Sicherheitsstandards im gesamten Ökosystem anzuheben.

Autor

OpenAI