5 augustus 2025

gpt‑oss‑120b & gpt‑oss‑20b Modelkaart

Inleiding

We introduceren gpt-oss-120b en gpt-oss-20b, twee open-weight reasoning-modellen die beschikbaar zijn onder de Apache 2.0-licentie en ons gpt-oss-gebruiksbeleid. Ontwikkeld met feedback van de open-sourcegemeenschap zijn deze tekst-only modellen compatibel met onze Responses API en ontworpen voor gebruik in agentische workflows met sterk opvolgen van instructies, gereedschapsgebruik zoals webzoekopdrachten en het uitvoeren van Python-code, en redeneringscapaciteiten – waaronder de mogelijkheid om de redeneringsinspanning aan te passen voor taken die geen complexe redenering vereisen. De modellen zijn aanpasbaar, bieden volledige Chain‑of‑Thought (CoT) en ondersteunen gestructureerde output.

Veiligheid is fundamenteel voor onze benadering van open models. Ze hebben een ander risicoprofiel dan propriëtaire modellen: Zodra ze zijn vrijgegeven, zouden vastberaden aanvallers ze kunnen fine-tunen om veiligheidsweigeringen te omzeilen of ze direct te optimaliseren voor schadelijke doeleinden, zonder dat OpenAI extra mitigaties kan implementeren of de toegang kan intrekken.

In sommige situaties zullen ontwikkelaars en bedrijven extra beveiligingsmaatregelen moeten implementeren om de systeemniveaubescherming te reproduceren die is ingebouwd in de modellen die via onze API en producten worden aangeboden. We noemen dit document een modelkaart in plaats van een systeemkaart, omdat de gpt-oss-modellen zullen worden gebruikt als onderdeel van een breed scala aan systemen die door uiteenlopende belanghebbenden worden ontwikkeld en onderhouden. Hoewel de modellen standaard zijn ontworpen om OpenAI’s veiligheidsbeleid te volgen, zullen andere belanghebbenden ook hun eigen beslissingen nemen en uitvoeren over hoe zij die systemen veilig houden.

We hebben schaalbare capaciteitsevaluaties uitgevoerd op gpt-oss-120b en bevestigd dat het standaardmodel geen van onze indicatieve drempels voor High capability bereikt in een van de drie gevolgde categorieën van ons Preparedness Framework (Biological and Chemical capability, Cyber capability en AI Self-Improvement). We onderzochten ook twee aanvullende vragen:

Zouden kwaadwillende actoren gpt-oss-120b kunnen fine-tunen zodat het High capability bereikt in de domeinen Biological and Chemical of Cyber? Door de mogelijke acties van een aanvaller te simuleren, fine‑tunden we gpt‑oss‑120b adversarieel voor deze twee categorieën. De Safety Advisory Group (“SAG”) van OpenAI beoordeelde deze tests en concludeerde dat gpt-oss-120b, zelfs met robuuste fine-tuning op basis van OpenAI’s toonaangevende training stack, geen High capability bereikte op het gebied van Biological and Chemical Risk of Cyber risk.
Zou de vrijgave van gpt‑oss‑120b de grens van biologische capaciteiten in open foundation‑modellen aanzienlijk vooruithelpen? We concludeerden dat het antwoord nee is: Bij het merendeel van de evaluaties komt de standaardprestatie van één of meer bestaande open modellen bijna overeen met de adversarial fine-tuned prestatie van gpt-oss-120b.

Als onderdeel van deze lancering herbevestigt OpenAI zijn toewijding om nuttige AI vooruit te helpen en de veiligheidsnormen in het hele ecosysteem te verhogen.

Auteur

OpenAI

Andere interessante artikelen

Alles weergeven

Safety and alignment in an era of long-horizon models

Veiligheid20 jul 2026

Why teens deserve access to safe AI — card image

Waarom tieners toegang verdienen tot veilige AI

Veiligheid16 jul 2026

GPT-Red: zelfverbetering voor robuustheid ontsluiten

Veiligheid15 jul 2026