Fitxa del model gpt-oss-120b i gpt-oss-20b
Presentem gpt-oss-120b i gpt-oss-20b, dos models de raonament de pesos oberts disponibles sota la llicència Apache 2.0 i la nostra política d'ús de gpt-oss. Desenvolupats amb comentaris de la comunitat de codi obert, aquests models només de text són compatibles amb la nostra API de Responses i estan dissenyats per fer-se servir dins de fluxos de treball agentius amb un fort seguiment d'instruccions, ús d'eines com la cerca web i l'execució de codi Python, i capacitats de raonament, inclosa la possibilitat d'ajustar l'esforç de raonament per a tasques que no requereixen un raonament complex. Els models es poden personalitzar, ofereixen la cadena de pensament (CoT) completa i admeten resultats estructurats.
La seguretat és fonamental en el nostre enfocament dels models oberts. Presenten un perfil de risc diferent del dels models propietaris: un cop es publiquen, atacants decidits podrien ajustar-los finament per esquivar les negatives de seguretat o optimitzar-los directament per causar dany, sense que OpenAI pugui implementar mitigacions addicionals ni revocar-ne l'accés.
En alguns contextos, els desenvolupadors i les empreses hauran d'implementar salvaguardes addicionals per replicar les proteccions a nivell de sistema integrades als models servits a través de la nostra API i dels nostres productes. Anomenem aquest document una fitxa del model, en lloc d'una fitxa del model, perquè els models gpt-oss es faran servir com a part d'una àmplia gamma de sistemes, creats i mantinguts per una àmplia varietat de parts interessades. Tot i que els models estan dissenyats per seguir per defecte les polítiques de seguretat d'OpenAI, altres parts interessades també prendran i implementaran les seves pròpies decisions sobre com mantenir segurs aquests sistemes.
Vam dur a terme avaluacions escalables de capacitats amb gpt-oss-120b i vam confirmar que el model per defecte no arriba als nostres llindars indicatius de capacitat alta en cap de les tres categories seguides del nostre Entorn de treball de preparació (capacitat biològica i química, capacitat cibernètica i automillora de la IA). També vam investigar dues preguntes addicionals:
- Actors adversaris podrien ajustar finament gpt-oss-120b per assolir una capacitat alta en els àmbits biològic i químic o cibernètic? Simulant les possibles accions d'un atacant, vam ajustar adversàriament el model gpt-oss-120b per a aquestes dues categories. El Safety Advisory Group («SAG») d'OpenAI va revisar aquestes proves i va concloure que, fins i tot amb un ajustament robust que aprofitava la pila d'entrenament líder del sector d'OpenAI, gpt-oss-120b no va assolir una capacitat alta en risc biològic i químic ni en risc cibernètic.
- L'alliberament de gpt-oss-120b avançaria significativament la frontera de les capacitats biològiques en els models fundacionals oberts? Vam trobar que la resposta és no: en la majoria de les avaluacions, el rendiment per defecte d'un o més models oberts existents s'acosta a igualar el rendiment de gpt-oss-120b ajustat adversàriament.
Com a part d'aquest llançament, OpenAI reafirma el seu compromís d'impulsar una IA beneficiosa i d'elevar els estàndards de seguretat a tot l'ecosistema.


