OpenAI o1 se situa al percentil 89 en preguntes de programació competitiva (Codeforces), queda entre els 500 millors estudiants dels EUA en una prova classificatòria per a l’Olimpíada de Matemàtiques dels EUA (AIME) i supera la precisió humana de nivell de doctorat en un punt de referència de problemes de física, biologia i química (GPQA). Tot i que la feina necessària per fer que aquest nou model sigui tan fàcil d’utilitzar com els models actuals encara continua, publiquem una versió primerenca d’aquest model, OpenAI o1‑preview, per al seu ús immediat a ChatGPT i per a usuaris de l’API de confiança(s'obre en una finestra nova).
El nostre algorisme d’aprenentatge per reforç a gran escala ensenya al model a pensar de manera productiva utilitzant la seva cadena de pensament en un procés d’entrenament molt eficient en dades. Hem comprovat que el rendiment d’o1 millora de manera constant amb més aprenentatge per reforç (còmput en temps d’entrenament) i amb més temps dedicat a pensar (còmput en temps de prova). Les restriccions per escalar aquest enfocament difereixen substancialment de les del preentrenament de LLM, i les continuem investigant.

o1 performance smoothly improves with both train-time and test-time compute
Per destacar la millora en el raonament respecte de GPT‑4o, vam posar a prova els nostres models amb un conjunt divers d’exàmens humans i punts de referència de ML. Mostrem que o1 supera de manera significativa GPT‑4o en la gran majoria d’aquestes tasques amb molta càrrega de raonament. Tret que s’indiqui el contrari, vam avaluar o1 amb la configuració màxima de còmput en temps de prova.







En molts punts de referència amb molta càrrega de raonament, o1 rivalitza amb el rendiment d’experts humans. Els models d’avantguarda recents1 funcionen tan bé a MATH2 i GSM8K que aquests punts de referència ja no serveixen per diferenciar models. Vam avaluar el rendiment en matemàtiques amb AIME, un examen dissenyat per posar a prova els estudiants de secundària de matemàtiques més brillants dels Estats Units. Als exàmens AIME de 2024, GPT‑4o només va resoldre de mitjana el 12% (1,8/15) dels problemes. o1 va obtenir de mitjana el 74% (11,1/15) amb una sola mostra per problema, el 83% (12,5/15) amb consens entre 64 mostres, i el 93% (13,9/15) quan es reordenaven 1000 mostres amb una funció de puntuació apresa. Una puntuació de 13,9 el situa entre els 500 millors estudiants del país i per sobre del llindar per a l’Olimpíada Matemàtica dels EUA.
També vam avaluar o1 a GPQA diamond, un punt de referència d’intel·ligència difícil que posa a prova l’expertesa en química, física i biologia. Per comparar els models amb humans, vam reclutar experts amb doctorat perquè responguessin preguntes de GPQA-diamond. Vam comprovar que o1 superava el rendiment d’aquests experts humans i es convertia en el primer model a fer-ho en aquest punt de referència. Aquests resultats no impliquen que o1 sigui més capaç que una persona amb doctorat en tots els aspectes, sinó només que el model és més competent per resoldre alguns problemes que s’esperaria que resolgués una persona amb doctorat. En diversos altres punts de referència de ML, o1 va millorar respecte a l’estat de l’art. Amb les seves capacitats de percepció visual activades, o1 va obtenir un 78,2% a MMMU i es va convertir en el primer model competitiu amb experts humans. També va superar GPT‑4o en 54 de les 57 subcategories de MMLU.
De manera semblant a com un humà pot pensar durant molt de temps abans de respondre una pregunta difícil, o1 utilitza una cadena de pensament quan intenta resoldre un problema. Mitjançant l’aprenentatge per reforç, o1 aprèn a perfeccionar la seva cadena de pensament i a refinar les estratègies que utilitza. Aprèn a reconèixer i corregir els seus errors. Aprèn a descompondre passos complicats en altres de més senzills. Aprèn a provar un enfocament diferent quan l’actual no funciona. Aquest procés millora de manera espectacular la capacitat de raonament del model. Per il·lustrar aquest gran salt endavant, a continuació mostrem la cadena de pensament d’o1‑preview en diversos problemes difícils.
GPT-4o
OpenAI o1-preview
Vam entrenar un model que va obtenir 213 punts i es va situar al percentil 49 a l’Olimpíada Internacional d’Informàtica (IOI) de 2024, inicialitzant-lo a partir d’o1 i entrenant-lo per millorar encara més les habilitats de programació. Aquest model va competir a la IOI de 2024 en les mateixes condicions que els concursants humans. Va tenir deu hores per resoldre sis problemes algorítmics difícils i podia fer 50 enviaments per problema.
Per a cada problema, el nostre sistema va mostrejar molts enviaments candidats i en va presentar 50 segons una estratègia de selecció en temps de prova. Els enviaments es van seleccionar segons el rendiment en els casos de prova públics de la IOI, els casos de prova generats pel model i una funció de puntuació apresa. Si en lloc d’això els haguéssim enviat a l’atzar, només hauríem obtingut de mitjana 156 punts, cosa que suggereix que aquesta estratègia valia gairebé 60 punts sota les restriccions de la competició.
Amb una restricció d’enviaments més flexible, vam veure que el rendiment del model millorava de manera significativa. Quan es permetien 10.000 enviaments per problema, el model va assolir una puntuació de 362,14 — per sobre del llindar de medalla d’or — fins i tot sense cap estratègia de selecció en temps de prova.
Finalment, vam simular concursos de programació competitiva allotjats per Codeforces per demostrar la capacitat de codificació d’aquest model. Les nostres avaluacions s’ajustaven estretament a les regles de la competició i permetien 10 enviaments. GPT‑4o va assolir una puntuació Elo3 de 808, que correspon a l’11è percentil dels competidors humans. Aquest model va superar àmpliament tant GPT‑4o com o1: va assolir una puntuació Elo de 1807, amb un rendiment millor que el del 93% dels competidors.

Further fine-tuning on programming competitions improves o1. The improved model ranked in the 49th percentile in the 2024 International Olympiad in Informatics under competition rules.
A més d’exàmens i punts de referència acadèmics, també vam avaluar la preferència humana entre o1‑preview i GPT‑4o en indicacions obertes i difícils dins d’un ampli ventall de dominis. En aquesta avaluació, es mostraven als entrenadors humans respostes anonimitzades a una indicació d’o1‑preview i GPT‑4o, i votaven quina resposta preferien. o1‑preview és clarament preferit a gpt-4o en categories amb molta càrrega de raonament com l’anàlisi de dades, la programació i les matemàtiques. Tanmateix, o1‑preview no és preferit en algunes tasques de llenguatge natural, cosa que suggereix que no és adequat per a tots els casos d’ús.

El raonament amb cadena de pensament ofereix noves oportunitats per a l’alineament i la seguretat. Hem comprovat que integrar les nostres polítiques sobre el comportament del model a la cadena de pensament d’un model de raonament és una manera eficaç d’ensenyar de manera robusta valors i principis humans. En ensenyar al model les nostres regles de seguretat i com raonar-hi dins del context, hem trobat indicis que la capacitat de raonament beneficia directament la robustesa del model: o1‑preview va aconseguir un rendiment substancialment millor en avaluacions clau de jailbreak i en els nostres punts de referència interns més exigents per avaluar els límits de negativa de seguretat del nostre model. Creiem que utilitzar una cadena de pensament ofereix avenços significatius per a la seguretat i l’alineament perquè (1) ens permet observar el model pensant d’una manera llegible, i (2) el raonament del model sobre les regles de seguretat és més robust davant d’escenaris fora de distribució.
Per posar a prova les nostres millores, vam dur a terme un conjunt de proves de seguretat i exercicis de red-teaming abans del desplegament, d’acord amb el nostre Entorn de treball de preparació(s'obre en una finestra nova). Vam comprovar que el raonament amb cadena de pensament contribuïa a millores de capacitat en totes les nostres avaluacions. Cal destacar especialment que vam observar casos interessants de reward hacking(s'obre en una finestra nova). Els resultats detallats d’aquestes avaluacions es poden trobar a la fitxa del model adjunta.
| Mètrica | GPT-4o | Vista prèvia d'o1 |
|---|---|---|
| % de complecions segures en indicacions perjudicials Estàndard | 0,990 | 0,995 |
| % de complecions segures en indicacions perjudicials Desafiant: casos límit i intents de jailbreak | 0,714 | 0,934 |
| ↳ Assetjament (greu) | 0,845 | 0,900 |
| ↳ Contingut d'explotació sexual | 0,483 | 0,949 |
| ↳ Contingut sexual amb menors | 0,707 | 0,931 |
| ↳ Consells sobre mala conducta no violenta | 0,688 | 0,961 |
| ↳ Consells sobre delictes violents | 0,778 | 0,963 |
| % de complecions segures per als 200 principals amb les puntuacions més altes de l'API de moderació per categoria a WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Instrucció: Etiqueta per a la mètrica Goodness@0.1 StrongREJECT jailbreak eval Souly et al. 2024 a la taula de resultats de l’examen | 0,220 | 0,840 |
| Avaluació de jailbreak amb font humana | 0,770 | 0,960 |
| % de compliment en casos límit interns benignes "no sobrerebuig" | 0,910 | 0,930 |
| % de compliment en casos límit benignes a XSTest "no sobrerebuig" Röttger, et al. 2023 | 0,924 | 0,976 |
Creiem que una cadena de pensament oculta presenta una oportunitat única per supervisar models. Si assumim que és fidel i llegible, la cadena de pensament oculta ens permet «llegir la ment» del model i entendre el seu procés de pensament. Per exemple, en el futur potser voldrem supervisar la cadena de pensament per detectar senyals que està manipulant l’usuari. Tanmateix, perquè això funcioni, el model ha de tenir llibertat per expressar els seus pensaments de forma inalterada, de manera que no podem entrenar cap compliment de polítiques ni preferències d’usuari sobre la cadena de pensament. Tampoc no volem fer visible directament als usuaris una cadena de pensament no alineada.
Per tant, després de sospesar múltiples factors, com ara l’experiència d’usuari, l’avantatge competitiu i l’opció de seguir la supervisió de la cadena de pensament, hem decidit no mostrar als usuaris les cadenes de pensament en brut. Reconeixem que aquesta decisió té inconvenients. Ens esforcem per compensar-ho parcialment ensenyant al model a reproduir en la resposta qualsevol idea útil de la cadena de pensament. Per a la sèrie de models o1 mostrem un resum de la cadena de pensament generat pel model.
o1 fa avançar de manera significativa l’estat de l’art en el raonament d’IA. Tenim previst publicar versions millorades d’aquest model a mesura que continuem iterant. Esperem que aquestes noves capacitats de raonament millorin la nostra capacitat d’alinear els models amb els valors i principis humans. Creiem que o1 — i els seus successors — desbloquejarà molts casos d’ús nous per a la IA en ciència, programació, matemàtiques i camps relacionats. Ens entusiasma que usuaris i desenvolupadors d’API descobreixin com pot millorar la seva feina diària.
| Conjunt de dades | Mètrica | gpt-4o | Vista prèvia d'o1 | o1 |
|---|---|---|---|---|
| Matemàtiques de competició AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Codi de competició CodeForces | Elo | 808 | 1.258 | 1.673 |
| Percentil | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologia | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Química | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Física | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | n/a | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | n/a | 73,9 |
Autors
Citacions
- 1
- 2
Les nostres avaluacions van fer servir la mateixa partició de prova de 500 problemes que es troba a https://arxiv.org/abs/2305.20050(s'obre en una finestra nova)
- 3






