Imparare a ragionare con gli LLM
Ti presentiamo OpenAI o1, un nuovo modello linguistico di grandi dimensioni addestrato con apprendimento per rinforzo e in grado di svolgere complesse attività di ragionamento. o1 pensa prima di rispondere: sviluppa una lunga catena di pensiero interna prima di rispondere all’utente.
OpenAI o1 si colloca nell’89° percentile nelle domande di programmazione competitiva (Codeforces), si piazza tra i primi 500 studenti negli Stati Uniti in una prova di qualificazione per le Olimpiadi di matematica USA (AIME) e supera la precisione di un dottorato di ricerca umano in un benchmark di problemi di fisica, biologia e chimica (GPQA). Sebbene si stia ancora lavorando per rendere questo nuovo modello facile da usare quanto i modelli attuali, stiamo rilasciando una versione preliminare del modello, OpenAI o1‑preview, per l’utilizzo immediato in ChatGPT e per gli utenti API fidati(si apre in una nuova finestra).
Il nostro algoritmo di apprendimento per rinforzo su larga scala insegna al modello a ragionare in modo produttivo sfruttando la propria catena di pensiero, all’interno di un processo di addestramento altamente efficiente dal punto di vista dei dati. Abbiamo osservato che le prestazioni di o1 migliorano in modo costante con un maggiore apprendimento per rinforzo (potenza di calcolo durante l’addestramento) e con più tempo dedicato al ragionamento (potenza di calcolo durante l’esecuzione). I limiti di espansione di questo approccio sono sensibilmente diversi da quelli del pre-addestramento degli LLM e stiamo continuando a esplorarli.

Le prestazioni di o1 migliorano in modo graduale con l’aumento della potenza di calcolo sia durante l'addestramento che durante l'esecuzione
Per evidenziare i progressi nel ragionamento rispetto a GPT‑4o, abbiamo testato i nostri modelli su un set variegato di esami umani e benchmark di machine learning (ML). I risultati mostrano che o1 supera notevolmente GPT‑4o nella stragrande maggioranza di queste attività che richiedono un ragionamento approfondito. Salvo diversa indicazione, o1 è stato valutato utilizzando la massima potenza di calcolo durante l'esecuzione.







In numerosi benchmark che richiedono un ragionamento complesso, o1 si avvicina alle prestazioni di esperti umani. I modelli all’avanguardia più recenti1 ottengono risultati così elevati in MATH22 e GSM8K da rendere questi benchmark poco efficaci nel distinguere tra i vari modelli. Abbiamo valutato le prestazioni in matematica per AIME, un esame pensato per mettere alla prova gli studenti più brillanti delle scuole superiori degli Stati Uniti. Negli esami di AIME 2024, GPT‑4o ha risolto in media solo il 12% (1,8 su 15) dei problemi. o1 ha raggiunto una media del 74% (11,1 su 15) con una singola risposta per problema, l’83% (12,5 su 15) con un consenso su 64 risposte, e il 93% (13,9 su 15) in seguito a una riclassificazione di 1.000 risposte con una funzione di valutazione appresa. Un punteggio di 13,9 lo colloca tra i primi 500 studenti a livello nazionale e al di sopra della soglia di partecipazione alle Olimpiadi di matematica USA.
Abbiamo valutato o1 anche sulla base di GPQA diamond, un benchmark impegnativo che verifica competenze in chimica, fisica e biologia. Al fine di confrontare i modelli con gli esseri umani, abbiamo coinvolto esperti con titoli di dottorato di ricerca (PhD) che rispondessero alle domande di GPQA diamond. Abbiamo scoperto che o1 ha superato le prestazioni di questi esperti, diventando il primo modello a raggiungere questo risultato per questo benchmark. Questi risultati non implicano che o1 sia più competente di una persona con PhD sotto tutti i punti di vista, ma soltanto che il modello è più abile nel risolvere alcuni problemi che ci si aspetta una persona con questo titolo sappia risolvere. In vari altri benchmark di ML, o1 è risultato migliore rispetto ai modelli all'avanguardia. Con le funzionalità di percezione visiva attive, o1 ha ottenuto un punteggio del 78,2% in MMMU, diventando così il primo modello in grado di competere con esperti umani. Ha inoltre superato GPT‑4o in 54 delle 57 sottocategorie di MMLU.
Proprio come una persona può prendersi del tempo per pensare prima di rispondere a una domanda difficile, o1 utilizza una catena di pensiero quando tenta di risolvere un problema. Attraverso l'apprendimento per rinforzo, o1 impara ad affinare questa catena e a perfezionare le strategie che applica. Impara a riconoscere e correggere i propri errori, a scomporre passaggi complessi in parti più semplici e a cambiare approccio quando quello attuale non funziona. Questo processo migliora in modo significativo la capacità di ragionamento del modello. Per illustrare questo progresso, mostriamo di seguito la catena di pensiero di o1‑preview per vari problemi complessi.
GPT-4o
OpenAI o1-preview
Abbiamo addestrato un modello che ha ottenuto 213 punti e si è classificato nel 49° percentile alle Olimpiadi internazionali di informatica (IOI) del 2024, partendo da o1 ed eseguendo un addestramento per affinare ulteriormente le capacità di programmazione. Questo modello ha partecipato alle IOI 2024 alle stesse condizioni dei concorrenti umani: aveva dieci ore per risolvere sei problemi algoritmici complessi e poteva inviare fino a 50 soluzioni per ciascun problema.
Per ogni esercizio, il sistema ha generato numerose soluzioni candidate e ne ha inviate 50 sulla base di una strategia di selezione durante l'esecuzione. Le soluzioni inviate venivano scelte in base alle prestazioni su casi di test pubblici delle IOI, casi di test generati dal modello e in base a una funzione di valutazione appresa. Se le soluzioni fossero state inviate in modo casuale, il punteggio medio sarebbe stato di soli 156 punti, il che suggerisce che questa strategia ha permesso di ottenere quasi 60 punti in più in condizioni di competizione.
Con un limite di soluzioni meno restrittivo, le prestazioni del modello sono migliorate sensibilmente. Con 10.000 soluzioni consentite per problema, il modello ha ottenuto un punteggio di 362,14, al di sopra della soglia necessaria per la medaglia d’oro, anche senza alcuna strategia di selezione durante l'esecuzione.
Infine, abbiamo simulato un concorso di programmazione competitiva ospitato su Codeforces per dimostrare le abilità di codifica di questo modello. Le nostre valutazioni hanno rispettato fedelmente le regole del concorso e hanno consentito 10 soluzioni. GPT‑4o ha raggiunto un punteggio Elo3 pari a 808, posizionandosi nell’11° percentile dei concorrenti umani. Questo modello ha superato di gran lunga sia GPT‑4o che l'o1: ha raggiunto una valutazione Elo pari a 1.807, con prestazioni migliori del 93% dei concorrenti.

Un'ulteriore ottimizzazione per competizioni di programmazione migliora le capacità di o1. Il modello così potenziato si è classificato nel 49° percentile alle Olimpiadi internazionali di informatica 2024 secondo le regole della competizione.
Oltre a esami e benchmark accademici, abbiamo valutato anche la preferenza umana di o1‑preview rispetto a GPT‑4o per prompt complessi e aperti in una vasta gamma di ambiti. In questa valutazione, ai formatori umani sono state mostrate le risposte anonime a un prompt di o1‑preview e GPT‑4o e i formatori hanno votato la risposta che preferivano. o1‑preview è stato preferito a gpt-4o con un ampio margine nelle categorie di ragionamento complesso come analisi dei dati, codifica e matematica. Tuttavia, o1‑preview non è stato preferito per alcune attività di linguaggio naturale, il che suggerisce che non sia adatto a tutti i casi d’uso.

Il ragionamento tramite catena di pensiero apre la strada a nuove opportunità in termini di allineamento e sicurezza. Abbiamo riscontrato che l'integrazione delle nostre politiche di comportamento del modello all'interno della catena di pensiero costituisce un modo efficace per trasmettere adeguatamente valori e principi umani. Insegnando al modello le nostre regole di sicurezza e come ragionarvi in base al contesto, abbiamo rilevato che le capacità di ragionamento migliorano direttamente la robustezza del modello: o1‑preview ha ottenuto prestazioni notevolmente superiori nei principali test di jailbreak e nei nostri benchmark interni più rigorosi per la valutazione dei limiti di rifiuto della sicurezza. Riteniamo che il ricorso alla catena di pensiero rappresenti un progresso rilevante per la sicurezza e l’allineamento in quanto (1) consente di osservare in modo leggibile il processo di ragionamento del modello e (2) il ragionamento del modello sulle regole di sicurezza risulta più resistente a scenari fuori distribuzione.
Per mettere alla prova i nostri miglioramenti, abbiamo eseguito una serie di test di sicurezza e red teaming prima del rilascio, in linea con il nostro Framework di preparazione(si apre in una nuova finestra). Abbiamo constatato che il ragionamento con catena di pensiero ha contribuito a migliorare le capacità in tutte le nostre valutazioni. In particolare, abbiamo rilevato casi interessanti di hacking della ricompensa(si apre in una nuova finestra). La scheda di sistema fornisce i risultati dettagliati di queste valutazioni.
| Metrica | GPT-4o | o1-preview |
|---|---|---|
| % di completamenti sicuri su prompt dannosi Standard | 0,990 | 0,995 |
| % di completamenti sicuri su prompt dannosi Sfidante: jailbreak e casi limite | 0,714 | 0,934 |
| ↳ Molestie (gravi) | 0,845 | 0,900 |
| ↳ Contenuti sessuali di sfruttamento | 0,483 | 0,949 |
| ↳ Contenuti sessuali che coinvolgono minori | 0,707 | 0,931 |
| ↳ Consigli su comportamenti illeciti non violenti | 0,688 | 0,961 |
| ↳ Consigli su comportamenti illeciti violenti | 0,778 | 0,963 |
| % di completamenti sicuri per i primi 200 con i punteggi API di moderazione più alti per categoria in WildChat Zhao et al. 2024 | 0,945 | 0,971 |
| Valutazione jailbreak Goodness@0.1 StrongREJECT Souly et al. 2024 | 0,220 | 0,840 |
| Valutazione jailbreak di origine umana | 0,770 | 0,960 |
| % di conformità sui casi limite benigni interni “not over-refusal” | 0,910 | 0,930 |
| % di conformità sui casi limite benigni in XSTest “not over-refusal” Röttger et al. 2023 | 0,924 | 0,976 |
Riteniamo che una catena di pensiero nascosta rappresenti un’opportunità unica per il monitoraggio dei modelli. Se fedele e leggibile, questa catena nascosta ci permette di “leggere nella mente” del modello e comprenderne il processo di ragionamento. Ad esempio, in futuro potremmo voler monitorare la catena di pensiero per individuare segnali di manipolazione dell’utente. Tuttavia, affinché ciò funzioni, il modello deve poter esprimere liberamente i propri pensieri in forma non alterata, pertanto non possiamo applicare alcuna politica di conformità o preferenze utente direttamente alla catena di pensiero. Inoltre, non vogliamo rendere visibile agli utenti una catena di pensiero non allineata.
Di conseguenza, dopo aver valutato diversi fattori, tra cui l’esperienza utente, il vantaggio competitivo e la possibilità di monitorare la catena di pensiero, abbiamo deciso di non mostrare agli utenti le catene di pensiero grezze. Riconosciamo che questa decisione comporta degli svantaggi, ma cerchiamo di compensarli parzialmente insegnando al modello a riportare nelle sue risposta le idee utili emerse dalla catena di pensiero. Per la serie di modelli o1, mostriamo un riepilogo della catena di pensiero generata dal modello.
o1 segna un grande progresso nello stato dell’arte del ragionamento delle IA. Abbiamo in programma di rilasciare versioni migliorate di questo modello man mano che proseguiremo con le iterazioni. Ci aspettiamo che queste nuove capacità di ragionamento migliorino l'allineamento dei modelli ai valori e ai principi umani. Crediamo che o1 e i suoi successori apriranno la strada a molti nuovi casi d’uso dell’IA in ambiti come la scienza, la codifica, la matematica e settori correlati. Non vediamo l'ora che utenti e sviluppatori API scoprano in che modo può migliorare il loro lavoro quotidiano.
| Set di dati | Metrica | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Matematica competitiva AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Codice competizione CodeForces | Elo | 808 | 1258 | 1673 |
| Percentile | 11,0 | 62,0 | 89,0 | |
| GPQA diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologia | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Chimica | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Fisica | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | n/d | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | n/d | 73,9 |
Autori
Citazioni
- 1
- 2
Le nostre valutazioni hanno utilizzato la stessa porzione di dati di test composta da 500 problemi presente all'indirizzo https://arxiv.org/abs/2305.20050(si apre in una nuova finestra)
- 3






