12 settembre 2024

Presentazione di OpenAI o1‑preview

Una nuova serie di modelli di ragionamento per la soluzione di problemi difficili. Disponibile ora.

Caricamento in corso...

Aggiornamento del 17 settembre 2024: I limiti di velocità sono ora 50 query a settimana per o1‑preview e 50 query al giorno per o1‑mini.

Abbiamo sviluppato una nuova serie di modelli di IA progettati per dedicare più tempo alla riflessione prima di rispondere. Questi modelli possono ragionare su attività complesse e risolvere problemi più difficili rispetto ai modelli precedenti nei campi nella scienza, della codifica e della matematica.

Oggi pubblichiamo la prima di questa serie su ChatGPT e la nostra API. Si tratta di un’anteprima e ci aspettiamo aggiornamenti e miglioramenti regolari. Insieme a questa release, stiamo includendo anche le valutazioni per il prossimo aggiornamento, attualmente in fase di sviluppo.

Come funziona

Abbiamo addestrato questi modelli a dedicare più tempo a riflettere sui problemi prima di rispondere, proprio come farebbe una persona. Attraverso l’addestramento, imparano a perfezionare il loro processo di pensiero, a provare diverse strategie e a riconoscere i propri errori.

Nei nostri test, il prossimo aggiornamento del modello ha ottenuto prestazioni simili a quelle degli studenti di dottorato in attività di benchmark impegnativi in fisica, chimica e biologia. Abbiamo anche scoperto che eccelle in matematica e codifica. In un esame di qualificazione per le Olimpiadi Internazionali di Matematica (IMO), il GPT‑4o ha risolto correttamente solo il 13% dei problemi, mentre il modello di ragionamento ha ottenuto l’83%. Le loro capacità di codifica sono state valutate in concorsi e hanno raggiunto l’89° percentile nelle competizioni di Codeforces. Per saperne di più, leggi il post sulla ricerca tecnica.

Essendo un modello iniziale, non dispone ancora di molte delle funzioni che rendono utile ChatGPT, come la navigazione sul Web per ottenere informazioni e il caricamento di file e immagini. Per molti casi comuni il GPT‑4o sarà più adatto nel breve termine.

Ma per le attività di ragionamento complesse si tratta di un progresso significativo e rappresenta un nuovo livello di capacità dell’intelligenza artificiale. Per questo motivo, reimpostiamo il contatore a 1 e nominiamo questa serie OpenAI o1.

Sicurezza

Nell’ambito dello sviluppo di questi nuovi modelli, abbiamo ideato un nuovo approccio di addestramento sulla sicurezza che sfrutta le loro capacità di ragionamento per farli aderire alle linee guida sulla sicurezza e sull’allineamento. Potendo ragionare sulle nostre regole di sicurezza nel contesto, può applicarle in modo più efficace.

Un modo per misurare la sicurezza è testare quanto il nostro modello continui a seguire le regole di sicurezza se un utente cerca di aggirarle (il cosiddetto «jailbreak»). In uno dei nostri test di jailbreak più difficili, il GPT‑4o ha ottenuto un punteggio di 22 (su una scala da 0 a 100), mentre il nostro modello o1‑preview ha ottenuto 84. Per saperne di più, consulta la scheda del sistema e il nostro post di ricerca.

Per adeguarci alle nuove capacità di questi modelli, abbiamo rafforzato il lavoro sulla sicurezza, la governance interna e la collaborazione con il governo federale. Questo include test e valutazioni rigorosi utilizzando il Framework di preparazione⁠(si apre in una nuova finestra), il miglior red teaming della categoria e processi di revisione a livello di consiglio di amministrazione, anche da parte del nostro Comitato per la Sicurezza e la Protezione (SSC).

Per proseguire nell’impegno per la sicurezza delle IA, abbiamo recentemente formalizzato accordi con gli Stati Uniti e il Regno Unito. Istituti di sicurezza IA. Abbiamo iniziato a rendere operativi questi accordi, concedendo anche agli istituti l’accesso anticipato a una versione di ricerca di questo modello. Si è trattato di un primo importante passo nella collaborazione, che ha stabilito un processo di ricerca, valutazione e sperimentazione dei modelli futuri prima e dopo il loro rilascio pubblico.

A chi è destinato

Queste capacità di ragionamento migliorate possono essere particolarmente utili se si affrontano problemi complessi in ambito scientifico, di codifica, matematico e simili. Ad esempio, o1 può essere utilizzato dai ricercatori del settore sanitario per annotare i dati del sequenziamento cellulare, dai fisici per generare complicate formule matematiche necessarie per l’ottica quantistica e dagli sviluppatori di tutti i settori per costruire ed eseguire flussi di lavoro in più fasi.

OpenAI o1-mini

La serie o1 eccelle nella generazione e nel debug di codici complessi. Per offrire una soluzione più efficiente agli sviluppatori, stiamo rilasciando anche OpenAI o1‑mini, un modello di ragionamento più veloce ed economico, particolarmente efficace per la codifica. Come modello di più piccole dimensioni, o1‑mini è più economico dell’80% rispetto a o1‑preview, il che lo rende un modello potente e conveniente per le applicazioni che richiedono un ragionamento ma non un’ampia conoscenza del mondo.

Come usare OpenAI o1

Gli utenti di ChatGPT Plus e Team potranno accedere ai modelli o1 in ChatGPT a partire da oggi. Sia o1‑preview che o1‑mini possono essere selezionati manualmente nel selezionatore di modelli e, al momento del lancio, i limiti tariffari settimanali saranno di 30 messaggi per o1‑preview e 50 per o1‑mini. Stiamo lavorando per aumentare queste percentuali e consentire a ChatGPT di scegliere automaticamente il modello giusto per un determinato prompt.

Un’immagine del nuovo menu a tendina di ChatGPT che mostra la nuova opzione di modello «o1-preview» su uno sfondo astratto giallo e blu brillante.

Gli utenti di ChatGPT Enterprise ed Edu avranno accesso a entrambi i modelli a partire dalla prossima settimana.

Gli sviluppatori che si qualificano per il livello 5 di utilizzo dell’API⁠(si apre in una nuova finestra) possono iniziare oggi stesso la prototipazione con entrambi i modelli dell’API con un limite di velocità di 20 RPM. Stiamo lavorando per aumentare questi limiti dopo ulteriori test. L’API per questi modelli attualmente non include le chiamate di funzione, lo streaming, il supporto per i messaggi di sistema e altre caratteristiche. Per iniziare, consulta la documentazione dell’API⁠(si apre in una nuova finestra).

Stiamo anche pianificando di portare l’accesso a o1‑mini a tutti gli utenti free di ChatGPT.

Novità

Questa è una prima anteprima di questi modelli di ragionamento in ChatGPT e nell’API. Oltre agli aggiornamenti dei modelli, prevediamo di aggiungere la navigazione, il caricamento di file e immagini e altre funzioni per renderli più utili a tutti.

Abbiamo inoltre in programma di continuare a sviluppare e rilasciare modelli della serie GPT, oltre alla nuova serie OpenAI o1.

Autori

OpenAI