Vai al contenuto principale
OpenAI

Abbiamo creato GPT‑4, l’ultimo traguardo nello sforzo di OpenAI per estendere il deep learning. GPT‑4 è un modello multimodale di grandi dimensioni (accetta input testuali e visivi e produce output testuali) che, pur non eguagliando l’essere umano in molti contesti reali, raggiunge prestazioni di livello umano in diversi benchmark accademici e professionali. Ad esempio, supera un esame di abilitazione forense simulato con un punteggio intorno al 10% dei migliori candidati; al contrario, GPT‑3.5 si collocava tra il 10% peggiore. Abbiamo lavorato per sei mesi per allineare GPT‑4 in modo iterativo, sfruttando le lezioni apprese dal nostro programma di test avversari e da ChatGPT, e abbiamo ottenuto i migliori risultati di sempre (anche se ancora imperfetti) in termini di fattualità, manovrabilità e rispetto dei limiti di sicurezza.

Negli ultimi due anni abbiamo ricostruito da zero l’intero stack di deep learning e, in collaborazione con Azure, abbiamo progettato un supercomputer appositamente per i nostri carichi di lavoro. Un anno fa abbiamo addestrato GPT‑3.5 come primo "test" di sistema. Questo ci ha permesso di correggere alcuni bug e rafforzare le nostre basi teoriche. Il risultato è stato un addestramento di GPT‑4 insolitamente stabile (almeno per noi): è il primo modello di grandi dimensioni di cui siamo riusciti a prevedere con precisione l'andamento durante l'addestramento. Mentre proseguiamo nel nostro impegno di espansione, il nostro obiettivo è affinare il nostro approccio per anticipare e gestire con maggiore previsione le capacità future, un punto cruciale per la sicurezza.

Rilasciamo la funzionalità di input testuale di GPT‑4 tramite ChatGPT e API (con lista d’attesa). Per lanciare su scala più ampia la funzione di input visivo, abbiamo avviato una collaborazione mirata con un singolo partner(si apre in una nuova finestra). Inoltre, stiamo rendendo open source OpenAI Evals(si apre in una nuova finestra), il nostro framework per la valutazione automatizzata delle prestazioni dei modelli IA, in modo da permettere a chiunque di segnalare eventuali carenze e contribuire al loro miglioramento.

Funzionalità

In una conversazione informale, GPT‑3.5 e GPT‑4 risultano essere molto simili. La differenza emerge quando le attività superano una certa soglia di complessità: GPT‑4 è più affidabile, creativo e in grado di gestire istruzioni molto più articolate rispetto a GPT‑3.5.

Per comprendere la differenza tra i due modelli, li abbiamo testati su vari benchmark, incluse simulazioni di esami originariamente destinati a esseri umani. Abbiamo utilizzato i test pubblici più recenti disponibili (come nel caso delle Olimpiadi e delle domande a risposta aperta degli esami di ammissione) oppure abbiamo acquistato le edizioni 2022–2023 degli esami di prova. Per questi esami non abbiamo effettuato alcun addestramento specifico. Una minima parte delle domande presenti negli esami era già nota al modello dall’addestramento, ma riteniamo che i risultati siano rappresentativi. Per ulteriori dettagli, consulta il nostro report tecnico(si apre in una nuova finestra).

riferimento interno 1

Caricamento in corso…
Caricamento in corso…

Abbiamo inoltre valutato GPT‑4 sulla base di benchmark tradizionali pensati per modelli di machine learning. GPT‑4 supera di gran lunga gli attuali modelli linguistici di grandi dimensioni, nonché la maggior parte dei modelli all’avanguardia (SOTA), che possono includere ottimizzazioni specifiche per benchmark o protocolli di addestramento aggiuntivi:

Caricamento in corso…

Molti benchmark di machine learning esistenti sono scritti in inglese. Per avere un primo riscontro sulle capacità in altre lingue, abbiamo tradotto in varie lingue il benchmark MMLU, una raccolta di 14.000 quesiti a scelta multipla su 57 materie, utilizzando Azure Translate (vedi Appendice⁠). In 24 delle 26 lingue testate, GPT‑4 supera le prestazioni in inglese di GPT‑3.5 e altri LLM (Chinchilla, PaLM), anche in lingue con poche risorse come lettone, gallese e swahili:

Caricamento in corso…

Abbiamo utilizzato GPT‑4 anche internamente, con risultati notevoli in funzioni come assistenza clienti, vendite, moderazione dei contenuti e programmazione. Inoltre, lo impieghiamo per supportare gli operatori umani nella valutazione dei risultati dell'IA, avviando così la seconda fase della nostra strategia di allineamento⁠.

Input visivi

GPT‑4 può accettare prompt composti da testo e immagini, i quali, analogamente all’uso esclusivamente testuale, consentono all’utente di specificare qualsiasi attività di visione o linguaggio. In particolare, genera output testuali (linguaggio naturale, codice, ecc.) a partire da input misti di testo e immagini. In vari ambiti, tra cui documenti con testo e fotografie, diagrammi o screenshot, GPT‑4 mostra capacità simili a quelle ottenute con input solo testuali. Inoltre, può essere potenziato con tecniche di test-time sviluppate per modelli linguistici solo testuali, come il prompting few-shot e la catena di pensiero(si apre in una nuova finestra)⁠. Gli input immagine sono ancora in fase di anteprima sperimentale e non sono disponibili pubblicamente.

Caricamento in corso…

Presentiamo una prima valutazione di GPT‑4 su una serie limitata di benchmark accademici standard per la visione. Questi risultati, tuttavia, non riflettono completamente il suo potenziale dato che continuiamo a scoprire nuove e interessanti attività che il modello è in grado di svolgere. A breve rilasceremo ulteriori analisi, valutazioni e uno studio approfondito sull’impatto delle tecniche di test-time.

nota a piè di pagina internaA

Caricamento in corso…

Manovrabilità

Stiamo lavorando a ogni aspetto del piano descritto nel nostro post sulla definizione del comportamento delle IA, inclusa la manovrabilità. Invece della classica personalità di ChatGPT con una verbosità, un tono e uno stile fissi, gli sviluppatori (e presto anche gli utenti di ChatGPT) possono ora definire lo stile e il compito dell’IA tramite un messaggio di “sistema”. I messaggi di sistema permettono agli utenti API di personalizzare notevolmente l’esperienza entro certi limiti(si apre in una nuova finestra). Continueremo a migliorare questa funzione (sappiamo in particolare che i messaggi di sistema sono il modo più semplice per “forzare” il modello attuale, e cioè che il rispetto dei limiti non è perfetto), ma incoraggiamo gli utenti a provarla e a farci sapere la loro opinione.

Caricamento in corso…

Limiti

Nonostante le sue capacità, GPT‑4 presenta limitazioni simili ai modelli GPT precedenti. In particolare, non è ancora completamente affidabile (può “inventare” fatti e commettere errori di ragionamento). Bisogna prestare grande attenzione ai risultati generati dai modelli linguistici, in particolare in contesti ad alto rischio, mediante l'adozione di protocolli adeguati (come la revisione umana, l’integrazione di contesto aggiuntivo oppure evitando del tutto l'uso in situazioni ad alto rischio) in base alle esigenze specifiche del caso.

Sebbene rimanga un problema reale, GPT‑4 riduce notevolmente le allucinazioni rispetto ai modelli precedenti (che a loro volta migliorano a ogni iterazione). GPT‑4 ottiene un punteggio superiore del 40% rispetto all’ultimo GPT‑3.5 nelle nostre valutazioni interne avversarie di fattualità.

Caricamento in corso…

Abbiamo ottenuto miglioramenti in benchmark esterni come TruthfulQA, che testa la capacità del modello di separare i fatti da un gruppo di affermazioni errate scelte appositamente. Le domande sono accompagnate da risposte sbagliate nei contenuti ma statisticamente plausibili.

Caricamento in corso…

Il modello di base di GPT‑4 è solo leggermente migliore in questa attività rispetto a GPT‑3.5. Tuttavia, dopo il post-addestramento con RLHF (applicando lo stesso processo utilizzato con GPT‑3.5), il divario diventa notevole. Analizzando alcuni esempi qui sotto, GPT‑4 evita di scegliere modi di dire comuni (come l'inglese “you can’t teach an old dog new tricks”), ma può ancora sbagliare su dettagli sottili (Elvis Presley non era figlio di un attore).

Caricamento in corso…

Il modello può presentare diversi pregiudizi nelle sue risposte: abbiamo fatto progressi, ma c’è ancora molto da fare. Come spiegato nel nostro recente post sul blog, miriamo a creare sistemi IA con comportamenti predefiniti ragionevoli che riflettano i valori di un vasto spettro di utenti, permettano una personalizzazione entro ampi limiti e coinvolgano il pubblico nella definizione di tali limiti.

Generalmente GPT‑4 non conosce eventi successivi alla maggior parte dei suoi dati di addestramento (settembre 2021) e non apprende dall’esperienza. Può commettere semplici errori di ragionamento poco in linea con la sua competenza in vari ambiti oppure mostrarsi troppo ingenuo nell'accettare affermazioni false evidenti da parte dell’utente. Talvolta può anche fallire in problemi complessi allo stesso modo di un essere umano, ad esempio inserendo vulnerabilità di sicurezza nel codice che produce.

GPT‑4 può anche sbagliare con certezza nelle sue previsioni, senza ricontrollare quando è probabile che commetta un errore. È interessante notare che il modello di base pre-addestrato è altamente calibrato (la sua sicurezza prevista in una risposta corrisponde generalmente alla probabilità che sia corretta). Tuttavia, con il processo di post-addestramento attuale, la calibrazione si riduce.

Caricamento in corso…

Rischi e mitigazioni

Effettuiamo continue iterazioni su GPT‑4 per renderlo più sicuro e allineato fin dall’inizio dell’addestramento, con interventi come la selezione e il filtraggio dei dati di pre-addestramento, valutazioni e coinvolgimento di esperti, miglioramenti della sicurezza del modello e monitoraggio e controllo.

GPT‑4 presenta rischi simili ai modelli precedenti, come la generazione di consigli dannosi, codice difettoso o informazioni imprecise. Tuttavia, le funzionalità aggiuntive di GPT‑4 introducono nuove superfici di rischio. Per comprendere l’entità di questi rischi, abbiamo coinvolto oltre 50 esperti in ambiti come rischi di allineamento di IA, cybersicurezza, rischi biologici, affidabilità e sicurezza e sicurezza internazionale, al fine di mettere alla prova il modello con test avversari. I risultati ci hanno permesso di testare il comportamento del modello in aree ad alto rischio che richiedono competenze specifiche per essere valutate. I feedback e i dati provenienti da questi esperti sono stati utilizzati per mitigazioni e miglioramenti: ad esempio, abbiamo raccolto dati aggiuntivi per migliorare la capacità di GPT‑4 di rifiutare richieste su come sintetizzare sostanze chimiche pericolose.

GPT‑4 include un segnale aggiuntivo di ricompensa per la sicurezza durante l’addestramento con RLHF al fine di ridurre risposte dannose (come definite dalle nostre linee guida per l'utilizzo(si apre in una nuova finestra)) ed è quindi addestrato a rifiutare richieste di tali contenuti. La ricompensa è fornita da un classificatore zero-shot GPT‑4 che valuta i confini di sicurezza e lo stile di completamento su prompt relativi alla sicurezza. Per evitare che il modello rifiuti richieste valide, raccogliamo un set di dati diversificato da varie fonti (ad esempio dati di produzione etichettati, red teaming umano e prompt generati dal modello) e applichiamo il segnale di ricompensa della sicurezza (positivo o negativo) sia su categorie consentite che non. 

Le nostre contromisure hanno migliorato notevolmente molte delle proprietà di sicurezza di GPT‑4 rispetto a GPT‑3.5. Abbiamo ridotto dell’82% la tendenza del modello a rispondere a richieste di contenuti non consentiti rispetto a GPT‑3.5 e GPT‑4 risponde alle richieste sensibili, come consulenza medica e autolesionismo, in linea con le nostre politiche nel 29% dei casi in più.

Caricamento in corso…
Caricamento in corso…

Nel complesso, i nostri interventi a livello di modello aumentano la difficoltà di indurre comportamenti scorretti, ma ciò rimane comunque possibile. Inoltre, esistono ancora varie modalità di jailbreak per generare contenuti che violano le nostre linee guida sull'utilizzo. Con l’aumento del “rischio per token” dei sistemi di IA, diventerà fondamentale raggiungere livelli estremamente elevati di affidabilità in questi interventi. Per ora è importante affiancare a queste limitazioni delle tecniche di sicurezza in fase di distribuzione, come il monitoraggio delle violazioni.

GPT‑4 e i modelli successivi possono avere un grande impatto sulla società, sia positivo che negativo. Collaboriamo con ricercatori esterni per approfondire la comprensione e la valutazione di questi effetti potenziali e per creare metodi di valutazione di funzionalità pericolose che potrebbero emergere nei sistemi futuri. Presto condivideremo ulteriori considerazioni sui potenziali impatti sociali ed economici di GPT‑4 e altri sistemi di IA.

Processo di addestramento

Come i precedenti modelli GPT, anche il modello base di GPT‑4 è stato addestrato a prevedere la parola successiva in un documento mediante dati disponibili pubblicamente (come quelli presenti su Internet) e dati per i quali abbiamo ottenuto licenze. Il corpus di dati utilizzato è su scala web e include soluzioni corrette ed errate a problemi di matematica, ragionamenti validi e fallaci, affermazioni contraddittorie e coerenti, e rappresenta un’ampia varietà di ideologie e idee.

Per questo motivo, quando viene posto un quesito, il modello base può rispondere in numerosi modi diversi, spesso lontani dall’intento dell’utente. Per allinearlo all’intento dell’utente entro limiti ben definiti, affiniamo il comportamento del modello attraverso l’apprendimento per rinforzo con feedback umano (RLHF).

Va notato che le capacità del modello derivano principalmente dalla fase di pre-addestramento: l’RLHF non migliora le prestazioni nei test (anzi, senza un intervento mirato, tende a peggiorarle). Tuttavia, la capacità di orientare il comportamento del modello nasce dalla fase di post-addestramento: il modello di base ha bisogno di una progettazione accurata dei prompt anche solo per capire che deve rispondere alle domande.

Espansione prevedibile

Uno degli obiettivi principali del progetto GPT‑4 è costruire uno stack di deep learning che possa essere ampliato in modo prevedibile. Il motivo principale è che, per addestramenti di grande entità come quelli di GPT‑4, non è praticabile effettuare un’ottimizzazione approfondita su misura per ciascun modello. Abbiamo sviluppato infrastrutture e tecniche di ottimizzazione dal comportamento altamente prevedibile su più scale. Per verificare tale possibilità di espansione, siamo riusciti a prevedere con precisione la perdita finale di GPT‑4 sul nostro codebase interno (non incluso nei dati di addestramento) semplicemente impiegando modelli addestrati con lo stesso metodo ma con una potenza di calcolo 10.000 volte inferiore:

Caricamento in corso…

Ora che possiamo prevedere con precisione la metrica ottimizzata in fase di addestramento (perdita), stiamo cominciando a sviluppare metodi per stimare metriche più comprensibili. Ad esempio, abbiamo previsto con successo il tasso di superamento su un sottoinsieme del set di dati HumanEval(si apre in una nuova finestra) basandoci su modelli addestrati con un carico computazionale 1.000 volte inferiore:

Caricamento in corso…

Alcune funzionalità restano difficili da prevedere. Ad esempio, nell’Inverse Scaling Prize, una gara per trovare una metrica che peggiorasse all’aumentare della potenza computazionale del modello, la metrica hindsight neglect(si apre in una nuova finestra)⁠ è stata una delle vincitrici. Proprio come un altro risultato(si apre in una nuova finestra) recente⁠, GPT‑4 inverte questa tendenza:

Caricamento in corso…

Crediamo che prevedere con precisione le capacità future del machine learning sia una parte importante della sicurezza, che tuttavia non riceve abbastanza attenzione rispetto al suo potenziale impatto (anche se siamo incoraggiati dagli sforzi di varie istituzioni). Stiamo intensificando la nostra attività per sviluppare metodi che offrano alla società una guida più chiara su cosa aspettarsi dai sistemi futuri e speriamo che questo diventi un obiettivo comune nel settore.

OpenAI Evals

Stiamo rendendo open source OpenAI Evals(si apre in una nuova finestra), il nostro framework software per creare e gestire benchmark per la valutazione di modelli come GPT‑4, analizzandone le prestazioni campione per campione. Utilizziamo Evals per orientare lo sviluppo dei nostri modelli (sia per individuare punti deboli sia per prevenire eventuali regressioni) e i nostri utenti possono impiegarlo per monitorare le prestazioni tra versioni del modello diverse (che verranno rilasciate regolarmente) e l’evoluzione delle integrazioni di prodotto. Ad esempio, Stripe ha utilizzato Evals per integrare le valutazioni umane nella misurazione della precisione del loro strumento di documentazione basato su GPT.

Poiché il codice è completamente open source, Evals consente di scrivere nuove classi per implementare logiche di valutazione personalizzate(si apre in una nuova finestra). Tuttavia, dalla nostra esperienza, molti benchmark seguono uno di pochi template standard, quindi abbiamo incluso anche i template(si apre in una nuova finestra) che si sono rivelati più utili internamente (compreso un template per “valutazioni autogestite dal modello”, abbiamo scoperto che GPT‑4 è incredibilmente bravo a verificare il proprio lavoro). In generale, il modo più efficace per sviluppare una nuova valutazione(si apre in una nuova finestra) è istanziare uno di questi template fornendo i dati necessari. Non vediamo l'ora di scoprire cosa riusciranno a creare altre persone con questi template e con Evals in generale.

Ci auguriamo che Evals diventi uno strumento collaborativo per condividere e sviluppare benchmark che rappresentino il più ampio spettro possibile di situazioni critiche e sfide complesse. A titolo di esempio, abbiamo creato una valutazione di enigmi di logica(si apre in una nuova finestra) che contiene dieci prompt in cui GPT‑4 fallisce. Evals è anche compatibile con l’implementazione di benchmark esistenti: abbiamo incluso diversi notebook(si apre in una nuova finestra) che implementano benchmark accademici e alcune varianti per integrare (piccoli sottoinsiemi di) CoQA(si apre in una nuova finestra) come esempio.

Invitiamo chiunque a utilizzare Evals per testare i nostri modelli e a inviare gli esempi più interessanti. Riteniamo che Evals sarà una parte integrante del processo di utilizzo e sviluppo dei nostri modelli e accogliamo con piacere contributi diretti, domande e feedback(si apre in una nuova finestra).

ChatGPT Plus

Gli abbonati a ChatGPT Plus avranno accesso a GPT‑4 su chatgpt.com(si apre in una nuova finestra) con un limite di utilizzo. Adatteremo il limite preciso in base alla domanda e alle prestazioni del sistema nella pratica, ma ci aspettiamo di avere una capacità fortemente limitata (anche se prevediamo di aumentare e ottimizzare le risorse nei prossimi mesi).

A seconda dei pattern di traffico che osserveremo, potremmo introdurre un nuovo livello di abbonamento per un uso di GPT‑4 ad alto volume. Inoltre, ci auguriamo di poter offrire a un certo punto un numero limitato di query GPT‑4 gratuite in modo che anche chi non è abbonato possa provarlo.

API

Per ottenere accesso all’API di GPT‑4 (che utilizza la stessa API ChatCompletions(si apre in una nuova finestra) di gpt-3.5-turbo), iscriviti alla nostra lista d'attesa⁠. Inizieremo a invitare alcuni sviluppatori già da subito e aumenteremo gradualmente il numero per bilanciare capacità e domanda. Se lavori nell'ambito della ricerca sull’impatto sociale dell’IA o su questioni di allineamento dell’IA, puoi anche richiedere un accesso agevolato tramite il nostro Researcher Access Program.

Una volta ottenuto l’accesso, puoi inviare richieste solo testuali al modello gpt-4 (gli input immagine sono ancora in fase alfa limitata), che aggiorneremo automaticamente alla versione stabile consigliata man mano che rilasciamo nuove versioni (puoi bloccare la versione attuale richiamando gpt-4-0314, supportata fino al 14 giugno). Le tariffe sono di 0,03 $ per ogni 1.000 token di input e 0,06 $ per ogni 1.000 token di output. I limiti predefiniti sono di 40.000 token al minuto e 200 richieste al minuto.

GPT‑4 supporta un contesto di 8.192 token. Stiamo inoltre offrendo l'accesso limitato alla versione con contesto di 32.768 token (circa 50 pagine di testo), chiamata gpt-4-32k, che sarà aggiornata automaticamente nel tempo (versione attuale gpt-4-32k-0314, supportata fino al 14 giugno). Le tariffe sono di 0,06 $ per 1.000 token di prompt e 0,12 $ per 1.000 token di completamento. Stiamo ancora migliorando la qualità del modello per contesti lunghi e ci farebbe piacere ricevere feedback sulle prestazioni nel tuo caso specifico. Le richieste per i modelli da 8K e 32K vengono elaborate a velocità diverse in base alla capacità, quindi potresti ottenere l’accesso in momenti differenti.

Conclusioni

Ci auguriamo che GPT‑4 diventerà uno strumento fondamentale per migliorare la vita delle persone in numerose applicazioni. Abbiamo ancora tanto lavoro da fare e contiamo di migliorare il modello grazie al contributo collettivo della community che lo utilizza per sviluppare, lo esplora e lo arricchisce.

Appendice

Esempio di quesiti MMLU tradotti in altre lingue. Nota: per le opzioni di risposta vengono utilizzate sempre le stesse lettere (da A a D):

Caricamento in corso…

Note di riferimento

  1. A

    Valutiamo questo benchmark utilizzando il prompt Chain-Of-Thought con 4 esempi dal set di addestramento in contesto. Il prompt specifico è stato messo a punto sul set di validazione.

Riferimenti

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Ulteriori analisi sono disponibili Ulteriori analisi sono disponibili nel documento nell’articolo(si apre in una nuova finestra).

Autore

OpenAI