18 luglio 2024

GPT‑4o mini: un’intelligenza efficiente in termini di costi

Presentiamo il nostro modello di piccole dimensioni più efficiente in termini di costi

Caricamento in corso...

OpenAI si impegna a rendere l’intelligenza il più possibile accessibile. Oggi annunciamo GPT‑4o mini, il nostro modello di piccole dimensioni più economico. Prevediamo che GPT‑4o mini amplierà in modo significativo la gamma di applicazioni realizzate con l’IA, rendendo l’intelligenza molto più accessibile. GPT‑4o mini ottiene l’82% su MMLU e attualmente supera GPT‑4¹ sulle preferenze di chat nella classifica di LMSYS⁠(si apre in una nuova finestra). Il prezzo è di 15 centesimi per milione di token di input e 60 centesimi per milione di token di output, un ordine di grandezza più conveniente rispetto ai precedenti modelli di frontiera e più del 60% in meno rispetto a GPT‑3.5 Turbo.

GPT‑4o mini consente di svolgere un’ampia gamma di attività grazie al suo basso costo e alla sua latenza, come le applicazioni che concatenano o parallelizzano più chiamate al modello (ad esempio, chiamando più API), passano un grande volume di contesto al modello (ad esempio, l’intera base di codice o la cronologia delle conversazioni) o interagiscono con i clienti attraverso risposte testuali rapide e in tempo reale (ad esempio, chatbot di assistenza clienti).

Attualmente GPT‑4o mini supporta il testo e i dati visivi nell’API, mentre in futuro saranno supportati gli input e gli output di testo, immagini, video e audio. Il modello ha una finestra di contesto di 128K token, supporta fino a 16K token di output per richiesta ed è dotato di conoscenza fino a ottobre 2023. Grazie al tokenizzatore migliorato condiviso con GPT‑4o, la gestione di testi non inglesi è ora ancora più conveniente.

Un modello di piccole dimensioni con intelligenza testuale superiore e ragionamento multimodale

GPT‑4o mini supera GPT‑3.5 Turbo e altri modelli di piccole dimensioni nei benchmark accademici sia per quanto riguarda l’intelligenza testuale che il ragionamento multimodale e supporta la stessa gamma di lingue di GPT‑4o. Dimostra inoltre ottime prestazioni nel richiamo di funzioni, che consentono agli sviluppatori di creare applicazioni che recuperano dati o eseguire azioni con sistemi esterni, e prestazioni migliorate nel contesto lungo rispetto a GPT‑3.5 Turbo.

Il GPT‑4o mini è stato valutato in diversi benchmark chiave².

Livello di ragionamento: GPT‑4o mini è migliore di altri modelli di piccole dimensioni nelle attività di ragionamento che coinvolgono sia il testo che i dati visivi, ottenendo un punteggio dell’82,0% su MMLU, un benchmark di intelligenza e ragionamento testuale, rispetto al 77,9% di Gemini Flash e al 73,8% di Claude Haiku.

Competenza in matematica e codifica: GPT‑4o mini eccelle nel ragionamento matematico e nelle attività di codifica, superando i precedenti modelli di piccole dimensioni presenti sul mercato. Nel test MGSM, che misura il ragionamento matematico, GPT‑4o mini ha ottenuto l’87,0%, rispetto al 75,5% di Gemini Flash e al 71,7% di Claude Haiku. GPT‑4o mini ha ottenuto l’87,2% su HumanEval, che misura le prestazioni di codifica, rispetto al 71,5% di Gemini Flash e al 75,9% di Claude Haiku.

Ragionamento multimodale: GPT‑4o mini mostra anche ottime prestazioni su MMMU, una valutazione di ragionamento multimodale, con un punteggio del 59,4% rispetto al 56,1% di Gemini Flash e al 50,2% di Claude Haiku.

Punteggi di valutazione del modello

Come parte del nostro processo di sviluppo del modello, abbiamo lavorato con alcuni partner fidati per comprendere meglio i casi d’uso e i limiti del GPT‑4o mini. Abbiamo collaborato con aziende come Ramp⁠(si apre in una nuova finestra) e Superhuman⁠(si apre in una nuova finestra), le quali hanno riscontrato che GPT‑4o mini ha prestazioni significativamente migliori rispetto a GPT‑3.5 Turbo per attività come l’estrazione di dati strutturati da file di ricezione o la generazione di risposte e-mail di alta qualità quando viene fornita la cronologia delle discussioni.

Misure di sicurezza integrate

La sicurezza è integrata nei nostri modelli fin dall’inizio e viene rafforzata in ogni fase del processo di sviluppo. Nel pre-training, filtriamo⁠(si apre in una nuova finestra) le informazioni che non vogliamo che i nostri modelli apprendano o producano, come ad esempio i discorsi di odio, i contenuti destinati agli adulti, i siti che aggregano principalmente informazioni personali e lo spam. Nel post-training, allineiamo il comportamento del modello alle nostre politiche utilizzando tecniche come l’apprendimento per rinforzo con feedback umano (RLHF)⁠ per ottenere dai modelli risposte più accurate e affidabili.

GPT‑4o mini è dotato delle stesse mitigazioni di sicurezza incorporate nel GPT‑4o⁠, che abbiamo esaminato attentamente mediante valutazioni sia automatizzate che umane in base al Quadro di preparazione⁠ e in linea con i nostri impegni volontari⁠. Più di 70 esperti esterni in campi come la psicologia sociale e la disinformazione hanno testato il GPT‑4o per identificare i potenziali rischi, che abbiamo affrontato e di cui intendiamo condividere i dettagli nella prossima scheda di sistema GPT‑4o e nella Scheda di preparazione. Le conoscenze acquisite da queste valutazioni di esperti hanno contribuito a migliorare la sicurezza di GPT‑4o e GPT‑4o mini.

Sulla base di questi studi, i nostri team hanno lavorato per migliorare la sicurezza di GPT‑4o mini utilizzando nuove tecniche informate dalla nostra ricerca. GPT‑4o mini nell’API è il primo modello ad applicare il nostro metodo di gerarchia delle istruzioni⁠(si apre in una nuova finestra), che va a migliorare la capacità del modello di resistere a jailbreak, iniezioni di prompt ed estrazioni di prompt di sistema. In questo modo le risposte rese del modello sono più affidabili e l’uso è più sicuro nelle applicazioni su scala.

Continueremo a monitorare l’utilizzo di GPT‑4o mini e a migliorare la sicurezza del modello non appena individueremo nuovi rischi.

Disponibilità e tariffe

GPT‑4o mini è ora disponibile come modello di testo e di visione in Assistants API, API per il completamento delle chat e Batch API. Gli sviluppatori pagano 15 centesimi per 1 milione di token di input e 60 centesimi per 1 milione di token di output (più o meno l’equivalente di 2500 pagine di un libro standard). Nei prossimo futuro abbiamo in programma l’ottimizzazione di GPT‑4o mini.

In ChatGPT, gli utenti Free, Plus e Team potranno accedere a GPT‑4o mini a partire da oggi, in sostituzione di GPT‑3.5. Anche gli utenti aziendali avranno accesso a partire dalla prossima settimana, in linea con la nostra missione di rendere i vantaggi dell’IA accessibili a tutti.

Prossime novità

Negli ultimi anni abbiamo assistito a notevoli progressi nell’intelligenza artificiale e a sostanziali riduzioni dei costi. Ad esempio, il costo per token di GPT‑4o mini è sceso del 99% rispetto a text-davinci-003, un modello meno capace introdotto nel 2022. Cercheremo di continuare a ridurre i costi e migliorare le capacità del modello.

Prevediamo un futuro in cui i modelli saranno perfettamente integrati in ogni app e in ogni sito web. GPT‑4o mini sta aprendo la strada agli sviluppatori per costruire e scalare potenti applicazioni AI in modo più efficiente e conveniente. Il futuro dell’IA sta diventando sempre più accessibile, affidabile e integrato nelle nostre esperienze digitali quotidiane, e noi siamo entusiasti di continuare a fare da apripista.

Autore

OpenAI

Ringraziamenti

Responsabili: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Responsabile del programma: Mianna Chen

Contributi indicati in https://openai.com/gpt-4o-contributions/⁠

Note di riferimento

1
A partire dal 18 luglio 2024, una versione precedente di GPT-4o mini supera le prestazioni di GPT-4T 01-25.
2
I punteggi di valutazione per GPT-4o mini sono calcolati utilizzando il nostro repository simple-evals⁠(si apre in una nuova finestra) con il prompt del messaggio di sistema dell’assistente API. Per i modelli concorrenti, consideriamo il valore massimo tra quelli riportati (se disponibili), la classifica HELM⁠(si apre in una nuova finestra) e la nostra riproduzione tramite simple-evals.