Vai al contenuto principale
OpenAI

25 settembre 2025

PubblicazioneRicerca

Misurazione delle prestazioni dei nostri modelli su attività reali

Stiamo introducendo GDPval, una nuova valutazione che misura le prestazioni dei modelli su attività reali ed economicamente rilevanti in 44 professioni.

La nostra missione è garantire che l’intelligenza artificiale generale vada a beneficio di tutta l’umanità. Come parte di questa missione, vogliamo comunicare in modo trasparente i progressi compiuti sulle modalità con cui i modelli di IA possono aiutare le persone nel mondo reale. Per questo motivo stiamo introducendo GDPval, una nuova valutazione progettata per monitorare meglio le prestazioni dei nostri modelli e di altri modelli in attività reali e di valore economico. Abbiamo scelto di chiamare questa valutazione GDPval perché siamo partiti dal concetto di prodotto interno lordo (PIL) come indicatore economico chiave e abbiamo individuato le attività delle professioni chiave nei settori che contribuiscono maggiormente al PIL.

Spesso si discute dell’impatto più ampio dell’IA sulla società, ma il modo più chiaro per comprenderne il potenziale è osservare ciò che i modelli sono già in grado di fare. La storia dimostra che le principali tecnologie, da Internet agli smartphone, hanno impiegato più di un decennio per passare dall’invenzione alla diffusione su larga scala. Valutazioni come GDPval contribuiscono a fondare le discussioni sui futuri miglioramenti dell’IA su dati concreti anziché su supposizioni, e possono aiutare a monitorare il miglioramento dei modelli nel tempo.

Le precedenti valutazioni dell’IA, come i difficili test accademici e le sfide competitive di programmazione, sono state fondamentali per ampliare i confini delle capacità di ragionamento dei modelli, ma spesso si rivelano inadeguate rispetto al tipo di attività che molte persone svolgono nel lavoro quotidiano.

Per colmare questa lacuna, abbiamo sviluppato valutazioni che misurano capacità sempre più realistiche ed economicamente rilevanti. Questa evoluzione è passata dai classici benchmark accademici come MMLU (domande simili a quelle degli esami su decine di materie) a valutazioni più applicate come SWE-Bench (attività di correzione di bug nell’ingegneria del software), MLE-Bench (attività di ingegneria dell’apprendimento automatico come la formazione e l’analisi di modelli) e Paper-Bench (ragionamento scientifico e critica su articoli di ricerca) e, più recentemente, a valutazioni basate sul mercato come SWE-Lancer (progetti di ingegneria del software freelance basati su pagamenti reali).

GDPval è il passo successivo in questa evoluzione. Misura le prestazioni dei modelli su attività tratte direttamente dal lavoro intellettuale svolto nel mondo reale da professionisti in una vasta gamma di settori, restituendo un quadro più chiaro delle prestazioni dei modelli su attività di valore economico. Valutare i modelli su attività professionali realistiche ci aiuta a capire non solo quanto siano efficaci in laboratorio, ma anche come potrebbero aiutare le persone nel loro lavoro quotidiano. 

Che cosa misura GDPval

GDPval, la prima versione di questa valutazione, copre 44 professioni selezionate tra i primi 9 settori che contribuiscono al PIL degli Stati Uniti. Il set completo GDPval comprende 1.320 attività specializzate (220 nel set open source gold), ciascuna elaborata nel dettaglio e verificata da professionisti con oltre 14 anni di esperienza media in questi settori. Ogni attività si basa su prodotti di lavoro reali, come una memoria legale, un progetto tecnico, una conversazione con l’assistenza clienti o un piano di assistenza infermieristica.

GDPval si distingue sia per il suo realismo sia per la diversità delle attività valutate. A differenza di altre valutazioni legate al valore economico che si concentrano su ambiti specifici (ad esempio SWE-Lancer), GDPval copre molte attività e professioni. E, diversamente dai benchmark che prevedono la realizzazione sintetica di attività nello stile di un esame o di un test accademico (ad esempio, Humanity's Last Exam o MMLU), GDPval si concentra su attività basate su risultati finali che sono o un lavoro o un prodotto reale esistente oggi o un lavoro o un prodotto costruito in modo simile. 

A differenza dei benchmark tradizionali, le attività di GDPval non sono semplici prompt di testo. Sono accompagnati da file di riferimento e contesto, e i risultati attesi comprendono documenti, diapositive, diagrammi, fogli di calcolo e contenuti multimediali. Questo realismo rende GDPval un test più concreto per verificare in che modo i modelli possano supportare i professionisti.

Il GDPval è un primo passo che non riflette tutte le sfumature di molti attività economiche. Sebbene copra 44 professioni e centinaia di attività lavorative basate sulla conoscenza, si limita a valutazioni una tantum, quindi non tiene conto dei casi in cui un modello dovrebbe costruire un contesto o migliorare attraverso più bozze. Le versioni future saranno estese a flussi di lavoro più interattivi e attività ricche di contesto per tenere meglio conto della complessità del lavoro intellettuale nel mondo reale (per ulteriori informazioni, consultare la sezione Limitazioni riportata di seguito).

Come abbiamo scelto le professioni

GDPval si occupa di attività in 9 settori industriali e 44 professioni, e le versioni future continueranno ad ampliare la copertura. I primi 9 settori sono stati scelti in base al loro contributo superiore al 5% al PIL degli Stati Uniti, come determinato dai dati della Federal Reserve Bank di St. Louis. Quindi, abbiamo selezionato le 5 professioni di ciascun settore che contribuiscono maggiormente al totale dei salari e delle retribuzioni, prevalentemente professioni legate al lavoro intellettuale, utilizzando i dati sui salari e sull’occupazione contenuti nel rapporto sull’occupazione professionale del maggio 2024 dell'Ufficio Statistico del Lavoro degli Stati Uniti (BLS)(si apre in una nuova finestra). Per determinare se le professioni fossero prevalentemente di tipo intellettuale, abbiamo utilizzato i dati relativi alle attività lavorative provenienti da O*NET(si apre in una nuova finestra), un database di informazioni sulle professioni negli Stati Uniti sponsorizzato dal Dipartimento del Lavoro degli Stati Uniti. Abbiamo classificato ogni attività per ogni professione presente in O*NET come lavoro intellettuale o lavoro fisico/manuale (che richiede azioni da compiere nel mondo fisico). Un’occupazione era qualificata complessivamente come “prevalentemente lavoro intellettuale” se almeno il 60% delle attività associate ad essa erano classificate come non comportanti lavoro fisico o manuale. Questa soglia del 60% è stata scelta come punto di partenza per la prima versione di GDPval, concentrando l’attenzione sulle professioni in cui l’IA potrebbe avere il maggiore impatto in termini di produttività nel mondo reale. 

Questo processo ha portato all’inclusione di 44 professioni.

Immobili, affitti e locazioni

  • Personale di accoglienza

  • Amministratori di immobili, proprietà immobiliari e associazioni di comunità

  • Agenti immobiliari

  • Broker immobiliari

  • Addetti al banco e al noleggio

Amministrazione pubblica

  • Operatori ricreativi

  • Responsabili della conformità

  • Supervisori di prima linea della polizia e investigatori

  • Responsabili dei servizi amministrativi

  • Assistenti sociali che si occupano di bambini, famiglie e scuole

Produzione

  • Ingegneri meccanici

  • Ingegneri industriali

  • Acquirenti e agenti di acquisto

  • Addetti alla spedizione, alla ricezione e all’inventario

  • Supervisori di prima linea dei lavoratori addetti alla produzione e alle operazioni

Servizi professionali, scientifici e tecnici

  • Sviluppatori di software

  • Avvocati

  • Contabili e revisori dei conti

  • Responsabili dei sistemi di elaborazione e informazione

  • Specialisti nella gestione dei progetti

Assistenza sanitaria e sociale

  • Infermieri abilitati

  • Infermieri professionisti

  • Dirigenti sanitari e dei servizi sanitari

  • Supervisori di prima linea di impiegati amministrativi e di supporto amministrativo

  • Segretari medici e assistenti amministrativi

Finanza e assicurazioni

  • Addetti al servizio clienti

  • Analisti finanziari e di investimento

  • Responsabili finanziari

  • Consulenti finanziari personali

  • Agenti di vendita di titoli, materie prime e servizi finanziari

Vendita al dettaglio

  • Farmacisti

  • Supervisori di prima linea degli addetti alle vendite al dettaglio

  • Direttori generali e direttori operativi

  • Investigatori privati

Commercio all’ingrosso

  • Responsabili delle vendite

  • Addetti agli ordini

  • Supervisori di prima linea degli addetti alle vendite non al dettaglio

  • Rappresentanti di commercio, commercio all’ingrosso e produzione, eccetto prodotti tecnici e scientifici

  • Rappresentanti di vendita, commercio all’ingrosso e produzione, prodotti tecnici e scientifici

Informazione

  • Tecnici audio e video

  • Produttori e registi

  • Analisti di notizie, reporter e giornalisti

  • Editori di film e video

  • Redattori

GDPval si occupa di 44 professioni legate al lavoro intellettuale in 9 settori, dagli sviluppatori di software agli avvocati, dagli infermieri agli ingegneri meccanici. Queste professioni sono state selezionate per la loro rilevanza economica e rappresentano i tipi di lavoro quotidiano in cui l’IA può fornire un aiuto significativo agli operatori del settore.

Come abbiamo creato il set di dati

Per ogni professione, abbiamo collaborato con professionisti qualificati per definire attività rappresentative che riflettono il loro lavoro quotidiano. Questi professionisti avevano in media 14 anni di esperienza, con ottimi risultati in termini di avanzamento di carriera. Abbiamo deliberatamente reclutato una vasta gamma di esperti, come avvocati provenienti da diversi settori di attività e studi legali di diverse dimensioni, al fine di massimizzare la rappresentatività.

Ogni attività è stata sottoposta a un processo di revisione in più fasi per garantire che fosse rappresentativa del lavoro reale, fattibile da parte di un altro professionista e chiara ai fini della valutazione. In media, ogni attività è stata sottoposta a 5 cicli di revisione da parte di esperti, inclusi controlli da parte di altri autori, revisori professionali aggiuntivi e convalida basata su modelli. 

Il set di dati risultante include 30 attività completamente revisionate per ogni professione (set completo) con 5 attività per professione nel nostro set gold open source, fornendo una solida base per valutare le prestazioni del modello sul lavoro intellettuale nel mondo reale.

Esempi di attività GDPval

Prompt + contesto dell'attività

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Risultato finale da persone esperte

Vista esplosa di un progetto per un avvolgicavo
Ogni attività in GDPval è stata progettata da un professionista e riflette il lavoro intellettuale reale svolto nella sua professione. Il prompt è un incarico di lavoro realistico creato da un esperto del settore, mentre il risultato finale è la soluzione elaborata dall’esperto stesso.

Come valutiamo le prestazioni dei modelli

Per valutare le prestazioni del modello sulle attività di GDPval, ci affidiamo a “valutatori” qualificati, ovvero un gruppo di professionisti provenienti dagli stessi settori rappresentati nel set di dati. Questi valutatori confrontano i risultati generati dal modello con quelli prodotti dagli autori delle attività, senza sapere quali siano generati dall’IA e quali dagli esseri umani, e offrono critiche e classifiche. Quindi ordinano i risultati ottenuti dall’uomo e dall’IA e classificano ciascun risultato dell’IA come “migliore”, “uguale” o “peggiore” rispetto agli altri.

Gli autori delle attività hanno anche creato schede di valutazione dettagliate per le loro professioni, migliorando la coerenza e la trasparenza del processo di valutazione. Abbiamo inoltre creato un “valutatore automatico”, un sistema di intelligenza artificiale addestrato a stimare come gli esperti umani giudicherebbero un determinato risultato. Quindi, invece di eseguire ogni volta una revisione completa da parte di esperti, il sistema di valutazione automatico può prevedere rapidamente quale risultato potrebbe essere preferito. Stiamo rilasciando questo strumento su evals.openai.com come servizio di ricerca sperimentale, ma non è ancora affidabile quanto i valutatori esperti, quindi non lo utilizziamo al posto loro. 

Risultati preliminari

Abbiamo scoperto che i migliori modelli di frontiera odierni stanno già raggiungendo la qualità del lavoro prodotto dagli esperti del settore. Per verificarlo, abbiamo condotto valutazioni in cieco in cui esperti del settore hanno confrontato i risultati ottenuti da diversi modelli leader (GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro e Grok 4) con lavori prodotti da esseri umani. Su 220 attività del set GDPval gold, abbiamo registrato i casi in cui i risultati del modello sono stati valutati come migliori (“vittorie”) o pari (“pareggi”) rispetto ai risultati ottenuti dagli esperti del settore, come mostrato nel grafico a barre riportato di seguito. Claude Opus 4.1 è stato il modello con le migliori prestazioni del set, distinguendosi in particolare per l’estetica (ad esempio, formattazione dei documenti, layout delle diapositive), mentre GPT‑5 ha dimostrato un’eccellente accuratezza (ad esempio, nella ricerca di conoscenze specifiche di un determinato settore). Vediamo anche evidenti progressi nel tempo su queste attività. Le prestazioni sono più che raddoppiate da GPT‑4o (rilasciato nella primavera del 2024) a GPT‑5 (rilasciato nell’estate del 2025), seguendo un chiaro andamento lineare.

Inoltre, abbiamo rilevato che i modelli di frontiera possono completare le attività GDPval con una velocità circa 100 volte superiore e a un costo 100 volte inferiore rispetto agli esperti del settore. Tuttavia, queste cifre riflettono esclusivamente il tempo di inferenza del modello e le tariffe di fatturazione API e quindi non tengono conto delle fasi di supervisione umana, iterazione e integrazione necessarie in contesti lavorativi reali per utilizzare i nostri modelli. Eppure, soprattutto per quel tipo di operazioni in cui i modelli sono particolarmente efficaci, possiamo dire che affidare un’attività a un modello prima di provarlo con una persona fa risparmiare tempo e denaro.

Esperti valutatori hanno confrontato i risultati ottenuti dai modelli principali con quelli ottenuti da esperti umani. I modelli di frontiera odierni stanno già raggiungendo la qualità del lavoro prodotto dagli esperti del settore. Claude Opus 4.1 ha prodotto risultati valutati come buoni o migliori di quelli umani in poco meno della metà delle attività.

Con il passaggio da GPT‑4o a GPT‑5, le prestazioni nelle attività GDPval sono più che triplicate in un anno. 

Infine, abbiamo addestrato in modo incrementale una versione interna e sperimentale di GPT‑5 per valutare se fosse possibile migliorare le prestazioni su GDPval. Abbiamo riscontrato che questo processo ha migliorato le prestazioni, aprendo la strada a ulteriori potenziali miglioramenti. Altri esperimenti controllati confermano questa teoria: aumentare le dimensioni del modello, incoraggiare un maggior numero di passaggi di ragionamento e fornire un contesto più ricco per le attività ha portato a miglioramenti misurabili.

È possibile leggere i risultati completi nel nostro articolo. Stiamo inoltre rilasciando un sottoinsieme gold delle attività GDPval e un servizio di valutazione pubblico affinché altri ricercatori possano farvi riferimento.

Il futuro del lavoro e dell’intelligenza artificiale 

Man mano che l’IA diventerà più potente, probabilmente produrrà cambiamenti nel mercato del lavoro. I primi risultati di GDPval mostrano che i modelli sono già in grado di svolgere alcuni attività ripetitive e ben definite più rapidamente e a costi inferiori rispetto agli esperti. Tuttavia, la maggior parte dei lavori è molto più di un semplice insieme di attività che possono essere riportate per iscritto. GDPval evidenzia i casi in cui l’IA può gestire le attività di routine, in modo che le persone possano dedicare più tempo agli aspetti creativi e che richiedono un maggiore giudizio del proprio lavoro. Quando l’intelligenza artificiale integra i lavoratori in questo modo, può tradursi in una crescita economica significativa. L’obiettivo è quello di mantenere tutti sulla scia dello sviluppo dell’IA democratizzando l’accesso a questi strumenti, sostenendo i lavoratori durante il cambiamento e costruendo sistemi che premiano il contributo collettivo. 

Limitazioni e prossimi sviluppi

Il GDPval è una prima fase. Copre 44 professioni e centinaia di attività, ma continuiamo a perfezionare il metodo per allargare il campo dei test e rendere i risultati più significativi. Si tratta di una versione di tipo “one-shot”, quindi non tiene conto dei casi in cui un modello dovrebbe costruire un contesto o migliorare attraverso più bozze, ad esempio rivedendo una memoria legale dopo il feedback del cliente o iterando un’analisi dei dati dopo aver individuato un’anomalia. Inoltre, nel mondo reale, le attività non sono sempre definite in modo chiaro con istruzioni e file di riferimento. Ad esempio, un avvocato potrebbe dover affrontare situazioni ambigue e parlare con il proprio cliente prima di decidere che preparare una memoria legale è l’impostazione giusta per il caso. Intendiamo ampliare GDPval per includere più professioni, settori e tipi di attività, con una maggiore interazione e più attività che comportano la gestione dell’ambiguità, al fine di misurare meglio i progressi compiuti in diversi ambiti del lavoro intellettuale.

Partecipa

La partecipazione della comunità è fondamentale: siamo entusiasti di sviluppare GDPval insieme a ricercatori, professionisti e organizzazioni che condividono il nostro obiettivo di rendere l’AGI più utile per il lavoro delle persone.