Vai al contenuto principale
OpenAI

19 novembre 2025

Ricerca

In che modo gli evals aprono una nuova fase dell’IA per le aziende

Questo manuale insegna ai leader del Business come i framework di valutazione (“evals”) trasformano gli obiettivi aziendali in risultati coerenti.

Caricamento in corso...

Oltre un milione di aziende in tutto il mondo sta sfruttando l’AI per aumentare efficienza e creazione di valore. Ma molte organizzazioni faticano ancora a ottenere i risultati attesi. Da cosa deriva questo divario?

In OpenAI utilizziamo internamente l’IA per raggiungere i nostri obiettivi più ambiziosi. Uno degli strumenti chiave che usiamo sono gli evals, metodi per misurare e migliorare la capacità di un sistema di IA di soddisfare le aspettative. 

Proprio come i documenti sui requisiti del prodotto, gli evals rendono chiari e concreti obiettivi vaghi e idee astratte. Un uso strategico degli evals può rendere più affidabile, su larga scala, un prodotto rivolto ai clienti o uno strumento interno, ridurre errori critici, limitare i rischi e offrire un percorso misurabile verso un ROI più elevato. 

In OpenAI, i nostri modelli sono i nostri prodotti, e per questo i nostri ricercatori utilizzano rigorosi evals di frontiera(si apre in una nuova finestra) 1 per misurare le prestazioni dei modelli nei diversi domini. Gli evals di frontiera ci permettono di sviluppare modelli migliori più rapidamente, ma non colgono tutte le sfumature necessarie per garantire buone performance in workflow specifici e contesti aziendali reali. Per questo i nostri team interni hanno sviluppato decine di evals contestuali pensati per valutare le performance all’interno di prodotti o workflow specifici. Ed è il motivo per cui i leader aziendali dovrebbero imparare a creare evals contestuali adatte ai bisogni e all’ambiente operativo della propria organizzazione. 

Questa guida è pensata per i leader aziendali che vogliono introdurre gli evals nelle loro organizzazioni. Gli evals contestuali, ciascuno progettato per un workflow o prodotto specifico, sono un’area in forte evoluzione, e non esistono ancora processi definitivi. Per questo motivo questo articolo propone un framework generale che abbiamo visto funzionare in molti contesti. Ci aspettiamo che questo ambito continui a evolversi e che emergano nuovi framework pensati per contesti e obiettivi aziendali specifici. Per esempio, un ottimo eval per un prodotto di consumo all’avanguardia basato sull'intelligenza artificiale potrebbe richiedere un processo diverso rispetto a un eval per un’automazione interna basata su procedure operative standard. Crediamo che il framework proposto qui possa rappresentare una raccolta di buone norme utili in entrambi i casi e una guida pratica per costruire evals su misura per la tua azienda.

Come funzionano gli evals: Specificare → Misurare → Migliorare

Diagramma intitolato “Eval Blog” che mostra un flusso di componenti e processi di valutazione, impostato su uno sfondo chiaro con blocchi colorati e frecce che rappresentano la logica di valutazione del modello.

1. Specificare: definire cosa vuol dire “eccellente”.

Parti da un team ristretto e competente, capace di definire in modo chiaro lo scopo del tuo sistema di IA, ad esempio: «Convertire e-mail qualificate in demo programmate, mantenendo coerenza con il brand».

Il team dovrebbe includere persone con competenze tecniche e competenze specifiche del settore (nell’esempio: esperti di vendita). Dovrebbero saper definire i risultati più importanti da misurare, mappare l’intero flusso di lavoro end-to-end e identificare i principali punti decisionali con cui il sistema IA si confronterà. Per ogni fase del flusso di lavoro, il team dovrebbe definire cosa rappresenta un risultato corretto e quali sono gli errori da evitare. Questo processo genera una mappatura di decine di input di esempio (es. e-mail in entrata) associati agli output desiderati. Il golden set risultante diventa un riferimento chiaro e autorevole del giudizio e del gusto dei tuoi esperti su cosa significhi “qualità eccellente”.

Non lasciarti scoraggiare dall’inizio: non serve risolvere tutto subito. Il processo è iterativo e un po’ caotico. Le prime fasi di prototipazione possono essere estremamente utili. Analizzare da 50 a 100 output generati da una prima versione del sistema aiuta a capire dove e quando il sistema sbaglia. Questa “analisi degli errori” porta alla creazione di una tassonomia dei diversi tipi di errore (e delle loro frequenze) da monitorare man mano che il sistema migliora.

Questo processo non è solo tecnico: è trasversale e parte dalla definizione degli obiettivi e dei processi aziendali desiderati. I team tecnici non dovrebbero essere lasciati soli a definire cosa serva ai clienti o agli altri team, come prodotto, vendita o risorse umane. Per questo la responsabilità deve essere condivisa da esperti di dominio, responsabili tecnici e stakeholder chiave. 

2. Misurare: testare il sistema in condizioni reali

Il prossimo passo è misurare. L'obiettivo della misurazione è far emergere in modo affidabile esempi concreti di come e quando il sistema fallisce. Per farlo, crea un ambiente di test dedicato che rispecchi da vicino le condizioni reali—non solo una demo o un playground di prompt. Valuta le prestazioni rispetto al tuo set di riferimento e all'analisi degli errori sotto le stesse pressioni e casi limite che il tuo sistema dovrà effettivamente affrontare.

Le rubriche possono rendere più concreti i criteri di valutazione del tuo sistema, ma è facile dare troppo peso a fattori superficiali a scapito degli obiettivi reali. Alcune qualità, inoltre, sono difficili, se non impossibili, da misurare con precisione. In alcuni casi saranno fondamentali le metriche aziendali tradizionali. In altri casi sarà necessario definire metriche nuove. Coinvolgi continuamente i tuoi esperti del settore e mantieni il processo strettamente allineato agli obiettivi principali.

Per testare davvero il sistema, utilizza, ove possibile, esempi tratti da situazioni reali e includi, o crea, casi limite rari ma potenzialmente molto costosi. 

Alcuni evals possono essere ridimensionati tramite l'uso di un LLM grader, un modello di intelligenza artificiale che valuta gli output allo stesso modo di un esperto; tuttavia, è comunque importante mantenere un essere umano nel processo. Il tuo esperto di dominio deve regolarmente verificare l'accuratezza dei valutatori LLM e dovrebbe anche esaminare direttamente i registri del comportamento del tuo sistema. 

Gli evals possono aiutarti a stabilire quando un sistema è pronto per il lancio, ma il lavoro non finisce lì. Devi monitorare in modo continuo la qualità degli output generati dal sistema su input reali. Come per qualsiasi prodotto, il feedback degli utenti (interni o esterni) è fondamentale e deve essere integrato nel tuo eval.

3. Migliorare: imparare dagli errori

L’ultimo passo consiste nel definire un processo di miglioramento continuo. Risolvere i problemi emersi dagli eval può richiedere interventi diversi: perfezionare i prompt, modificare l’accesso ai dati, aggiornare l’eval stesso per rispecchiare meglio i tuoi obiettivi e molto altro. Quando emergono nuovi tipi di errore, aggiungili all’analisi degli errori e affrontali. Ogni iterazione si costruisce sulla precedente: nuovi criteri e aspettative più chiare sul comportamento del sistema fanno emergere nuovi casi limite e problemi sottili da correggere.

Per sostenere questo ciclo, crea un volano di dati. Registra input, output e risultati; campiona regolarmente i log e indirizza automaticamente i casi ambigui o costosi a una revisione esperta. Integra i giudizi degli esperti negli eval e nell’analisi degli errori, e usali per aggiornare prompt, strumenti o modelli. Questo ciclo ti permetterà di chiarire meglio le tue aspettative per il sistema, allinearlo più precisamente a ciò che ti serve, e individuare ulteriori output e risultati rilevanti da monitorare. Implementare questo processo su larga scala produce un dataset ampio, diversificato e specifico per il contesto, difficile da replicare e quindi prezioso per costruire il miglior prodotto o processo nel tuo mercato. 

Sebbene gli evals creino un modo sistematico per migliorare il tuo sistema di intelligenza artificiale, possono emergere nuove modalità di errore. In pratica, con l'evoluzione dei modelli, dei dati e degli obiettivi aziendali, anche gli evals devono essere continuamente mantenuti, ampliati e sottoposti a stress test.

Per le implementazioni rivolte all'esterno, gli evals non sostituiscono i più tradizionali test A/B e la sperimentazione dei prodotti. Sono complementi alla sperimentazione tradizionale che possono guidarsi a vicenda e fornire visibilità su come le modifiche che apporti influenzano le prestazioni nel mondo reale. 

Cosa significano gli evals per i leader aziendali

Ogni grande cambiamento tecnologico rimodella l'eccellenza operativa e il vantaggio competitivo. Framework come OKR e KPI hanno aiutato le organizzazioni a orientarsi su «misurare ciò che conta» per il loro business nell'era dell'analisi dei big data. Gli evals sono la naturale estensione della misurazione per l'era dell'intelligenza artificiale.

Lavorare con sistemi probabilistici richiede nuovi tipi di misurazione e una considerazione più approfondita dei compromessi. I leader devono decidere quando la precisione è essenziale, quando possono essere più flessibili e come bilanciare velocità e affidabilità.

Gli evals sono difficili da implementare per lo stesso motivo per cui è difficile costruire prodotti eccellenti: richiedono rigore, visione e gusto. Se fatte bene, gli evals diventano elementi di differenziazione unici. In un mondo in cui le informazioni sono liberamente accessibili ovunque e le competenze sono democratizzate, il tuo vantaggio dipende da quanto bene i tuoi sistemi possono operare nel tuo contesto. Evals robusti creano vantaggi cumulativi e know-how istituzionale man mano che i tuoi sistemi migliorano. 

In sostanza, gli evals riguardano una profonda comprensione del contesto aziendale e degli obiettivi. Se non riesci a definire cosa significa “eccellente” per il tuo caso d'uso, è improbabile che tu riesca a raggiungerlo. In questo senso, gli evals mettono in luce una lezione fondamentale dell'era dell'IA: le competenze gestionali sono competenze dell'IA. Obiettivi chiari, feedback diretto, giudizio prudente e una chiara comprensione della tua proposta di valore, della tua strategia e dei tuoi processi sono ancora importanti, forse anche più di prima.

Man mano che emergeranno nuove best practice e framework, li condivideremo. Nel frattempo, ti incoraggiamo a sperimentare con gli evals e a scoprire quali processi funzionano meglio per le tue esigenze. Per iniziare, identifica il problema da risolvere e il tuo esperto di dominio, raduna il tuo piccolo team e, se stai sviluppando sulla nostra API, esplora i nostri Platform Docs(si apre in una nuova finestra).

Non sperare in qualcosa di “fantastico”. Specificalo, misuralo e miglioralo.

Autore

OpenAI

Note di riferimento

  1. 1

    Se desideri fornire assistenza al nostro lavoro nella costruzione della prossima generazione di modelli di IA, ti invitiamo a contribuire a GDPVal, il nostro ultimo benchmark su come i modelli di IA si comportano in attività reali. Se sei un esperto del settore interessato a contribuire a GDPval, per favore mostra il tuo interesse qui. Se sei un cliente che lavora con OpenAI e vuoi contribuire a un futuro ciclo di GDPval, esprimi il tuo interesse qui.