Oggi lanciamo AgentKit, un set completo di strumenti per sviluppatori e aziende per creare, distribuire e ottimizzare agenti. Finora, costruire agenti significava destreggiarsi tra strumenti frammentati: orchestrazioni complesse senza controllo delle versioni, connettori personalizzati, pipeline di valutazione manuali, ottimizzazione dei prompt e settimane di lavoro front-end prima del lancio. Con AgentKit, gli sviluppatori possono ora progettare i flussi di lavoro in modo visivo e integrare interfacce agentiche più velocemente utilizzando nuovi componenti come:
- Agent Builder: un canvas visivo per creare e gestire versioni dei workflow multi-agente
- Connector Registry: un punto centrale in cui gli amministratori possono controllare come dati e strumenti si connettono tra i prodotti OpenAI
- ChatKit: un toolkit per incorporare esperienze di chat agentiche personalizzabili all’interno del tuo prodotto
Inoltre, stiamo ampliando le funzionalità di valutazione con nuove caratteristiche come dataset, valutazione tramite tracce, ottimizzazione automatica dei prompt e supporto per modelli di terzi, per misurare e migliorare le prestazioni degli agenti.
Dopo il rilascio di Responses API and Agents SDK a marzo, abbiamo visto sviluppatori e aziende creare workflow agentici end-to-end per ricerca approfondita, supporto clienti e molto altro. Klarna ha sviluppato un agente di supporto che gestisce due terzi di tutte le richieste, mentre Clay ha aumentato la propria crescita di dieci volte grazie a un agente per le vendite. AgentKit si basa sulla Responses API per aiutarti a creare agenti in modo più efficiente e affidabile.
Man mano che i workflow agentici diventano più complessi, gli sviluppatori hanno bisogno di una visione più chiara di come funzionano. Agent Builder(si apre in una nuova finestra) offre un canvas visivo che ti permette di comporre la logica con nodi drag-and-drop, connettere strumenti e configurare sistemi di protezione (guardrail) personalizzati. Supporta esecuzioni in anteprima, configurazioni di valutazione integrate e gestione completa delle versioni, rendendolo ideale per iterazioni rapide.

I generatori possono iniziare da un canvas vuoto oppure utilizzare template già pronti.
In Ramp, il team è passato da un canvas bianco a un agente per gli acquisti in appena poche ore:
Agent Builder ha rivoluzionato un processo che un tempo richiedeva mesi di orchestrazione complessa, codice personalizzato e ottimizzazioni manuali, in appena poche ore. Il canvas visivo mantiene allineati i team di prodotto, legale e ingegneria, riducendo del 70% i cicli di iterazione e portando un agente in produzione in due sprint invece che in due trimestri.
Allo stesso modo, LY Corporation, una delle principali aziende giapponesi nel settore della tecnologia e dei servizi Internet, ha creato con Agent Builder un agente assistente per il lavoro in meno di due ore.
“Agent Builder ci ha permesso di orchestrare gli agenti in un modo completamente nuovo, riunendo ingegneri ed esperti di dominio in un’unica interfaccia collaborativa. In meno di due ore abbiamo realizzato e avviato il nostro primo workflow multi-agente, riducendo drasticamente i tempi di creazione e distribuzione degli agenti.”
Stiamo anche lanciando il Connector Registry, uno strumento pensato per aiutare le aziende a gestire e mantenere i propri dati tra più workspace e organizzazioni. Il Connector Registry(si apre in una nuova finestra) riunisce le fonti dati in un unico pannello di amministrazione, accessibile sia da ChatGPT che tramite API. Include tutti i connettori pre-configurati, come Dropbox, Google Drive, SharePoint e Microsoft Teams, oltre agli MCP di terzi.
Gli sviluppatori possono anche attivare le Guardrails(si apre in una nuova finestra) in Agent Builder: un livello di sicurezza modulare e open source che aiuta a proteggere gli agenti da comportamenti indesiderati o dannosi. Le Guardrails possono mascherare o segnalare informazioni personali (PII), rilevare tentativi di jailbreak e applicare altre misure di protezione, rendendo più semplice creare e distribuire agenti affidabili e sicuri. Le Guardrails possono essere implementate in modo autonomo oppure tramite la libreria guardrails per Python(si apre in una nuova finestra) e JavaScript(si apre in una nuova finestra).
Distribuire interfacce di chat per agenti può rivelarsi sorprendentemente complesso: bisogna gestire risposte in streaming, conversazioni su più thread, mostrare il processo di ragionamento del modello e creare esperienze di chat coinvolgenti. ChatKit semplifica tutto questo, permettendoti di integrare agenti basati su chat che si inseriscono in modo naturale nel tuo prodotto. Puoi incorporarli facilmente in app o siti web e personalizzarli per rispecchiare il tuo stile e brand.
“Grazie a ChatKit, abbiamo risparmiato oltre due settimane di lavoro nella creazione di un agente di supporto per la nostra community di sviluppatori Canva, integrandolo in meno di un’ora. Questo agente di supporto trasformerà il modo in cui gli sviluppatori interagiscono con la nostra documentazione, rendendola un’esperienza conversazionale che semplifica la creazione di app e integrazioni su Canva.”
ChatKit è già alla base di numerosi casi d’uso, che spaziano da assistenti di internal Knowledge e guide per l’onboarding, fino agli agenti dedicati al supporto clienti e alla ricerca. Un esempio è l’agente di assistenza clienti di HubSpot(si apre in una nuova finestra):

Creare agenti affidabili e pronti per la produzione richiede valutazioni approfondite delle loro prestazioni. Lo scorso anno abbiamo lanciato Evals(si apre in una nuova finestra) per aiutare gli sviluppatori a testare i prompt e misurare il comportamento dei modelli. Ora introduciamo quattro nuove funzionalità che rendono ancora più semplice creare le valutazioni:
- Datasets: consente di costruire rapidamente valutazioni per agenti da zero e di ampliarle nel tempo con valutatori automatici e annotazioni umane.
- Trace grading: permette di eseguire valutazioni end-to-end dei workflow agentici e automatizzare il processo di analisi per individuare eventuali punti critici.
- Ottimizzazione automatica dei prompt: genera prompt migliorati sulla base di annotazioni umane e risultati dei valutatori.
- Supporto per modelli di terzi: consente di valutare modelli di altri provider direttamente all’interno della piattaforma OpenAI Evals.
Abbiamo già osservato significativi miglioramenti nelle prestazioni da parte dei clienti che utilizzano Evals.
"La piattaforma di valutazione ha ridotto di oltre il 50% i tempi di sviluppo del nostro framework di due diligence multi-agente e aumentato la precisione degli agenti del 30%."

Il Reinforcement fine-tuning(si apre in una nuova finestra) (RFT) ti consente di personalizzare i nostri modelli di ragionamento. È già disponibile sul modello OpenAI o4-mini e in beta privata per GPT‑5. Stiamo collaborando con decine di clienti per perfezionare RFT su GPT‑5 prima di un rilascio pubblico.
Oggi presentiamo due nuove funzionalità nella beta di RFT pensate per potenziare ulteriormente le prestazioni degli agenti:
- Chiamate a strumenti personalizzate: addestra i modelli a usare gli strumenti giusti al momento giusto per migliorare il ragionamento.
- Valutatori personalizzati: definisci criteri di valutazione su misura per ciò che conta di più nel tuo caso d’uso.
A partire da oggi, ChatKit e le nuove funzionalità di Evals sono disponibili per tutti gli sviluppatori. Agent Builder è in versione beta, mentre il rollout della beta di Connector Registry è iniziato per alcuni clienti API, ChatGPT Enterprise ed Edu che dispongono di una Global Admin Console (dove i proprietari globali possono gestire domini, SSO e più organizzazioni API). La Global Admin Console(si apre in una nuova finestra) è necessaria per abilitare il Connector Registry. Tutti questi strumenti sono inclusi nei normali piani tariffari dei modelli API.
Prevediamo di introdurre presto una Workflows API autonoma e nuove opzioni per distribuire agenti direttamente all’interno di ChatGPT.
Non vediamo l’ora di scoprire cosa realizzerai!


