Nuovi strumenti per lo sviluppo di agenti
Stiamo sviluppando la nostra piattaforma per aiutare gli sviluppatori e le aziende a creare agenti utili e affidabili.

Oggi rilasciamo il primo set di componenti di base che aiuteranno sviluppatori e aziende a creare agenti utili e affidabili. Consideriamo gli agenti come sistemi che eseguono autonomamente attività per conto degli utenti. Nel corso dell'ultimo anno abbiamo introdotto nuove funzionalità, come ragionamento avanzato, interazioni multimodali e nuove tecniche di sicurezza, che hanno gettato le basi affinché i modelli possano gestire le complesse attività in più fasi richieste per creare agenti. Tuttavia, i clienti hanno osservato che trasformare queste funzionalità in agenti pronti per la produzione può essere complicato, essendo spesso necessaria un'iterazione rapida estesa e una logica di orchestrazione personalizzata senza sufficiente visibilità o supporto integrato.
Per affrontare queste sfide, stiamo lanciando una nuova serie di API e strumenti progettati specificamente per semplificare lo sviluppo di applicazioni agentiche:
- La nuova API Risposte(si apre in una nuova finestra), che combina la semplicità dell'API per il completamento delle chat con le capacità di utilizzo degli strumenti dell'API degli assistenti per la creazione di agenti
- Strumenti integrati tra cui ricerca web(si apre in una nuova finestra), ricerca file(si apre in una nuova finestra) e utilizzo del computer(si apre in una nuova finestra)
- Il nuovo Agents SDK(si apre in una nuova finestra) per orchestrare flussi di lavoro a singolo agente e multi-agente
- Strumenti di osservabilità(si apre in una nuova finestra) integrati per tracciare ed esaminare l'esecuzione del flusso di lavoro dell'agente
Questi nuovi strumenti semplificano la logica, l'orchestrazione e le interazioni degli agenti principali, rendendo molto più semplice per gli sviluppatori iniziare a creare agenti. Nelle prossime settimane e nei prossimi mesi prevediamo di rilasciare ulteriori strumenti e funzionalità per semplificare e accelerare ulteriormente la creazione di applicazioni agentiche sulla nostra piattaforma.
L'API Risposte è la nostra nuova API primitiva per sfruttare gli strumenti integrati di OpenAI per creare agenti. Combina la semplicità dei completamenti delle chat con le capacità di utilizzo degli strumenti dell'API degli assistenti. Con la continua evoluzione delle funzionalità del modello, crediamo che l'API Risposte fornirà una base più flessibile per gli sviluppatori che creano applicazioni agentiche. Con una singola chiamata API Risposte, gli sviluppatori saranno in grado di risolvere attività sempre più complesse utilizzando più strumenti e curve di modello.
Per iniziare, l'API Risposte supporterà nuovi strumenti integrati come la ricerca sul web, la ricerca di file e l'uso del computer. Questi strumenti sono progettati per funzionare insieme e collegare i modelli al mondo reale, rendendoli più utili nello svolgimento delle attività. Ciò implica anche diversi miglioramenti in termini di usabilità, tra cui un design unificato basato sugli elementi, un polimorfismo più semplice, eventi di streaming intuitivi e helper SDK come response.output_text per accedere facilmente all'output di testo del modello.
L'API Risposte è progettata per gli sviluppatori che desiderano combinare facilmente modelli OpenAI e strumenti integrati nelle proprie app, senza la complessità di dover integrare più API o fornitori esterni. L'API semplifica inoltre l'archiviazione dei dati su OpenAI, consentendo agli sviluppatori di valutare le prestazioni degli agenti utilizzando funzionalità quali tracciamento e valutazioni. Ricordiamo che di default non addestriamo i nostri modelli sui dati aziendali, anche quando i dati sono archiviati su OpenAI. L'API è disponibile per tutti gli sviluppatori a partire da oggi e non viene addebitata separatamente: i token e gli strumenti vengono fatturati ai prezzi standard specificati nella pagina delle tariffe(si apre in una nuova finestra). Per saperne di più, consulta la guida rapida(si apre in una nuova finestra) all'API Risposte.
- API per il completamento delle chat(si apre in una nuova finestra): Il completamento delle chat rimane la nostra API più ampiamente adottata e siamo costantemente impegnati a supportarla con nuovi modelli e funzionalità. Gli sviluppatori che non necessitano di strumenti integrati possono continuare a utilizzare il completamento delle chat senza problemi. Continueremo a rilasciare nuovi modelli per il completamento delle chat ogniqualvolta le loro funzionalità non dipendano da strumenti integrati o da più chiamate di modelli. Tuttavia, l'API Risposte è un superset(si apre in una nuova finestra) del completamento delle chat con le stesse ottime prestazioni, quindi per le nuove integrazioni consigliamo di iniziare con l'API Risposte.
- API degli assistenti(si apre in una nuova finestra): Sulla base del feedback degli sviluppatori sulla versione beta dell'API degli assistenti, abbiamo integrato miglioramenti chiave nell'API Risposte, rendendola più flessibile, veloce e facile da usare. Stiamo lavorando per raggiungere una completa parità di funzionalità tra l’API degli assistenti e l'API Risposte, incluso il supporto per oggetti simili ad assistenti e thread e lo strumento Interprete del codice. Una volta completato questo processo, prevediamo di annunciare formalmente la dismissione dell'API degli assistenti, con una data di scadenza prevista per la metà del 2026. Dopo l'eliminazione, forniremo una guida chiara alla migrazione dall'API degli assistenti all'API Risposte, che consentirà agli sviluppatori di conservare tutti i loro dati e di migrare le loro applicazioni. Continueremo a fornire nuovi modelli all'API degli assistenti finché non annunceremo formalmente la dismissione. L'API Risposte rappresenta la direzione futura per la creazione di agenti su OpenAI.
Gli sviluppatori possono ora ottenere risposte rapide e aggiornate con citazioni chiare e pertinenti dal web. Nell’API Risposte, la ricerca sul web è disponibile come strumento quando si utilizza gpt-4o e gpt-4o-mini e può essere abbinata ad altri strumenti o chiamate di funzione.
Durante i primi test, abbiamo visto gli sviluppatori sviluppare soluzioni con la ricerca web per una varietà di casi d'uso, tra cui assistenti allo shopping, agenti di ricerca e agenti di prenotazione viaggi, ovvero qualsiasi applicazione che richieda informazioni tempestive dal web.
Ad esempio, Hebbia(si apre in una nuova finestra) sfrutta lo strumento di ricerca sul web per aiutare i gestori patrimoniali, le società di private equity e di credito e gli studi legali a estrarre rapidamente informazioni utili da ampi set di dati pubblici e privati. Integrando funzionalità di ricerca in tempo reale nei propri flussi di lavoro di ricerca, Hebbia fornisce informazioni di mercato complete e specifiche rispetto al contesto e migliora costantemente la precisione e la pertinenza delle proprie analisi, superando i benchmark attuali.
La ricerca sul web nell'API si basa sullo stesso modello utilizzato per la ricerca ChatGPT. Su SimpleQA, un benchmark che valuta l'accuratezza degli LLM nel rispondere a domande brevi e fattuali, l'anteprima della ricerca GPT‑4o e l'anteprima della mini ricerca GPT‑4o ottengono rispettivamente un punteggio del 90% e dell'88%.
Precisione di SimpleQA (più alto è meglio)
Le risposte generate tramite la ricerca web nell'API includono link a fonti, come articoli di notizie e post di blog, offrendo agli utenti la possibilità di approfondire. Grazie a queste citazioni chiare e integrate, gli utenti possono interagire con le informazioni in modo del tutto nuovo, mentre i proprietari dei contenuti hanno l'opportunità di raggiungere un pubblico più ampio.
Qualsiasi sito web o editore può scegliere di apparire(si apre in una nuova finestra) nella ricerca web dell'API.
Lo strumento di ricerca web è disponibile in anteprima per tutti gli sviluppatori nell'API Risposte. Stiamo inoltre offrendo agli sviluppatori accesso diretto ai nostri modelli di ricerca ottimizzati nell'API per il completamento delle chat tramite gpt-4o-search-preview e gpt-4o-mini-search-preview. Le tariffe(si apre in una nuova finestra) partono rispettivamente da 30 $ e 25 $ per mille query per la ricerca GPT‑4o e la ricerca 4o-mini. Dai un'occhiata alla ricerca web nel Playground(si apre in una nuova finestra) e scopri di più nella documentazione(si apre in una nuova finestra).
Gli sviluppatori possono ora recuperare facilmente informazioni rilevanti da grandi volumi di documenti utilizzando lo strumento di ricerca file migliorato. Grazie al supporto per più tipi di file, all'ottimizzazione delle query, al filtraggio dei metadati e alla riclassificazione personalizzata, è possibile ora ottenere risultati di ricerca rapidi e accurati. E ancora una volta, con l’API Risposte, bastano solo poche righe di codice per l'integrazione.
Lo strumento di ricerca file può essere utilizzato per una varietà di casi d'uso concreti, come per esempio permettere a un agente di assistenza clienti di accedere facilmente alle FAQ, aiutare un assistente legale a fare rapidamente riferimento a casi precedenti per un professionista qualificato e assistere un agente di codifica nel consultare la documentazione tecnica. Ad esempio, Navan(si apre in una nuova finestra) utilizza la ricerca di file nel suo agente di viaggio basato sull'IA per fornire rapidamente ai propri utenti risposte precise tratte da articoli della knowledge base (come la politica di viaggio dell’azienda). Grazie all'ottimizzazione delle query e alla riclassificazione integrate, sono in grado di impostare una potente pipeline RAG (generazione con recupero aumentato) senza ulteriori regolazioni o configurazioni. Con gli archivi vettoriali dedicati per ciascun gruppo di utenti, Navan è in grado di personalizzare le risposte in base alle impostazioni individuali degli account e ai ruoli degli utenti, facendo risparmiare tempo ai clienti e ai loro dipendenti e offrendo un supporto accurato e personalizzato.
Questo strumento è disponibile nell'API Risposte per tutti gli sviluppatori. L'utilizzo ha un costo(si apre in una nuova finestra) di 2,50 $ ogni mille query e l'archiviazione dei file di 0,10 $/GB/giorno, con il primo GB gratuito. Lo strumento continua a essere disponibile nell'API degli assistenti. Infine, abbiamo anche aggiunto un nuovo endpoint di ricerca agli oggetti API di Vector Store per interrogare direttamente i tuoi dati da utilizzare in altre applicazioni e API. Scopri di più nella nostra documentazione(si apre in una nuova finestra) e inizia a testare nel Playground(si apre in una nuova finestra).
Per creare agenti in grado di completare attività su un computer, gli sviluppatori possono ora utilizzare lo strumento di utilizzo del computer nell'API Risposte, basato sullo stesso modello CUA (Computer-Using Agent) che abilita Operator. Questo modello di anteprima della ricerca ha stabilito un nuovo record all'avanguardia, ottenendo il 38,1% di successo su OSWorld(si apre in una nuova finestra) per le attività che prevedono l'uso completo del computer, il 58,1% su WebArena(si apre in una nuova finestra) e l'87% su WebVoyager(si apre in una nuova finestra) per le interazioni basate sul Web.
Lo strumento integrato per l'uso del computer cattura le azioni del mouse e della tastiera generate dal modello, consentendo agli sviluppatori di automatizzare le attività di utilizzo del computer traducendo direttamente queste azioni in comandi eseguibili all'interno dei loro ambienti.
Gli sviluppatori possono utilizzare tale strumento per automatizzare flussi di lavoro basati su browser, come l'esecuzione di controlli di qualità su app web o l'esecuzione di attività di immissione dati su sistemi legacy. Ad esempio, Unify(si apre in una nuova finestra) è un sistema di azione per aumentare i ricavi che utilizza agenti per identificare le intenzioni, ricercare account e interagire con gli acquirenti. Grazie allo strumento di utilizzo del computer di OpenAI, gli agenti di Unify possono accedere a informazioni che in precedenza non erano raggiungibili tramite API, ad esempio permettendo a una società di gestione immobiliare di verificare tramite mappe online se un'azienda ha ampliato la propria presenza immobiliare. Questa ricerca agisce come un segnale specifico per innescare un contatto personalizzato, consentendo ai team di go-to-market di coinvolgere gli acquirenti con precisione e scalabilità.
Luminai(si apre in una nuova finestra) offre un altro esempio di integrazione dello strumento di utilizzo del computer per automatizzare flussi di lavoro operativi complessi per grandi aziende con sistemi legacy privi di disponibilità API e dati standardizzati. In un recente progetto pilota con un'importante organizzazione di servizi alla comunità, Luminai ha automatizzato l'elaborazione delle domande e il processo di iscrizione degli utenti in pochi giorni, un risultato che la tradizionale automazione robotica dei processi (RPA) faticato a raggiungere dopo mesi di lavoro.
Prima di lanciare CUA su Operator l'anno scorso, abbiamo condotto approfonditi test di sicurezza e attività di red teaming, affrontando tre aree di rischio chiave: uso improprio, errori del modello e rischi di frontiera. Per affrontare i rischi associati all'espansione delle capacità dell'operatore ai sistemi operativi locali tramite CUA nell'API, abbiamo eseguito ulteriori valutazioni di sicurezza e attività di red teaming. Abbiamo anche aggiunto misure di mitigazione per gli sviluppatori, tra cui controlli di sicurezza per proteggere da iniezioni di prompt, prompt di conferma per attività sensibili, strumenti per aiutare gli sviluppatori a isolare i propri ambienti e un rilevamento migliorato di potenziali violazioni delle policy. Sebbene queste misure di mitigazione contribuiscano a ridurre i rischi, il modello è comunque soggetto a errori involontari, soprattutto in ambienti senza browser. Ad esempio, le prestazioni di CUA su OSWorld, un benchmark progettato per misurare le prestazioni degli agenti IA in attività reali, sono attualmente al 38,1%, il che indica che il modello non è ancora altamente affidabile per l'automazione delle attività sui sistemi operativi. In questi scenari è consigliabile la supervisione umana. Maggiori dettagli sul nostro lavoro di sicurezza specifico per API sono disponibili nella scheda di sistema aggiornata.
| Tipo di benchmark | Benchmark | Uso del computer (interfaccia universale) | Agenti per la navigazione su web | Umano | |
|---|---|---|---|---|---|
| OUC OpenAI | SOTA precedente | SOTA precedente | |||
| Uso del computer | OSWorld | 38,1% | 22,0% | - | 72,4% |
| Utilizzo del browser | WebArena | 58,1% | 36,2% | 57,1% | 78,2% |
| WebVoyager | 87,0% | 56,0% | 87,0% | - | |
A partire da oggi, lo strumento per l'utilizzo del computer è disponibile come anteprima di ricerca nell'API Risposte per sviluppatori selezionati nei livelli di utilizzo da 3 a 5(si apre in una nuova finestra). L'utilizzo ha un costo(si apre in una nuova finestra) di 3 $ per 1 milione di token di input e 12 $ per 1 milione di token di output. Per saperne di più, consulta la documentazione(si apre in una nuova finestra) e dai un'occhiata all'applicazione di esempio(si apre in una nuova finestra) che mostra come utilizzare questo strumento.
Oltre a creare la logica di base degli agenti e a fornire loro l'accesso agli strumenti in modo che siano utili, gli sviluppatori devono anche orchestrare i flussi di lavoro degli agenti. Il nostro nuovo Agents SDK open source semplifica l'orchestrazione dei flussi di lavoro multi-agente e offre miglioramenti significativi rispetto a Swarm(si apre in una nuova finestra), un SDK sperimentale che abbiamo rilasciato l'anno scorso, che è stato ampiamente adottato dalla community di sviluppatori e distribuito con successo da numerosi clienti.
I miglioramenti includono:
- Agenti: LLM facilmente configurabili con istruzioni chiare e strumenti integrati.
- Passaggi di consegne: Trasferimento del controllo in modo intelligente tra gli agenti.
- Guardrail: Controlli di sicurezza configurabili per la convalida di input e output.
- Tracciamento e osservabilità: Visualizzazione delle tracce di esecuzione dell'agente per eseguire il debug e ottimizzare le prestazioni.
Agents SDK è adatto a varie applicazioni del mondo reale, tra cui l'automazione dell'assistenza clienti, la ricerca in più fasi, la generazione di contenuti, la revisione del codice e la ricerca di potenziali clienti. Ad esempio, Coinbase(si apre in una nuova finestra) ha utilizzato Agents SDK per prototipare e distribuire rapidamente AgentKit, un toolkit che consente agli agenti IA di interagire senza problemi con i portafogli crittografici e varie attività on-chain. Nel giro di poche ore, Coinbase ha integrato le azioni personalizzate del suo Developer Platform SDK in un agente completamente funzionale. L'architettura ottimizzata di AgentKit ha semplificato il processo di aggiunta di nuove azioni degli agenti, consentendo agli sviluppatori di concentrarsi maggiormente su integrazioni significative e meno sulla navigazione di configurazioni complesse degli agenti.
Nel giro di un paio di giorni, Box(si apre in una nuova finestra) è riuscita a creare rapidamente agenti che sfruttano la ricerca web e Agents SDK per consentire alle aziende di cercare, interrogare ed estrarre informazioni da dati non strutturati archiviati in Box e in fonti Internet pubbliche. Questo approccio consente ai clienti non solo di accedere alle informazioni più recenti, ma anche di effettuare ricerche nei propri dati proprietari interni in modo sicuro e protetto, nel rispetto delle autorizzazioni interne e delle policy di sicurezza. Ad esempio, un'azienda di servizi finanziari può creare un agente personalizzato che si avvale dell'agente Box AI per integrare l'analisi di mercato interna memorizzata in Box con notizie in tempo reale e dati economici provenienti dal web, offrendo ai propri analisti una visione completa per le decisioni di investimento.
Agents SDK funziona con API Risposte e l’API per il completamento delle chat. L'SDK funzionerà anche con modelli di altri provider, a condizione che forniscano un endpoint API in stile completamento delle chat. Gli sviluppatori potranno integrarlo immediatamente nei loro codici Python e presto arriverà anche il supporto per Node.js. Per saperne di più, consulta la nostra documentazione(si apre in una nuova finestra).
Nella progettazione di Agents SDK, il nostro team si è ispirato all'eccellente lavoro di altri membri della community, tra cui Pydantic(si apre in una nuova finestra), Griffe(si apre in una nuova finestra) e MkDocs(si apre in una nuova finestra). Siamo impegnati nello sviluppo continuo di Agents SDK come framework open source in modo che altri membri della community possano ampliare il nostro approccio.
Riteniamo che gli agenti diventeranno presto parte integrante della forza lavoro, migliorando significativamente la produttività in tutti i settori. Poiché le aziende cercano sempre più di sfruttare l'IA per attività complesse, intendiamo fornire gli elementi costitutivi che consentono a sviluppatori e aziende di creare in modo efficace sistemi autonomi che abbiano un impatto nel mondo reale.
Con le versioni odierne, introduciamo i primi elementi costitutivi per consentire a sviluppatori e aziende di creare, distribuire e scalare più facilmente agenti IA affidabili e ad alte prestazioni. Man mano che le funzionalità del modello diventano più agentiche, continueremo a investire in integrazioni più profonde tra le nostre API e in nuovi strumenti per aiutare a distribuire, valutare e ottimizzare gli agenti in produzione. Il nostro obiettivo è offrire agli sviluppatori un'esperienza di piattaforma fluida per la creazione di agenti in grado di supportare una varietà di attività in qualsiasi settore. Non vediamo l'ora di scoprire cosa realizzeranno gli sviluppatori in futuro. Per iniziare, consulta la nostra documentazione(si apre in una nuova finestra) e resta con noi per non perderti i prossimi aggiornamenti.