28 agosto 2025

Presentazione di gpt-realtime e aggiornamenti dell’API Realtime

Stiamo rilasciando un modello speech-to-speech più avanzato e nuove funzionalità API, quali il supporto server MCP, l’input immagini e il supporto chiamate SIP.

Interfaccia stilizzata che mostra un’interazione vocale. Al centro è presente un lettore audio rettangolare dagli angoli arrotondati con visualizzatore del suono in forma d’onda, pulsante di riproduzione/pausa, indicatore di stato “Agente online” e indicatore temporale 00:35. Sullo sfondo scorrono linee curve bianche con punti, suggerendo il movimento dell’audio dal vivo o del segnale. Lo sfondo è di un blu intenso con forme floreali sfocate nei toni del rosa e del viola.

Caricamento in corso...

In questi giorni stiamo rendendo disponibile l’API Realtime con nuove funzionalità che consentono agli sviluppatori e alle aziende di creare agenti vocali affidabili e pronti per la produzione. L’API ora supporta server MCP remoti, input di immagini e chiamate telefoniche tramite Session Initiation Protocol (SIP), rendendo gli agenti vocali più efficienti grazie all’accesso a strumenti e contesti aggiuntivi.

Stiamo inoltre rilasciando il nostro modello speech-to-speech più avanzato mai realizzato: gpt-realtime. Il nuovo modello mostra miglioramenti nel seguire istruzioni complesse, richiamare strumenti con precisione e produrre un linguaggio più naturale ed espressivo. È più abile nell’interpretare i messaggi di sistema e i prompt degli sviluppatori, sia che si tratti di leggere parola per parola gli script di disclaimer durante una chiamata all’assistenza, ripetere sequenze alfanumeriche o passare facilmente da una lingua all’altra nel bel mezzo di una frase. Stiamo inoltre rilasciando due nuove voci, Cedar e Marin, disponibili esclusivamente nell’API Realtime a partire da oggi.

Da quando lo scorso ottobre abbiamo introdotto l’API Realtime in versione beta pubblica, migliaia di sviluppatori l’hanno utilizzata e hanno contribuito a definire i miglioramenti che stiamo rilasciando oggi, ottimizzati per garantire affidabilità, bassa latenza e alta qualità, al fine di implementare con successo gli agenti vocali nella produzione. A differenza delle pipeline tradizionali che concatenano più modelli tra speech-to-text e text-to-speech, l’API Realtime elabora e genera l’audio direttamente attraverso un unico modello e API. In questo modo si riduce la latenza, si preservano le sfumature del discorso e si ottengono risposte più naturali ed espressive.

"Il nuovo modello speech-to-speech nell’API Realtime di OpenAI mostra un ragionamento più solido e un linguaggio più naturale. Ciò gli consente di gestire richieste complesse e articolate in più fasi, come restringere gli elenchi in base alle esigenze di stile di vita o guidare le discussioni sull’accessibilità economica con strumenti come il nostro punteggio BuyAbility. La ricerca di una casa su Zillow o l’esplorazione delle opzioni di finanziamento potrebbero diventare naturali come conversare con un amico, semplificando decisioni quali l’acquisto, la vendita e l’affitto di una casa".

– Josh Weisberg, Responsabile IA presso Zillow

Ti presentiamo gpt-realtime

Il nuovo modello speech-to-speech gpt-realtime è il nostro modello vocale più avanzato e pronto per la produzione. Abbiamo addestrato il modello in stretta collaborazione con i clienti per eccellere in attività reali come l’assistenza clienti, l’assistenza personale e la formazione, allineando il modello al modo in cui gli sviluppatori creano e implementano gli agenti vocali. Il modello registra miglioramenti in termini di qualità audio, intelligenza, capacità di seguire le istruzioni e richiamo di funzioni.

Qualità audio

Una conversazione dal suono naturale è fondamentale per l’implementazione degli agenti vocali nel mondo reale. I modelli devono parlare con l’intonazione, l’emozione e il ritmo di un essere umano per creare un’esperienza piacevole e incoraggiare la continuità della conversazione con gli utenti. Abbiamo addestrato gpt-realtime per produrre un parlato di qualità superiore, più naturale e in grado di seguire istruzioni precise, come “parla in modo rapido e professionale” o “parla con empatia e con accento francese”.

Stiamo rilasciando due nuove voci nell’API, Marin e Cedar, con miglioramenti significativi nella naturalezza del suono. Stiamo inoltre aggiornando le nostre otto voci esistenti affinché possano avvalersi di questi miglioramenti.

Modello di voce - Marin

Modello di voce - Cedar

Intelligenza e comprensione

gpt-realtime presenta un’intelligenza superiore ed è in grado di comprendere l’audio nativo in modo più accurato. Il modello è in grado di cogliere segnali non verbali (come le risate), cambiare lingua in qualsiasi momento e adattare il tono (“brusco e professionale” piuttosto che “gentile ed empatico”). In base a valutazioni interne, il modello mostra anche prestazioni più affidabili nel rilevare sequenze alfanumeriche (come numeri di telefono, numeri di telaio, ecc.) in altre lingue, tra cui spagnolo, cinese, giapponese e francese. Nella valutazione Big Bench Audio che misura le capacità di ragionamento, gpt-realtime ottiene un punteggio di accuratezza dell’82,8%, superando il modello precedente del dicembre 2024, che raggiunge il 65,6%.

Il benchmark Big Bench Audio⁠(si apre in una nuova finestra) è un set di dati di valutazione utilizzato per esaminare le funzionalità di ragionamento dei modelli linguistici che supportano l’input audio. Il set di dati adatta le domande di Big Bench Hard, scelte per la rigorosa verifica delle capacità di ragionamento avanzato, al dominio audio.

Rispetto delle istruzioni

Quando si crea un’applicazione speech-to-speech, gli sviluppatori forniscono al modello una serie di istruzioni su come comportarsi, compreso il modo di parlare, cosa dire in una determinata situazione e cosa fare o non fare. Abbiamo concentrato i nostri interventi di miglioramento sul rispetto di queste istruzioni, in modo che anche le indicazioni minori abbiano un peso maggiore per il modello. Nel benchmark audio MultiChallenge che misura la precisione nell’esecuzione delle istruzioni, gpt-realtime ottiene un punteggio del 30,5%, un miglioramento significativo rispetto al modello precedente del dicembre 2024, che raggiunge il 20,6%.

MultiChallenge⁠(si apre in una nuova finestra) valuta la capacità dei modelli LLM nel gestire conversazioni multi-turno con gli esseri umani. Si occupa di quattro tipi di problemi reali che gli attuali modelli di frontiera hanno difficoltà a risolvere. Queste sfide richiedono che i modelli combinino contemporaneamente l’esecuzione di istruzioni, la gestione del contesto e il ragionamento contestuale. Abbiamo convertito una parte delle domande del test adatta all’audio da testo a voce per creare una versione audio di questa valutazione.

Richiamo di funzioni

Per creare un agente vocale efficiente con un modello speech-to-speech, il modello deve essere in grado di richiamare gli strumenti giusti al momento giusto per essere utile nella produzione. Abbiamo migliorato il richiamo di funzioni su tre fronti: richiamo di funzioni pertinenti, richiamo di funzioni al momento opportuno e richiamo di funzioni con argomenti appropriati, con conseguente aumento della precisione. Nella valutazione audio ComplexFuncBench che misura le prestazioni del richiamo di funzioni, gpt-realtime ottiene un punteggio del 66,5%, mentre il modello precedente del dicembre 2024 raggiunge il 49,7%.

Abbiamo anche apportato miglioramenti al richiamo di funzioni asincrono⁠(si apre in una nuova finestra). Le chiamate di funzione di lunga durata non interromperanno più il flusso di una sessione: il modello può continuare una conversazione fluida mentre attende i risultati. Questa funzione è disponibile in modo nativo in gpt-realtime, quindi gli sviluppatori non devono aggiornare il proprio codice.

ComplexFuncBench⁠(si apre in una nuova finestra) misura l’efficacia dei modelli nell’eseguire attività di richiamo di funzioni complesse. Valuta le prestazioni in scenari quali chiamate a più passaggi, ragionamento basato su vincoli o parametri impliciti, gestione di input molto lunghi. Abbiamo convertito i prompt del testo originale in voce per costruire questa valutazione per il nostro modello.

Novità nell’API Realtime

Supporto per server MCP remoti

È possibile abilitare il supporto MCP in una sessione API Realtime passando l’URL di un server MCP remoto nella configurazione della sessione. Una volta connesso, l’API gestisce automaticamente le chiamate dello strumento, quindi non è necessario collegare manualmente le integrazioni.

Questa configurazione semplifica l’estensione dell’agente con nuove funzionalità: basta indirizzare la sessione a un server MCP diverso e tali strumenti saranno immediatamente disponibili. Per saperne di più sulla configurazione di MCP con Realtime, consulta questa guida⁠(si apre in una nuova finestra).

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

Input di immagine

L’input di immagini ora supportato in gpt-realtime consente di aggiungere immagini, foto e screenshot insieme ad audio o testo a una sessione API Realtime. Ora il modello può basare la conversazione su ciò che l’utente sta effettivamente vedendo, e gli utenti potranno rivolgere domande come “cosa vedi?” o “leggi il testo in questo screenshot”.

Anziché trattare un’immagine come un flusso video in diretta, il sistema la tratta piuttosto come un’immagine aggiunta alla conversazione. La tua app può decidere quali immagini condividere con il modello e quando condividerle. In questo modo, mantieni il controllo su ciò che il modello vede e quando risponde.

Consulta la documentazione⁠(si apre in una nuova finestra) per iniziare con l’input di immagini.

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

Funzionalità aggiuntive

Abbiamo aggiunto diverse altre funzionalità per rendere l’API Realtime più facile da integrare e più flessibile per l’uso in produzione.

Supporto del protocollo SIP (Session Initiation Protocol): collega le tue app alla rete telefonica pubblica, ai sistemi PBX, ai telefoni fissi e ad altri endpoint SIP con supporto diretto nell’API Realtime. Per saperne di più, consulta la documentazione.⁠(si apre in una nuova finestra)
Prompt riutilizzabili: ora puoi salvare e riutilizzare i prompt, che consistono in messaggi degli sviluppatori, strumenti, variabili e messaggi di esempio degli utenti/assistenti, nelle sessioni API Realtime, come nell’API delle risposte. Per saperne di più, consulta la documentazione⁠(si apre in una nuova finestra)

Sicurezza e privacy

L’API Realtime è dotata di diversi livelli di protezione e misure di mitigazione per prevenire un uso improprio. Per ulteriori informazioni sul nostro approccio alla sicurezza e sui dettagli della scheda di sistema, consulta il blog dedicato all’annuncio della versione beta⁠. Utilizziamo classificatori attivi sulle sessioni API Realtime: ciò significa che alcune conversazioni possono essere interrotte se vengono rilevate come violazioni delle linee guida sui contenuti dannosi. Gli sviluppatori possono inoltre aggiungere facilmente ulteriori misure di sicurezza utilizzando l’Agents SDK⁠(si apre in una nuova finestra).

Le nostre politiche di utilizzo⁠ vietano il riutilizzo o la distribuzione degli output dei nostri servizi con fini di spam, frode o altri scopi dannosi. Gli sviluppatori devono inoltre chiarire agli utenti finali quando stanno interagendo con l’IA, a meno che non sia già evidente dal contesto. L’API Realtime utilizza voci preimpostate per impedire a soggetti malintenzionati di assumere l'identità di altri.

L’API Realtime supporta pienamente la residenza dei dati nell’UE⁠(si apre in una nuova finestra) per le applicazioni con sede nell’UE ed è coperta dai nostri impegni in materia di privacy aziendale⁠.

Tariffe e disponibilità

L’API Realtime generalmente disponibile e il nuovo modello gpt-realtime sono accessibili a tutti gli sviluppatori a partire da oggi. Stiamo riducendo i prezzi per gpt-realtime del 20% rispetto a gpt-4o-realtime-preview: $32 / 1 milione di token di input audio ($0,40 per i token di input memorizzati nella cache) e $64 / 1 milione di token di output audio (vedi le tariffe dettagliate⁠(si apre in una nuova finestra)). Abbiamo aggiunto un controllo preciso del contesto delle conversazioni per consentire agli sviluppatori di impostare limiti intelligenti dei token e troncare più turni alla volta, riducendo significativamente i costi delle sessioni lunghe.

Per iniziare, consulta la documentazione sull’API Realtime⁠(si apre in una nuova finestra), prova il nuovo modello nel Playground⁠(si apre in una nuova finestra) e leggi la guida al prompting dell’API Realtime⁠(si apre in una nuova finestra).