25 settembre 2023

ChatGPT è ora in grado di vedere, sentire e parlare

Stiamo iniziando a rilasciare nuove funzionalità vocali e visive in ChatGPT che offrono un tipo di interfaccia nuovo e più intuitivo e ti permettono di conversare a voce o di mostrare a ChatGPT ciò di cui stai parlando.

Le funzionalità vocali e visive ti offrono nuovi modi per utilizzare ChatGPT nella vita di tutti i giorni. Scatta una foto a un monumento durante un viaggio e avvia una conversazione in tempo reale per scoprirne curiosità e particolarità. A casa, scatta una foto del frigorifero e della dispensa per decidere cosa cucinare (e chiedi poi una ricetta dettagliata). Dopo cena, aiuta i tuoi figli con un problema di matematica: scatta una foto, cerchia l'esercizio e fatti dare qualche suggerimento da ChatGPT.

Distribuiremo queste funzionalità in ChatGPT agli utenti Plus ed Enterprise nelle prossime due settimane. La funzionalità vocale sarà disponibile su iOS e Android (previa attivazione dalle impostazioni), mentre quella visiva sarà accessibile su tutte le piattaforme.

Chatta a voce con ChatGPT: tu parli, lui risponde

Adesso puoi utilizzare la voce per avere una conversazione con il tuo assistente. Parla con ChatGPT ovunque ti trovi, chiedi la favola della buonanotte per tutta la famiglia o poni fine a una discussione all'ora di cena.

Utilizza la voce per avere una conversazione con il tuo assistente.

Per iniziare a utilizzare la funzione vocale, vai su Impostazioni → Nuove funzioni nell'app mobile e attiva le conversazioni vocali. In seguito, tocca il pulsante a forma di cuffie in alto a destra nella schermata principale e scegli la voce che preferisci tra cinque diverse opzioni.

La nuova funzione vocale si basa su un nuovo modello di sintesi vocale in grado di generare audio simile a quello umano a partire da un testo e da pochi secondi di parlato. Abbiamo collaborato con doppiatori professionisti per creare ciascuna delle voci. Utilizziamo inoltre Whisper, il nostro sistema di riconoscimento vocale open source, per trascrivere in testo le parole che pronunci.

Caricamento in corso…

Mostra un'immagine e avvia una conversazione

Ora puoi mostrare a ChatGPT una o più immagini. Ti aiuterà a capire perché il barbecue non si accende, decidere cosa cucinare con quello che hai in frigorifero oppure analizzare un grafico complesso per il lavoro. Per concentrarti su una parte specifica dell'immagine, puoi usare lo strumento di disegno disponibile nell'app mobile.

Mostra una o più immagini a ChatGPT.

Per iniziare, tocca il pulsante a forma di fotocamera per scattare o selezionare un'immagine. Se utilizzi iOS o Android, tocca prima il pulsante con il simbolo “+”. Puoi anche analizzare più immagini oppure usare il nostro strumento di disegno per guidare l'assistente.

La comprensione delle immagini è supportata da modelli GPT‑3.5 e GPT‑4 multimodali. Questi modelli applicano le loro capacità di ragionamento linguistico a una vasta gamma di immagini, come fotografie, screenshot e documenti con testo e immagini.

Stiamo rilasciando le funzionalità di immagini e voce in modo graduale

L'obiettivo di OpenAI è sviluppare un'intelligenza artificiale generale (AGI) sicura e utile per tutti. Riteniamo che l'introduzione graduale dei nostri strumenti sia fondamentale per apportare miglioramenti e affinare le contromisure ai rischi, preparando al contempo le persone all'arrivo di sistemi più avanzati. Questa strategia si fa ancora più importante nel caso di modelli avanzati con funzionalità vocali e visive.

Voce

La nuova tecnologia vocale, capace di generare voci sintetiche realistiche a partire da pochi secondi di parlato reale, apre la strada a molte applicazioni creative e orientate all'accessibilità. Tuttavia, queste funzionalità comportano anche nuovi rischi, come la possibilità che attori malintenzionati si spaccino per personaggi pubblici o compiano frodi.

Per questo motivo stiamo utilizzando questa tecnologia per un caso d'uso specifico: la chat vocale. La chat vocale è stata creata in collaborazione diretta con doppiatori. Stiamo lavorando in modo simile anche con altri partner. Ad esempio, Spotify impiega questa tecnologia nel progetto pilota della sua funzione di traduzione vocale⁠(si apre in una nuova finestra), che consente ai podcaster di tradurre i propri contenuti in altre lingue mantenendo la propria voce originale, ampliando così la portata dei loro racconti.

Input immagine

Anche i modelli basati sulla visione pongono nuove sfide, che spaziano dalle allucinazioni sulle persone all'affidarsi all'interpretazione dell'immagine da parte del modello in contesti critici. Prima di un rilascio più ampio, abbiamo testato il modello insieme a red teamer per identificare rischi in ambiti come l'estremismo e la competenza scientifica, oltre che con un gruppo diversificato di tester della versione alfa. Il nostro lavoro di ricerca ci ha permesso di definire alcuni punti chiave per un uso responsabile.

Rendere la funzionalità visiva utile e sicura

Come per le altre funzioni di ChatGPT, la visione serve ad assistere gli utenti nella vita quotidiana e funziona al meglio quando può vedere ciò che vede l'utente.

Questo approccio è stato sviluppato in collaborazione diretta con Be My Eyes, un'app mobile gratuita per persone non vedenti o ipovedenti, per comprenderne usi e limiti. Gli utenti hanno affermato di apprezzare la possibilità di parlare di immagini che contengono persone sullo sfondo, come quando qualcuno appare in televisione mentre cerchi di capire come funzionano le impostazioni del telecomando.

Abbiamo inoltre adottato misure tecniche per limitare notevolmente la capacità di ChatGPT di analizzare e fare dichiarazioni dirette sulle persone in quanto ChatGPT non è sempre preciso e questi sistemi dovrebbero comunque rispettare la privacy degli individui.

L'uso reale e il feedback degli utenti ci aiuteranno a migliorare ulteriormente queste misure di sicurezza, mantenendo al contempo l'utilità di questo strumento.

Trasparenza sui limiti del modello

Gli utenti potrebbero dipendere da ChatGPT per argomenti specialistici, ad esempio in ambiti come la ricerca. Garantiamo trasparenza riguardo ai limiti del modello e sconsigliamo di utilizzarlo in casi d'uso ad alto rischio senza adeguate verifiche. Inoltre, il modello è abile nel trascrivere testi in inglese, ma presenta prestazioni inferiori con alcune altre lingue, in particolare quelle con alfabeti non latini. Consigliamo agli utenti non anglofoni di non utilizzare ChatGPT per questo scopo.

Puoi approfondire il nostro approccio alla sicurezza e la collaborazione con Be My Eyes nella scheda di sistema per gli input immagine⁠⁠.

Espansione dell'accesso

Gli utenti Plus ed Enterprise potranno utilizzare la funzionalità vocale e quella visiva nelle prossime due settimane. Non vediamo l'ora di estendere presto queste funzioni anche ad altri gruppi di utenti, inclusi gli sviluppatori.

Autore

OpenAI

Ringraziamenti

Ricerca principale per la modalità vocale

Alec Radford, Tao Xu, Jong Wook Kim

Ricerca principale per l'implementazione della funzionalità visiva

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Visualizza il lavoro tecnico e gli autori di GPT-4V(ision)⁠