25 september 2023

ChatGPT kan nu zien, horen en spreken

We beginnen met het uitrollen van nieuwe spraak- en beeldmogelijkheden in ChatGPT. Ze bieden een nieuw, intuïtiever type interface door je in staat te stellen een spraakgesprek te voeren of ChatGPT te laten zien waar je het over hebt.

Spraak en beeld geven je meer manieren om ChatGPT in je leven te gebruiken. Maak onderweg een foto van een bezienswaardigheid en voer een live gesprek over wat er interessant aan is. Als je thuis bent, maak dan foto's van je koelkast en voorraadkast om uit te zoeken wat er te eten is (en stel vervolgvragen voor een stap-voor-stap recept). Help je kind na het eten met een wiskundeprobleem door een foto te maken, het probleem te omcirkelen en het hints te laten delen met jullie beiden.

De komende twee weken rollen we spraak en afbeeldingen in ChatGPT uit naar Plus- en Enterprise-gebruikers. Voice komt op iOS en Android (in te schakelen via je instellingen) en afbeeldingen zullen beschikbaar zijn op alle platforms.

Praat met ChatGPT en laat het terugpraten

Je kunt nu spraak gebruiken om een heen-en-weer gesprek te voeren met je assistent. Spreek ermee onderweg, vraag om een verhaaltje voor het slapengaan voor je gezin of los een discussie aan de eettafel op.

Gebruik voice om een heen-en-weer gesprek te voeren met je assistent

Om aan de slag te gaan met voice, ga je naar Instellingen → Nieuwe functies op de mobiele app en kies je voor spraakconversaties. Tik vervolgens op de hoofdtelefoonknop in de rechterbovenhoek van het beginscherm en kies de stem van je voorkeur uit vijf verschillende stemmen.

De nieuwe spraakfunctionaliteit wordt aangestuurd door een nieuw tekst-naar-spraak model, dat in staat is om op mensen lijkende audio te genereren uit alleen tekst en een paar seconden spraak als voorbeeld. We hebben samengewerkt met professionele stemacteurs om alle stemmen te creëren. We gebruiken ook Whisper, ons open-source spraakherkenningssysteem, om je gesproken woorden om te zetten in tekst.

Bezig met laden...

Chatten over afbeeldingen

Je kunt ChatGPT nu een of meer afbeeldingen laten zien. Zoek uit waarom je grill niet start, bekijk de inhoud van je koelkast om een maaltijd te plannen of analyseer een complexe grafiek voor werkgerelateerde gegevens. Om je te concentreren op een specifiek deel van de afbeelding, kun je het tekengereedschap in onze mobiele app gebruiken.

Laat ChatGPT een of meer afbeeldingen zien.

Tik om te beginnen op de fotoknop om een afbeelding vast te leggen of te kiezen. Als je op iOS of Android zit, tik je eerst op de plusknop. Je kunt ook meerdere afbeeldingen bespreken of onze tekentool gebruiken om je assistent te begeleiden.

Beeldbegrip wordt aangedreven door multimodale GPT‑3.5 en GPT‑4. Deze modellen passen hun taalredeneervaardigheden toe op een breed scala aan afbeeldingen, zoals foto's, schermafbeeldingen en documenten die zowel tekst als afbeeldingen bevatten.

We implementeren geleidelijk beeld- en spraakmogelijkheden

Het doel van OpenAI is om AGI te bouwen die veilig en nuttig is. We geloven in het geleidelijk beschikbaar maken van onze tools, waardoor we in de loop van de tijd verbeteringen kunnen aanbrengen en risicobeperkingen kunnen verfijnen en tegelijkertijd iedereen kunnen voorbereiden op krachtigere systemen in de toekomst. Deze strategie wordt nog belangrijker bij geavanceerde modellen met spraak en beeld.

Voice

De nieuwe spraaktechnologie, die in staat is om realistische synthetische stemmen te maken op basis van slechts een paar seconden echte spraak, opent deuren naar vele creatieve en op toegankelijkheid gerichte toepassingen. Deze mogelijkheden brengen echter ook nieuwe risico's met zich mee, zoals de mogelijkheid voor kwaadwillenden om zich voor te doen als publieke figuren of fraude te plegen.

Daarom gebruiken we deze technologie voor een specifiek gebruik: voice chat. Voice chat is gemaakt met stemacteurs met wie we direct hebben samengewerkt. We werken op een vergelijkbare manier ook samen met anderen. Spotify gebruikt de kracht van deze technologie bijvoorbeeld voor de pilot van hun Voice Translation⁠(opent in een nieuw venster)-functie, die podcasters helpt het bereik van hun verhalen uit te breiden door podcasts te vertalen naar andere talen met de stem van de podcasters zelf.

Beeldinvoer

Op vision gebaseerde modellen brengen ook nieuwe uitdagingen met zich mee, variërend van hallucinaties over mensen tot het vertrouwen op de interpretatie van beelden door het model in domeinen waar veel op het spel staat. Voorafgaand aan een bredere toepassing hebben we het model getest met red teamers voor risico's in domeinen zoals extremisme en wetenschappelijke bekwaamheid, en een diverse set alfatesters. Dankzij ons onderzoek konden we een paar belangrijke details voor verantwoord gebruik op elkaar afstemmen.

Vision zowel nuttig als veilig maken

Net als andere ChatGPT‑functies is vision bedoeld om je te helpen met je dagelijkse leven. Het doet dat het beste als het kan zien wat jij ziet.

Deze benadering is direct gebaseerd op ons werk met Be My Eyes, een gratis mobiele app voor blinden en slechtzienden, om het gebruik en de beperkingen te begrijpen. Gebruikers hebben ons verteld dat ze het waardevol vinden om algemene gesprekken te voeren over afbeeldingen die toevallig mensen op de achtergrond bevatten, bijvoorbeeld als er iemand op tv verschijnt terwijl je de instellingen van je afstandsbediening probeert uit te zoeken.

We hebben ook technische maatregelen genomen om het vermogen van ChatGPT te analyseren en directe uitspraken over mensen te doen aanzienlijk te beperken, aangezien ChatGPT niet altijd accuraat is en deze systemen de privacy van individuen moeten respecteren.

Ervaringen in de praktijk en feedback helpen ons om deze beveiligingen nog beter te maken, hoewel de tool praktisch blijft.

Transparantie over modelbeperkingen

Gebruikers kunnen afhankelijk zijn van ChatGPT voor gespecialiseerde onderwerpen, bijvoorbeeld op het gebied van onderzoek. We zijn transparant over de beperkingen van het model en ontmoedigen gebruikscases met een hoger risico zonder de juiste verificatie. Bovendien is het model weliswaar bedreven in het transcriberen van Engelse tekst, maar presteert het slecht met sommige andere talen, vooral die met een niet-romaans schrift. We raden onze niet-Engelse gebruikers af om ChatGPT voor dit doel te gebruiken.

Je kunt meer lezen over onze benadering van veiligheid en ons werk met Be My Eyes in de systeemkaart voor beeldinvoer⁠.

We zullen de toegang uitbreiden

Plus- en Enterprise-gebruikers kunnen binnen twee weken gebruikmaken van spraak- en beeldfuncties We zijn verheugd om deze mogelijkheden snel daarna uit te rollen naar andere groepen gebruikers, waaronder ontwikkelaars.