Gå til hovedindhold
OpenAI

25. september 2023

Produkt

ChatGPT kan nu se, høre og tale

ChatGPT kan nu se, høre og tale

Vi begynder nu at implementere nye stemme- og billedfunktioner i ChatGPT. De tilbyder en ny, mere intuitiv brugerflade ved at give dig mulighed for at føre en stemmesamtale eller vise ChatGPT, hvad du taler om.

Stemme og billede giver dig flere måder at bruge ChatGPT på i din hverdag. Tag et billede af en seværdighed, når du er ude at rejse, og hav en live-samtale om, hvad der er interessant ved den. Når du er hjemme, kan du tage billeder af dit køleskab og tørvarer for at finde ud af, hvad du kan lave til aftensmad (og stille opfølgende spørgsmål for at få en trinvis opskrift). Efter aftensmaden kan du hjælpe dit barn med matematiklektierne ved at tage et billede, sætte en cirkel om opgaven, og få den til at dele hints med jer.

Vi implementerer stemme og billede i ChatGPT til Plus- og Enterprise-brugere i løbet af de næste to uger. Stemme bliver tilgængelig på iOS og Android (slå til i dine indstillinger), og billede bliver tilgængelig på alle platforme.

Tal med ChatGPT – og få svar tilbage

Du kan nu bruge stemmen til at føre en samtale frem og tilbage med din assistent. Tal med den, når du er på farten, bed om en godnathistorie til familien, eller få afgjort en diskussion ved middagsbordet.

Bruge stemmen til at føre en samtale frem og tilbage med din assistent.

For at komme i gang med stemme skal du gå til Indstillinger → Nye funktioner i mobilappen og tilvælge stemmesamtaler. Tryk derefter på hovedtelefon-knappen i øverste højre hjørne af startskærmen, og vælg din foretrukne stemme ud af fem forskellige stemmer.

Den nye stemmefunktion er drevet af en ny tekst-til-tale-model, der kan generere menneskelignende lyd ud fra blot tekst og få sekunders prøvetale. Vi har samarbejdet med professionelle stemmeskuespillere om at skabe alle stemmerne. Vi bruger også Whisper, vores open-source talegenkendelsessystem, til at transskribere dine talte ord til tekst.

Indlæser ...

Chat om billeder

Du kan nu vise ChatGPT et eller flere billeder. Find ud af, hvorfor din grill ikke vil starte, udforsk indholdet af dit køleskab for at planlægge et måltid, eller analyser arbejdsrelaterede data i en kompleks graf. Hvis du vil fokusere på en bestemt del af billedet, kan du bruge tegneværktøjet i vores mobilapp.

Vis ChatGPT et eller flere billeder.

For at komme i gang skal du trykke på fotoknappen for at tage eller vælge et billede. Hvis du bruger iOS eller Android, skal du først trykke på plus-knappen. Du kan også diskutere flere billeder eller bruge vores tegneværktøj til at guide din assistent.

Billedforståelse er drevet af multimodal GPT‑3.5 og GPT‑4. Modellerne anvender deres sproglige ræsonneringsevner på en lang række billeder, f.eks. fotografier, skærmbilleder og dokumenter, der indeholder både tekst og billeder.

Vi implementerer billed- og stemmefunktioner gradvist

OpenAI's mål er at bygge AGI, der er sikker og gavnlig. Vi tror på, at vores værktøjer skal gøres tilgængelige gradvist – det giver os mulighed for løbende at forbedre dem og finjustere risikohåndtering, samtidig med at vi forbereder alle på mere avancerede systemer i fremtiden. Denne strategi er særligt vigtig, når det gælder avancerede modeller med stemme og synsevne.

Stemme

Den nye stemmeteknologi – der kan skabe realistiske syntetiske stemmer ud fra blot nogle få sekunders mennesketale – åbner døre til mange kreative og tilgængelighedsfokuserede applikationer. Men de nye muligheder indebærer også nye risici, som f.eks. at skadelige aktører kan udgive sig for at være offentlige personer eller begå bedrageri.

Derfor bruger vi den nye teknologi til at understøtte en specifik use case – stemmechat. Stemmechatten er skabt i samarbejde med stemmeskuespillere, som vi har arbejdet direkte med. Vi samarbejder også på lignende vis med flere andre. For eksempel bruger Spotify teknologien i deres projekt Voice Translation(åbner i et nyt vindue), som hjælper podcastere med at udvide deres rækkevidde ved at oversætte podcasts til andre sprog – i podcasternes egne stemmer.

Billedinput

Synsbaserede modeller giver også nye udfordringer, lige fra hallucinationer om mennesker til at stole på modellens fortolkning af billeder på områder, hvor der er meget på spil. Før vi tog modellen i brug i større omfang, testede vi den med red teaming-eksperter for risici inden for områder som ekstremisme og videnskabelig kompetence samt et bredt sæt alfatestere. Vores research gjorde det muligt for os at tilpasse nogle få vigtige detaljer for ansvarlig brug.

At gøre syn både nyttigt og sikkert

Ligesom andre funktioner i ChatGPT handler syn om at hjælpe dig i din hverdag. Den fungerer bedst, når den kan se det, du ser. 

Denne tilgang er direkte informeret af vores samarbejde med Be My Eyes, en gratis mobilapp for blinde og svagsynede, som har hjulpet os med at forstå både anvendelsesmuligheder og begrænsninger. Brugere har fortalt os, at de finder det værdifuldt at kunne føre generelle samtaler om billeder, hvor der tilfældigvis er mennesker i baggrunden – for eksempel hvis nogen vises på TV, mens man prøver at finde ud af sine fjernbetjeningsindstillinger.

Vi har også taget tekniske forholdsregler for at begrænse ChatGPT's evne til at analysere og komme med direkte udsagn om mennesker, da ChatGPT ikke altid er nøjagtig, og da disse systemer bør respektere enkeltpersoners privatliv.

Brug i praksis og løbende feedback vil hjælpe os med at gøre disse sikkerhedsforanstaltninger endnu bedre, samtidig med at værktøjet bliver ved med at være nyttigt.

Gennemsigtighed om modellens begrænsninger

Brugere kan anvende ChatGPT til specialiserede emner inden for områder som f.eks. forskning. Vi er åbne om modellens begrænsninger og fraråder use cases med højere risiko uden ordentlig verificering af information. Desuden er modellen dygtig til at transskribere engelsk tekst, men klarer sig dårligt inden for nogle andre sprog, især dem med ikke-romansk skrift. Vi fraråder derfor vores ikke-engelske brugere at bruge ChatGPT til dette formål.

Du kan læse mere om vores tilgang til sikkerhed og vores arbejde med Be My Eyes i systemkortet for billedinput.

Vi udvider adgangen

Plus- og Enterprise-brugere vil få mulighed for at opleve stemme og billede i løbet af de næste to uger. Vi glæder os til at implementere funktionerne til andre grupper af brugere, herunder udviklere, kort derefter.

Skrevet af

OpenAI

Tak til

Grundlæggende forskning i stemmetilstand

Alec Radford, Tao Xu, Jong Wook Kim

Grundlæggende forskning i synsimplementering

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Se det tekniske arbejde og skaberne bag GPT-4V(ision)