ChatGPT kan nå se, høre og snakke

Vi har begynt lanseringen av nye tale- og bildefunksjoner i ChatGPT. De tilbyr et nytt, mer intuitivt grensesnitt ved å la deg føre en talesamtale eller vise ChatGPT hva du snakker om.
Tale og bilde gir deg flere måter å bruke ChatGPT på i hverdagen. Du kan ta et bilde av et landemerke mens du reiser og ha en samtale i sanntid om hva som er interessant med det. Når du er hjemme, kan du ta bilder av kjøleskapet og spiskammeret for å finne ut hva du skal lage til middag (og stille oppfølgingsspørsmål for å få en trinnvis oppskrift). Etter middag kan du hjelpe barnet ditt med en matteoppgave ved å ta et bilde, tegne en sirkel rundt oppgaven og be den dele hint med dere begge.
Vi lanserer tale og bilder i ChatGPT til Plus- og Enterprise-brukere i løpet av de neste to ukene. Tale kommer på iOS og Android (velg dette i innstillingene dine), og bilder vil være tilgjengelig på alle plattformer.
Du kan nå bruke tale for å starte en dialog med assistenten din. Du kan snakke med den mens du er på farten, be om en godnatthistorie til familien din eller få hjelp til å avgjøre en debatt ved middagsbordet.
Bruk tale for å starte en dialog med assistenten din.
For å komme i gang med tale må du gå til Innstillinger → Nye funksjoner i mobilappen og velge talesamtaler. Trykk deretter på hodetelefonknappen øverst til høyre på startskjermen og velg ønsket stemme blant fem forskjellige stemmer.
Den nye talefunksjonen er basert på en ny tekst-til-tale-modell som kan generere menneskelignende lyd med kun tekst og noen få sekunder med stemmeopptak. Vi samarbeidet med profesjonelle stemmeskuespillere for å lage hver enkelt stemme. Vi bruker også Whisper, talegjenkjenningssystemet vårt med åpen kildekode, til å transkribere ordene som sies, til tekst.
Du kan nå vise ChatGPT ett eller flere bilder. Feilsøk hvorfor grillen ikke starter, utforsk innholdet i kjøleskapet for å planlegge et måltid, eller analyser et komplekst diagram for arbeidsrelaterte data. For å fokusere på en bestemt del av bildet kan du bruke tegneverktøyet i mobilappen vår.
Vis ChatGPT ett eller flere bilder.
For å komme i gang trykker du på bildeknappen for å ta eller velge et bilde. Hvis du er på en iOS- eller Android-enhet, trykker du på plussknappen først. Du kan også diskutere flere bilder eller bruke tegneverktøyet vårt for å veilede assistenten din.
Bildeforståelse er basert på de multimodale GPT‑3.5 og GPT‑4. Disse modellene bruker de språklige resonneringsferdighetene sine på et bredt spekter av bilder, for eksempel fotografier, skjermbilder og dokumenter som inneholder både tekst og bilder.
Målet til OpenAI er å bygge en AGI er som trygg og nyttig. Vi tror på å gjøre verktøyene våre tilgjengelige gradvis, slik at vi kan forbedre og finjustere risikobegrensninger over tid, samtidig som vi forbereder alle på kraftigere systemer i fremtiden. Denne strategien blir enda viktigere med avanserte modeller som involverer tale og syn.
Den nye taleteknologien, som kan lage realistiske syntetiske stemmer med bare noen få sekunder med ekte tale, åpner dørene for mange kreative og tilgjengelighetsfokuserte bruksområder. Disse funksjonene medfører imidlertid også nye risikoer, for eksempel at ondsinnede aktører kan utgi seg for å være offentlige personer eller begå svindel.
Dette er grunnen til at vi bruker denne teknologien til et spesifikt bruksområde – talechat. Talechat ble utviklet i samarbeid med stemmeskuespillere som vi jobbet direkte med. Vi samarbeider også med andre på samme måte. Spotify bruker for eksempel kraften i denne teknologien til å teste taleoversettelsesfunksjonen(åpnes i et nytt vindu) sin, som hjelper podkastere med å nå et større publikum ved å oversette podkastene deres til flere språk med podkasternes egne stemmer.
Synsbaserte modeller byr også på nye utfordringer, alt fra hallusinasjoner om mennesker til å stole på modellens tolkning av bilder innenfor svært viktige områder. Før bredere implementering testet vi modellen med red team-medlemmer for risiko innenfor områder som ekstremisme og vitenskapelig kompetanse, samt en mangfoldig gruppe alfatestere. Researchen vår gjorde det mulig for oss å samordne noen viktige detaljer for ansvarlig bruk.
I likhet med andre ChatGPT‑funksjoner handler syn om å hjelpe deg i hverdagen. Den gjør det best når den kan se det du ser.
Denne tilnærmingen er direkte basert på arbeidet vårt med Be My Eyes, en gratis mobilapp for blinde og svaksynte, for å forstå bruksområder og begrensninger. Brukere har fortalt oss at de synes det er nyttig å kunne ha generelle samtaler om bilder som tilfeldigvis inneholder personer i bakgrunnen, for eksempel hvis noen dukker opp på TV-en mens du prøver å finne ut hvordan fjernkontrollen fungerer.
Vi har også iverksatt tekniske tiltak for å begrense ChatGPTs evne til å analysere og komme med direkte utsagn om personer, siden ChatGPT ikke alltid er nøyaktig og disse systemene bør respektere personvernet til enkeltpersoner.
Erfaringer fra virkeligheten og tilbakemeldinger vil hjelpe oss med å forbedre disse sikkerhetstiltakene ytterligere, samtidig som verktøyet forblir nyttig.
Brukere kan være avhengige av ChatGPT for spesialiserte emner, for eksempel innen felt som forskning. Vi er åpne om modellens begrensninger og fraråder bruk innenfor bruksområder med høy risiko uten grundig verifisering. Videre er modellen flink til å transkribere engelsk tekst, men fungerer dårlig med noen andre språk, spesielt de som ikke bruker det latinske alfabetet. Vi fraråder de av brukerne våre som ikke snakker engelsk, å bruke ChatGPT til dette formålet.
Du kan lese mer om tilnærmingen vår til sikkerhet, samt arbeidet vårt med Be My Eyes, i systemkortet for bildeinndata.
Plus- og Enterprise-brukere vil få tilgang til tale og bilder i løpet av de neste to ukene. Vi gleder oss til å lansere disse funksjonene for andre brukergrupper, inkludert utviklere, kort tid etter.
Forfatter
Anerkjennelse
Kjerneresearch for talemodus
Alec Radford, Tao Xu, Jong Wook Kim
Kjerneresearch for synsimplementering
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


