Nu kan ChatGPT se, höra och prata

Vi har börjat lansera nya röst- och bildfunktioner i ChatGPT. Det innebär ett nytt och mer intuitivt sätt att interagera där du kan prata med ChatGPT eller visa vad du menar.
Röst och bild innebär fler sätt att använda ChatGPT på i vardagen. Ta en bild av ett landmärke när du reser och för ett samtal om vad som är intressant med det. När du kommer hem kan du ta en bild av kylen och skafferiet för att komma fram till vad du ska äta till middag (och ställa följdfrågor för att få ett recept). Efter middagen kan du hjälpa ditt barn med ett mattetal genom att ta en bild, ringa in problemet och låta den dela med sig av ledtrådar till er båda.
Vi lanserar röst och bild i ChatGPT till Plus- och Enterprise-användare under de kommande två veckorna. Röst kommer till iOS och Android (kan väljas i inställningarna) och bilder blir tillgängliga på alla plattformar.
Nu kan du använda rösten för att inleda ett ömsesidigt samtal med din assistent. Prata med den när du är på språng, be om en godnattsaga åt familjen eller lös en diskussion vid matbordet.
Använd rösten för att inleda ett ömsesidigt samtal med din assistent.
För att komma igång med röstfunktionen går du till Inställningar → Nya funktioner i mobilappen och väljer röstsamtal. Sedan trycker du på hörlursknappen uppe i det högra hörnet på startskärmen och väljer en av de fem röster som finns tillgängliga.
Den nya röstfunktionen använder en ny modell som förvandlar text-till-tal och som kan generera människolika ljud enbart från text och ett några sekunder långt röstexempel. Vi har samarbetat med professionella röstskådespelare för att skapa var och en av rösterna. Vi använder även Whisper, vårt taligenkänningssystem med öppen källkod, för att transkribera dina talade ord till text.
Nu kan du visa ChatGPT en eller fler bilder. Felsök varför grillen strejkar, utforska innehållet i kylen för att planera nästa måltid eller analysera ett komplext diagram på jobbet. För att fokusera på en viss del av bilden kan du använda ritverktyget i mobilappen.
Visa ChatGPT en eller fler bilder.
För att komma igång trycker du på fotoknappen för att ta eller välja en bild. Om du är på iOS eller Android trycker du på plusknappen först. Du kan även prata om flera bilder eller använda vårt ritverktyg för att vägleda din assistent.
Bildförståelse använder multimodala GPT‑3.5 och GPT‑4. De här modellerna använder sin förmåga att resonera kring språk för att förstå ett brett spektrum av bilder, som fotografier, skärmdumpar och dokument som innehåller både text och bilder.
OpenAI:s mål är att bygga AGI som är säker och som gynnar mänskligheten. Vi har valt att lansera våra verktyg stegvis, eftersom vi då kan göra förbättringar och finjustera riskreduceringen över tid och samtidigt förbereda alla för kraftfullare system i framtiden. Den här strategin blir ännu viktigare med de avancerade modellerna som använder röst och syn.
Den nya röstteknologin – som kan skapa realistiska syntetiska röster utifrån endast några sekunder långa sekvenser av riktigt tal – öppnar dörrar till många kreativa och tillgänglighetsfokuserade användningsområden. Men dessa funktioner medför även nya risker, som att oärliga människor utger sig för att vara offentliga personer eller begår bedrägerier.
Därför använder vi denna teknik för ett särskilt användningsområde: röstchatt. Röstchatten skapades med hjälp av röstskådespelare som vi har haft ett direkt samarbete med. Vi samarbetar även på ett liknande sätt med andra. Spotify använder sig till exempel av den här tekniken i pilotprojektet för sin Röstöversättnings(öppnas i ett nytt fönster)-funktion, som hjälper poddare att nå ut med sina berättelser genom att översätta poddar till fler språk med poddarens egen röst.
Modeller som baseras på synintryck medför också nya utmaningar; från hallucinationer om människor till att användarna förlitar sig på modellens tolkning av bilder i situationer där misstag kan få allvarliga konsekvenser. Innan modellen lanserades brett testade vi den med red teamers för risker inom områden som extremism och vetenskaplig kompetens, samt med ett antal olika alfatestare. Vår forskning gjorde det möjligt för oss att enas om några viktiga punkter för ansvarsfull användning.
Precis som andra ChatGPT‑funktioner är syftet med visionen att den ska hjälpa dig i ditt dagliga liv. Det lyckas den bäst med om den kan se det du ser.
Detta tillvägagångssätt har direkt påverkats av vårt samarbete med Be My Eyes, en kostnadsfri mobilapp för blinda och personer med nedsatt syn, för att förstå användningsområden och begränsningar. Användarna har berättat för oss att de tycker att det är värdefullt att föra allmänna samtal om bilder där det råkar finnas människor i bakgrunden, till exempel om någon dyker upp på teven medan du försöker lära dig hur inställningarna fungerar på fjärrkontrollen.
Vi har även vidtagit tekniska åtgärder för att avsevärt begränsa ChatGPT:s förmåga att analysera och komma med direkta uttalanden om personer, eftersom ChatGPT inte alltid har rätt och för att dessa system bör respektera enskilda personers integritet.
Användning i verkligheten och feedback hjälper oss att göra dessa skyddsåtgärder ännu bättre, samtidigt som verktyget fortsätter att vara användbart.
Användarna kanske förlitar sig på ChatGPT för specialiserade ämnen, till exempel inom områden som forskning. Vi är transparenta om modellens begränsningar och avråder användarna från att använda den i högrisksituationer utan att först bekräfta uppgifterna. Dessutom är modellen bra på att transkribera engelska texter, men presterar dåligt när det gäller vissa andra språk, särskilt de som använder andra alfabet än det latinska. Vi avråder våra icke-engelska användare från att använda ChatGPT för detta ändamål.
Du kan läsa mer om vårt förhållningssätt till säkerhet och vårt samarbete med Be My Eyes vad gäller systemkortet för bildindata.
Plus- och Enterprise-användarna får uppleva röst och bilder under de kommande två veckorna. Vi är glada över att kort därefter kunna lansera dessa funktioner till andra användargrupper, däribland utvecklare.
Författare
Erkännanden
Kärnforskning om röstfunktionen
Alec Radford, Tao Xu, Jong Wook Kim
Kärnforskning om synmodeller
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal
Se det tekniska arbetet och författarna bakom GPT-4V(ision)


