ChatGPT getur nú séð, heyrt og talað

Við erum að byrja að kynna nýja radd- og myndmöguleika í ChatGPT. Það býður upp á nýtt viðmót með meira innsæi með því að leyfa þér að eiga raddsamtöl eða sýna ChatGPT hvað þú ert að tala um.
Rödd og mynd gefa þér fleiri leiðir til að nota ChatGPT í daglegu lífi þínu. Taktu mynd af kennileiti á ferðalagi og hafðu samtal um hvað er áhugavert við það. Þegar þú ert heima, taktu myndir af ísskápnum og búrinu til að komast að því hvað á að vera í matinn (og spurðu eftirfylgnisspurninga fyrir ítarlega uppskrift). Eftir kvöldmat, hjálpaðu barninu þínu með stærðfræðiverkefni með því að taka mynd, merkja við verkefnasettið og fá það til að deila vísbendingum með ykkur báðum.
Við erum að kynna rödd og myndir í ChatGPT fyrir Plus- og Enterprise-notendur á næstu tveimur vikum. Rödd verður aðgengileg á iOS og Android (valkostur í stillingunum þínum) og myndir verða aðgengilegar á öllum verkvöngum.
Þú getur nú notað röddina til að eiga fram og til baka samtal við ráðgjafann þinn. Talaðu við hann á ferðinni, biddu um sögu fyrir svefninn fyrir fjölskylduna þína eða leystu deilu við matarborðið.
Notaðu röddina til að eiga fram og til baka samtal við ráðgjafann þinn.
Til að byrja að nota rödd, farðu í Stillingar → Nýir eiginleikar í farsímaappinu og skráðu þig í samtöl. Ýttu síðan á heyrnartólatáknið efst til hægri á heimaskjánum og veldu uppáhaldsröddina þína úr fimm mismunandi röddum.
Nýja raddgetan er knúin áfram af nýju texta-í-tal líkani sem getur búið til mannlegt hljóð úr aðeins texta og nokkrum sekúndum af sýnishornstali. Við unnum með faglegum raddleikurum til að búa til hverja rödd. Við notum einnig Whisper, opið talgreiningarkerfi okkar, til að umrita töluð orð þín í texta.
Þú getur nú sýnt ChatGPT eina eða fleiri myndir. Leitaðu að ástæðum fyrir því að grillið þitt fer ekki í gang, kannaðu innihald ísskápsins þíns til að gera áætlun um máltíðir eða greindu flókið línurit fyrir vinnugögn. Til að einbeita þér að ákveðnum hluta myndarinnar geturðu notað teikniverkfærið í appinu okkar.
Sýndu ChatGPT eina eða fleiri myndir.
Til að byrja, pikkaðu á myndahnappinn til að taka eða velja mynd. Ef þú ert á iOS eða Android, pikkaðu fyrst á plús-hnappinn. Þú getur líka rætt um margar myndir eða notað teikniverkfæri okkar til að leiðbeina ráðgjafa þínum.
Myndskilningur er knúinn af fjölþátta GPT‑3.5 og GPT‑4. Þessi líkön beita hæfileikum sínum í málröksemdafærslu á fjölbreytt úrval mynda, svo sem ljósmyndir, skjámyndir og skjöl sem innihalda bæði texta og myndir.
Markmið OpenAI er að þróa AGI sem er öruggt og gagnlegt. Við trúum á að gera verkfæri okkar aðgengileg smám saman, sem gerir okkur kleift að bæta þau og minnka áhættu með tímanum á meðan við undirbúum alla fyrir öflugri kerfi í framtíðinni. Þessi stefna verður enn mikilvægari með háþróuðum líkönum sem innihalda rödd og sjón.
Nýja raddtæknin—sem getur búið til raunhæfar gerviraddir úr aðeins nokkrum sekúndum af raunverulegu tali—opnar dyr að mörgum skapandi og aðgengismiðuðum notkunum. Hins vegar fylgja þessum eiginleikum einnig nýjar áhættur, svo sem möguleikinn á að slæmir aðilar geti persónugert opinbera einstaklinga eða framið svik.
Þetta er ástæðan fyrir því að við notum þessa tækni til að knýja sérstakt notkunartilvik—raddspjall. Raddspjall var búið til með raddleikurum sem við höfum unnið beint með. Við erum líka að vinna saman á svipaðan hátt með öðrum. Til dæmis er Spotify að nýta kraft þessarar tækni fyrir tilraunaverkefni sitt Voice Translation(opnast í nýjum glugga), sem hjálpar hlaðvarpsstjórnendum að auka útbreiðslu frásagna sinna með því að þýða hlaðvörp yfir á fleiri tungumál á eigin rödd hlaðvarpsstjórnenda.
Sjónrænt byggð líkön skapa einnig nýjar áskoranir, allt frá ofskynjunum um fólk til að treysta á túlkun líkansins á myndum á mikilvægum sviðum. Áður en við fórum í víðtækari innleiðingu, prófuðum við líkanið með rauðum teymisaðilum til að meta áhættu á sviðum eins og öfgahyggju og vísindalegri hæfni, og fjölbreyttum hópi alfaprófara. Rannsóknir okkar gerðu okkur kleift að samræma nokkur lykilatriði fyrir ábyrga notkun.
Eins og aðrir eiginleikar ChatGPT, snýst sjón um að aðstoða þig í daglegu lífi. Það gerir það best þegar það getur séð það sem þú sérð.
Þessi nálgun hefur verið mótuð beint af vinnu okkar með Be My Eyes, ókeypis appi fyrir blinda og sjónskerta, til að skilja notkun og takmarkanir. Notendur hafa sagt okkur að þeir telji það vera dýrmætt að eiga almenn samtöl um myndir sem innihalda fólk í bakgrunni, eins og þegar einhver birtist í sjónvarpinu á meðan þú ert að reyna að stilla fjarstýringuna.
Við höfum einnig gripið til tæknilegra ráðstafana til að takmarka verulega getu ChatGPT til að greina og gefa beinar yfirlýsingar um fólk, þar sem ChatGPT er ekki alltaf nákvæmt og þessi kerfi ættu að virða friðhelgi einstaklinga.
Raunveruleg notkun og ábendingar munu hjálpa okkur að gera þessar öryggisráðstafanir enn betri á meðan verkfærinu er haldið gagnlegu.
Notendur gætu treyst á ChatGPT fyrir sérhæfð málefni, til dæmis á sviðum eins og rannsóknum. Við erum gegnsæ um takmarkanir líkansins og hvetjum ekki til notkunar í áhættusamari tilfellum án viðeigandi staðfestingar. Ennfremur er líkanið mjög gott í að umrita enskan texta en á erfitt með sum önnur tungumál, sérstaklega þau sem nota ekki rómverskt letur. Við ráðleggjum notendum okkar sem ekki tala ensku að nota ekki ChatGPT í þessum tilgangi.
Þú getur lesið meira um nálgun okkar til öryggis og samstarf okkar við Be My Eyes í kerfiskortinu fyrir myndinntak.
Plus- og Enterprise-notendur munu fá að upplifa rödd og myndir á næstu tveimur vikum. Við erum spennt að kynna þessa eiginleika fyrir aðra hópa notenda, þar á meðal forritara, fljótlega eftir það.
Höfundur
Þakkir
Kjarnarannsókn á raddstillingu
Alec Radford, Tao Xu, Jong Wook Kim
Kjarnarannsókn varðandi sýn dreifingar
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


