Pāriet uz galveno saturu
OpenAI

2023. gada 25. septembris

Produkts

Tagad ChatGPT var redzēt, dzirdēt un runāt

Tagad ChatGPT var redzēt, dzirdēt un runāt

Mēs sākam ieviest jaunas balss un attēlu iespējas ChatGPT. Tās piedāvā jaunu, intuitīvāku saskarnes veidu, ļaujot veikt sarunu balsī vai parādot ChatGPT, par ko tu runā.

Balss un attēls sniedz vairāk veidu, kā izmantot ChatGPT savā dzīvē. Ceļojuma laikā nofotografē kādu ievērojamu vietu un tiešsaistē sarunājies par to, kas tajā ir interesants. Kad esi mājās, uzņem bildes ar savu ledusskapi un virtuves skapīti, lai izdomātu, ko pagatavot vakariņās (uzdod papildjautājumus, lai iegūtu “soli pa solim” recepti). Pēc vakariņām palīdzi savam bērnam risināt matemātikas uzdevumu, nofotografējot to, iezīmējot problemātisko uzdevumu un lūdzot programmai koplietot ieteikumus ar jums abiem.

Tuvāko divu nedēļu laikā mēs ieviesīsim balss un attēlu funkciju ChatGPT Plus un Enterprise lietotājiem. Balss funkcija būs pieejama iOS un Android (pēc izvēles tavos iestatījumos), savukārt attēli būs pieejami visās platformās.

Runā ar ChatGPT un ļauj tam atbildēt

Tagad tu vari izmantot balsi, lai iesaistītos sarunā ar savu asistentu. Runā ar to, atrodoties ceļā, pieprasi vakara pasaku ģimenei vai risini diskusiju pie vakariņu galda.

Izmanto balsi, lai iesaistītos sarunā ar savu asistentu.

Lai sāktu izmantot balsi, dodies uz Iestatījumi → Jaunās funkcijas mobilajā lietotnē un izvēlies piedalīties sarunās balsī. Pēc tam pieskaries austiņu pogai, kas atrodas sākuma ekrāna augšējā labajā stūrī, un izvēlies savu vēlamo balsi no piecām dažādām balsīm.

Jauno balss funkciju nodrošina jauns teksta–runas atveidošanas modelis, kas spēj ģenerēt cilvēka runai līdzīgu audio tikai no teksta un dažām sekundēm runas parauga. Lai radītu katru no balsīm, mēs sadarbojāmies ar profesionāliem balss aktieriem. Izmantojam arī Whisper, mūsu atvērtā koda runas atpazīšanas sistēmu, lai transkribētu tavus izrunātos vārdus tekstā.

Notiek ielāde...

Tērzēšana par attēliem

Tagad tu vari parādīt ChatGPT vienu vai vairākus attēlus. Noskaidro, kāpēc tavs grils neiedarbojas, izpēti ledusskapja saturu, lai plānotu maltīti, vai analizē sarežģītu grafiku ar darbam saistītiem datiem. Lai koncentrētos uz konkrētu attēla daļu, vari izmantot zīmēšanas rīku mūsu mobilajā lietotnē.

Parādi ChatGPT vienu vai vairākus attēlus.

Lai sāktu, pieskaries foto pogai, lai uzņemtu vai izvēlētos attēlu. Ja tev ir iOS vai Android, vispirms pieskaries plusa pogai. Tu vari apspriest vairākus attēlus vai izmantot mūsu zīmēšanas rīku, lai vadītu savu asistentu.

Attēlu izpratni nodrošina multimodālie GPT–3.5 un GPT–4. Šie modeļi izmanto savas valodas loģikas prasmes plašam attēlu spektram, piemēram, fotogrāfijām, ekrānuzņēmumiem un dokumentiem, kas satur gan tekstu, gan attēlus.

Mēs pakāpeniski ieviešam attēlu un balss funkcijas

OpenAI mērķis ir izveidot drošu un noderīgu mākslīgo vispārējo intelektu. Uzskatām, ka mūsu rīki jāpadara pieejami pakāpeniski, ļaujot laika gaitā veikt uzlabojumus un pilnveidot riska mazināšanas pasākumus, vienlaikus sagatavojot visus jaudīgākām sistēmām nākotnē. Šī stratēģija kļūst vēl svarīgāka, ja tiek izmantoti uzlaboti modeļi, kas ietver balss un redzes funkcijas.

Balss

Jaunā balss tehnoloģija, kas spēj izveidot reālistiskas sintētiskas balsis, balstoties uz dažām sekundēm īstas runas, paver iespējas daudzām radošām un pieejamību veicinošām lietotnēm. Vienlaikus šīs iespējas rada jaunus riskus, piemēram, iespēju ļaunprātīgi uzdoties par kādu sabiedrībā zināmu personu vai veikt krāpniecisku darbību.

Tāpēc mēs šo tehnoloģiju izmantojam konkrētam lietošanas gadījumam –balss tērzēšanai. Balss tērzēšana tika izveidota ar balss aktieriem, ar kuriem mēs tieši sadarbojāmies. Līdzīgā veidā mēs sadarbojamies arī ar citiem. Piemēram, Spotify izmanto šīs tehnoloģijas iespējas, lai izmēģinātu savu Balss tulkošanas(atveras jaunā logā) funkciju, kas palīdz podkāstu veidotājiem paplašināt savu stāstījumu sasniedzamību, tulkojot podkāstus citās valodās viņu pašu balsīs.

Attēla ievade

Redzes modeļi rada arī jaunus izaicinājumus, sākot no halucinācijām par cilvēkiem līdz tam, ka lietotāji paļaujas uz modeļa attēlu interpretāciju augsta riska jomās. Pirms plašākas ieviešanas mēs testējām modeli ar sarkanās komandas dalībniekiem, lai novērtētu riskus tādās jomās kā ekstrēmisms un zinātniskā kompetence, kā arī ar daudzveidīgu alfa testētāju grupu. Pētījums mums ļāva saskaņot dažas svarīgas detaļas atbildīgai lietošanai.

Redze var būt gan noderīga, gan droša

Gluži kā citas ChatGPT funkcijas, arī redze ir paredzēta tam, lai tev palīdzētu ikdienas dzīvē. Vislabāk tā funkcionē, ja var redzēt to pašu, ko tu. 

Šī pieeja ir balstīta uz mūsu sadarbību ar Be My Eyes – bezmaksas mobilo lietotni neredzīgiem un vājredzīgiem cilvēkiem –, lai izprastu tās izmantošanas iespējas un ierobežojumus. Lietotāji mums ir teikuši, ka viņiem lieti noder vispārīgas sarunas par attēliem, kuros fonā ir cilvēki, piemēram, ja kāds parādās televizora ekrānā, kamēr viņi mēģini izprast savas tālvadības pults iestatījumus.

Esam veikuši arī tehniskus pasākumus, lai būtiski ierobežotu ChatGPT spēju analizēt un izteikt tiešus apgalvojumus par cilvēkiem, jo ChatGPT ne vienmēr ir precīzs un šīm sistēmām ir jāievēro personu privātums.

Reālā lietošana un atsauksmes mums palīdzēs vēl vairāk uzlabot šos drošības pasākumus, vienlaikus saglabājot rīka lietderību.

Modeļa ierobežojumu pārredzamība

Lietotāji var paļauties uz ChatGPT specializētiem tematiem tādās jomās kā, piemēram, pētniecība. Mēs esam atklāti par modeļa ierobežojumiem un atturam no augstāka riska lietošanas gadījumiem bez pienācīgas verifikācijas. Modelis prasmīgi transkribē angļu tekstu, bet tas slikti darbojas dažās citās valodās, īpaši tajās, kurās nav latīņu rakstības. Mūsu lietotājiem, kuri nerunā angliski, iesakām neizmantot ChatGPT šim nolūkam.

Vairāk par mūsu pieeju drošībai un darbu ar Be My Eyes vari lasīt attēlu ievades sistēmas kartē.

Mēs paplašināsim piekļuvi

Plus un Enterprise lietotājiem būs iespēja izmantot balsi un attēlus nākamo divu nedēļu laikā. Drīz pēc tam mēs šīs iespējas sāksim ieviest arī citām lietotāju grupām, tostarp izstrādātājiem.

Autors

OpenAI

Pateicības

Balss režīma pamatpētījumi

Aleks Redfords, Tao Ksu, Jongs Voks Kims

Redzes ieviešanas pamatpētījumi

Rauls Puri, Džeimijs Kiross, Hunvū No, Longs Oijangs, Sandini Agarvals

Apskatīt GPT-4V(ision) tehnisko darbu un autorus