ChatGPT suudab nüüd näha, kuulda ja rääkida

Hakkame ChatGPT‑s uusi hääle- ja pildifunktsioone kasutusele võtma. Need pakuvad uut, intuitiivsemat liidest, mis võimaldab sul pidada vestlust või näidata ChatGPT‑le, millest sa räägid.
Hääl ja pilt annavad sulle rohkem võimalusi ChatGPT kasutamiseks sinu elus. Tee reisil olles maamärgist pilt ja pea reaalajas vestlust selle huvitavuse üle. Kui oled kodus, tee oma külmkapist ja sahvrist pilte, et välja selgitada, mida õhtusöögiks valmistada (ja küsi lisaküsimusi, et saada samm-sammuline retsept). Pärast õhtusööki aita oma lapsel matemaatikaülesannet lahendada, tehes foto, ringitades ülesande ja lastes sellel jagada vihjeid teiega mõlemaga.
Järgmise kahe nädala jooksul toome ChatGPT‑sse hääle ja pildifunktsioonid Plusi ja Enterprise'i kasutajatele. Hääfunktsioon tuleb iOS-i ja Androidi (vali seadetes) ning pildifunktsioon on saadaval kõigil platvormidel.
Nüüd saad oma assistendiga häälvestluses ladusalt suhelda. Räägi sellega liikvel olles, küsi perele unejuttu või lahenda õhtusöögilauas vaidlusi.
Kasuta häälfunktsiooni, et vestelda ladusalt oma assistendiga.
Häälvestluste alustamiseks minge mobiilirakenduses menüüsse Seaded → Uued funktsioonid ja valige häälvestlused. Seejärel puuduta avaekraani paremas ülanurgas asuvat kõrvaklappide ikooni ja vali viie erineva hääle seast oma lemmikhääl.
Uus häälefunktsioon on toetatud uue tekstist kõneks mudeliga, mis suudab koostada inimhäälega heli ainult tekstist ja mõne sekundi pikkusest kõnenäidisest. Tegime koostööd professionaalsete häälnäitlejatega, et luua iga hääl. Me kasutame ka Whisperit, meie avatud lähtekoodiga kõnetuvastussüsteemi, et transkribeerida su räägitud sõnad tekstiks.
Nüüd võid ChatGPT‑le näidata ühte või mitut pilti. Uuri, miks su grill ei käivitu, vaata oma külmiku sisu, et planeerida söögikorda, või analüüsi keerulist graafikut tööalaste andmete jaoks. Et keskenduda pildi konkreetsele osale, võid kasutada meie mobiilirakenduse joonistustööriista.
Näita ChatGPT‑le ühte või mitut pilti.
Alustamiseks vajuta foto nuppu, et jäädvustada või valida pilt. Kui oled iOS-is või Androidis, vajuta kõigepealt pluss nuppu. Sa võid ka arutada mitut pilte või kasutada meie joonistustööriista, et juhendada oma assistenti.
Pildi mõistmist toetavad multimodaalsed GPT‑3.5 ja GPT‑4. Need mudelid rakendavad oma keelelise arutlemise oskusi laiale valikule piltidele, nagu fotod, ekraanipildid ja dokumendid, mis sisaldavad nii teksti kui ka pilte.
OpenAI eesmärk on luua ohutu ja kasulik tehisintellekt. Usume, et meie tööriistade järk-järguline kättesaadavaks tegemine võimaldab meil aja jooksul täiustusi teha ja riskide leevendamist täiustada, valmistades samal ajal kõiki ette tulevikus võimsamate süsteemide jaoks. See strateegia muutub veelgi olulisemaks, kui tegemist on hääl- ja nägemisvõimekusega täiustatud mudelitega.
Uus hääletehnoloogia – mis suudab luua realistlikke sünteetilisi hääli vaid mõne sekundi pikkusest reaalsest kõnest – avab uksi paljudele loovatele ja ligipääsetavusele suunatud rakendustele. Kuid need võimed toovad kaasa ka uusi riske, näiteks võimaluse, et pahatahtlikud isikud võivad avaliku elu tegelasi jäljendada või pettusi sooritada.
See on põhjus, miks me kasutame seda tehnoloogiat konkreetse kasutusjuhtumi, häälvestluse, rakendamiseks. Häälvestlus loodi koos häälnäitlejatega, kellega oleme otse koostööd teinud. Samuti teeme koostööd sarnaselt teistega. Näiteks kasutab Spotify selle tehnoloogia jõudu oma häältõlke(avaneb uues aknas) funktsiooni pilootprojekti jaoks, mis aitab podcasti tegijatel laiendada oma jutustamise ulatust, tõlkides taskuhäälingud lisakeeltesse podcasti tegijate enda häälega.
Visioonipõhised mudelid esitavad ka uusi väljakutseid, alates hallutsinatsioonidest inimeste kohta kuni mudeli tõlgendamisele piltide osas kõrge riskiga domeenides. Enne laiemat kasutuselevõttu testisime mudelit riskide osas sellistes domeenides nagu ekstremism ja teaduslik pädevus, kasutades punaseid teamereid, ning mitmekesist alfatestijate komplekti. Meie uurimistöö lubas meil kokku leppida mõnedes võtmedetailides vastutustundlikuks kasutamiseks.
Nagu teisedki ChatGPT funktsioonid, on visioon mõeldud sinu igapäevaelu abistamiseks. See teeb seda kõige paremini, kui ta näeb, mida sina näed.
See lähenemine on otseselt mõjutatud meie tööst rakendusega Be My Eyes, mis on tasuta mobiilirakendus pimedatele ja vaegnägijatele, et mõista kasutusvõimalusi ja piiranguid. Kasutajad on meile öelnud, et nad peavad väärtuslikuks pidada üldisi vestlusi piltide üle, kus taustal on inimesed, näiteks kui keegi ilmub telerisse, samal ajal kui sa üritad oma kaugjuhtimispuldi seadeid paika panna.
Oleme samuti võtnud tehnilisi meetmeid, et oluliselt piirata ChatGPT võimet analüüsida ja teha otseseid avaldusi inimeste kohta, kuna ChatGPT ei ole alati täpne ja need süsteemid peaksid austama inimeste privaatsust.
Reaalmaailma kasutus ja tagasiside aitavad meil neid kaitsemeetmeid veelgi paremaks muuta, säilitades samal ajal tööriista kasulikkuse.
Kasutajad võivad ChatGPT‑le spetsialiseeritud teemade puhul toetuda, näiteks sellistes valdkondades nagu uurimistöö. Oleme läbipaistvad mudeli piirangute osas ja ei soovita kõrgema riskiga kasutusjuhtumeid ilma korraliku üle kontrollimiseta. Lisaks on mudel osav ingliskeelse teksti transkribeerimisel, kuid esineb raskusi mõnede teiste keeltega, eriti nendega, mis kasutavad mitte-rooma kirja. Soovitame oma mitte-ingliskeelsetel kasutajatel mitte kasutada ChatGPT‑d selleks otstarbeks.
Saad rohkem lugeda meie ohutuskäsitlusest ja koostööst Be My Eyesiga piltsisendi süsteemikaardist.
Plusi ja Enterprise'i kasutajad saavad järgmise kahe nädala jooksul kogeda häält ja pilte. Meil on hea meel neid võimalusi varsti pärast seda teistele kasutajarühmadele, sealhulgas arendajatele, tutvustada.
Autor
Tänuavaldused
Häälrežiimi põhialusuuringud
Alec Radford, Tao Xu, Jong Wook Kim
Visiooni juurutamise põhialusuuringud
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


