„ChatGPT“ dabar gali matyti, girdėti ir kalbėti

Pradedame diegti naujas balso ir vaizdo galimybes „ChatGPT“ platformoje. Tai suteikia naują, intuityvesnę sąsają, leidžiančią kalbėtis balsu arba parodyti „ChatGPT“, apie ką kalbate.
Balsas ir vaizdas suteikia daugiau būdų naudoti „ChatGPT“ savo gyvenime. Nufotografuokite lankytiną vietą keliaudami ir tiesiogiai pasikalbėkite apie tai, kas joje įdomaus. Būdami namuose, nufotografuokite šaldytuvą ir sandėliuką, kad sugalvotumėte, ką gaminti vakarienei (ir užduokite papildomų klausimų dėl nuoseklaus recepto). Po vakarienės padėkite vaikui spręsti matematikos uždavinį: nufotografuokite, apibraukite uždavinių rinkinį ir paprašykite pasidalyti užuominomis su jumis abiem.
Per artimiausias dvi savaites „Plus“ ir „Enterprise“ naudotojams pristatysime balso ir vaizdo funkcijas „ChatGPT“ platformoje. Balsas pasirodys „iOS“ ir „Android“ (pasirenkama nuostatose), o vaizdai bus prieinami visose platformose.
Dabar galite naudoti balsą abipusiam pokalbiui su asistentu. Kalbėkitės eidami, paprašykite pasakos prieš miegą šeimai arba išspręskite ginčą prie vakarienės stalo.
Naudokite balsą abipusiam pokalbiui su asistentu.
Norėdami pradėti naudotis balsu, mobiliojoje programoje eikite į „Settings“ (Nuostatos) → „New Features“ (Naujos funkcijos) ir pasirinkite balso pokalbius. Tada bakstelėkite ausinių mygtuką, esantį viršutiniame dešiniajame pagrindinio ekrano kampe, ir pasirinkite norimą balsą iš penkių skirtingų variantų.
Naująją balso funkciją valdo naujas teksto pavertimo kalba modelis, gebantis generuoti žmogaus kalbą primenantį garsą vien iš teksto ir kelių sekundžių pavyzdinės kalbos. Bendradarbiavome su profesionaliais balso aktoriais kurdami kiekvieną iš balsų. Taip pat naudojame „Whisper“, mūsų atvirojo kodo kalbos atpažinimo sistemą, jūsų tariamiems žodžiams transkribuoti į tekstą.
Dabar galite parodyti „ChatGPT“ vieną ar daugiau vaizdų. Išsiaiškinkite, kodėl neįsijungia kepsninė, tyrinėkite šaldytuvo turinį planuodami maistą arba analizuokite sudėtingą darbo duomenų grafiką. Norėdami sutelkti dėmesį į konkrečią vaizdo dalį, galite naudoti piešimo įrankį mūsų mobiliojoje programoje.
Parodykite „ChatGPT“ vieną ar daugiau vaizdų.
Norėdami pradėti, bakstelėkite nuotraukos mygtuką, kad užfiksuotumėte arba pasirinktumėte vaizdą. Jei naudojate „iOS“ arba „Android“, pirmiausia bakstelėkite pliuso mygtuką. Taip pat galite aptarti kelis vaizdus arba naudoti piešimo įrankį asistentui nukreipti.
Vaizdo supratimą užtikrina multimodalinis GPT‑3.5 ir GPT‑4. Šie modeliai pritaiko savo kalbinio samprotavimo įgūdžius įvairiems vaizdams, pavyzdžiui, nuotraukoms, ekrano nuotraukoms ir dokumentams, kuriuose yra ir teksto, ir vaizdų.
„OpenAI“ tikslas – sukurti AGI, kuris būtų saugus ir naudingas. Tikime laipsnišku įrankių prieinamumu, nes tai leidžia tobulinti sistemas ir mažinti rizikas laikui bėgant, kartu ruošiant visus galingesnėms ateities sistemoms. Ši strategija tampa dar svarbesnė naudojant pažangius modelius, apimančius balso ir vaizdo funkcijas.
Naujoji balso technologija, gebanti sukurti tikroviškus sintetinius balsus vos iš kelių sekundžių tikros kalbos, atveria duris daugybei kūrybinių ir į prieinamumą orientuotų pritaikymo būdų. Vis dėlto šios galimybės taip pat kelia naujų riziką, pavyzdžiui, galimybę piktavaliams apsimesti viešaisiais asmenimis arba sukčiauti.
Todėl šią technologiją naudojame konkrečiam tikslui – balso pokalbiams. Balso pokalbių funkcija sukurta bendradarbiaujant su balso aktoriais. Panašiai bendradarbiaujame ir su kitais. Pavyzdžiui, „Spotify“ naudoja šios technologijos galią bandomajai balso vertimo(atsidaro naujame lange) funkcijai, kuri padeda tinklalaidžių kūrėjams plėsti pasakojimų auditoriją verčiant tinklalaides į kitas kalbas išlaikant paties kūrėjo balsą.
Rega pagrįsti modeliai taip pat kelia naujų iššūkių – nuo pramanų apie žmones iki pasikliovimo modelio interpretacijomis didelės rizikos srityse. Prieš platesnį diegimą modelio riziką tokiose srityse kaip ekstremizmas ir mokslinė kompetencija tikrinome su saugumo bandytojais bei įvairia „alpha“ testuotojų grupe. Mūsų tyrimai leido suderinti kelias pagrindines atsakingo naudojimo detales.
Kaip ir kitos „ChatGPT“ funkcijos, rega skirta padėti jums kasdieniame gyvenime. Ji veikia geriausiai, kai modelis gali matyti tai, ką matote jūs.
Šį požiūrį tiesiogiai lėmė mūsų darbas su nemokama mobiliąja programa akliesiems ir silpnaregiams „Be My Eyes“, siekiant suprasti naudojimo būdus ir apribojimus. Naudotojai teigė, kad jiems naudinga bendrauti apie vaizdus, kurių fone atsitiktinai yra žmonių, pavyzdžiui, jei kas nors rodoma per televizorių, kol bandote išsiaiškinti nuotolinio valdymo pultelio nuostatas.
Taip pat ėmėmės techninių priemonių, siekdami gerokai apriboti „ChatGPT“ galimybę analizuoti žmones ir teikti apie juos tiesioginius pareiškimus, nes „ChatGPT“ ne visada yra tikslus, o šios sistemos turi gerbti asmenų privatumą.
Naudojimas realiame pasaulyje ir atsiliepimai padės mums dar labiau patobulinti šias apsaugos priemones išlaikant įrankio naudingumą.
Naudotojai gali pasikliauti „ChatGPT“ dėl specializuotų temų, pavyzdžiui, tyrimų srityse. Atvirai skelbiame apie modelio apribojimus ir nerekomenduojame naudoti didesnės rizikos atvejais be tinkamo patikrinimo. Be to, modelis puikiai transkribuoja anglišką tekstą, tačiau prasčiau veikia su kai kuriomis kitomis kalbomis, ypač naudojančiomis ne lotyniškus rašmenis. Nerekomenduojame ne anglakalbiams naudotojams naudoti „ChatGPT“ šiam tikslui.
Daugiau apie mūsų požiūrį į saugą ir darbą su „Be My Eyes“ galite paskaityti vaizdo įvesties sistemos kortelėje.
„Plus“ ir „Enterprise“ naudotojai galės išbandyti balso ir vaizdo funkcijas per artimiausias dvi savaites. Džiaugiamės galėdami netrukus po to pristatyti šias galimybes ir kitoms naudotojų grupėms, įskaitant programuotojus.
Autorius
Padėkos
Pagrindiniai balso režimo tyrimai
Alec Radford, Tao Xu, Jong Wook Kim
Pagrindiniai regos diegimo tyrimai
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


