ChatGPT teraz môže vidieť, počuť a hovoriť.

V ChatGPT začíname nasadzovať nové hlasové a funkcie obrázkov. Ponúkajú nový, intuitívnejší typ rozhrania tým, že ti umožňujú viesť hlasovú konverzáciu alebo ukázať ChatGPT, o čom hovoríš.
Hlas a obraz ti poskytuje viac možností, ako používať ChatGPT v tvojom živote. Urob zaujímavú fotografiu počas cestovania a veď živú konverzáciu o tom, čo je na nej zaujímavé. Keď si doma, odfoť si obsah chladničky a špajzy, aby si zistil, čo by mohlo byť na večeru (a pýtaj sa dodatočné otázky ohľadom receptu v jednotlivých krokoch). Po večeri pomôž svojmu dieťaťu s matematickou úlohou tým, že urobíš fotografiu, zakrúžkuješ sadu úloh a necháš si od ChatGPT poskytnúť nápovedu pre vás oboch.
V priebehu nasledujúcich dvoch týždňov zavádzame hlas a obrázky v ChatGPT pre používateľov taríf Plus a Enterprise. Hlas bude dostupný na iOS a Android (možnosť zapnutia v nastaveniach) a obrázky budú dostupné na všetkých platformách.
Teraz môžeš používať hlas a viesť obojsmernú konverzáciu so svojím asistentom. Rozprávaj sa s ním na cestách, vypýtaj si rozprávku na dobrú noc pre členov rodiny alebo urovnaj debatný spor pri spoločnej večeri.
Použi hlas na zapojenie sa do obojsmernej konverzácie s tvojím asistentom.
Ak chceš začať používať hlas, prejdi do Nastavení → Nové funkcie v mobilnej aplikácii a zvol si hlasové konverzácie. Potom klepni na tlačidlo slúchadiel umiestnené v pravom hornom rohu domovskej obrazovky a vyber si preferovaný hlas z piatich rôznych hlasov.
Nová hlasová funkcia je poháňaná novým modelom prevodu textu na reč, ktorý dokáže generovať zvuk podobný ľudskému len z textu a niekoľkých sekúnd vzorovej reči. Spolupracovali sme s profesionálnymi hlasovými hercami na vytvorení každého z hlasov. Taktiež používame Whisper, náš open-source systém na rozpoznávanie reči. na prepis tvojich hovorených slov do textu.
Teraz môžeš ChatGPT ukázať jeden alebo viac obrázkov. Rieš príčiny, kvôli ktorým sa nespustí tvoj gril, preskúmaj obsah svojej chladničky, aby si naplánoval jedlo alebo analyzuj zložitý graf obsahujúci pracovné údaje. Ak sa chceš zamerať na konkrétnu časť obrázka, môžeš použiť kresliaci nástroj v našej mobilnej aplikácii.
Ukáž ChatGPT jeden alebo viac obrázkov.
Ak chceš začať, klepni na tlačidlo fotoaparátu, aby si odfotografoval alebo vybral obrázok. Ak používaš iOS alebo Android, najprv klepni na tlačidlo plus. Môžeš tiež diskutovať o viacerých obrázkoch alebo použiť náš nástroj na kreslenie na usmernenie svojho asistenta.
Porozumenie obrázkom je poháňané multimodálnymi modelmi GPT‑3.5 a GPT‑4. Tieto modely uplatňujú svoje jazykové zručnosti na širokú škálu obrázkov, ako sú fotografie, snímky obrazovky a dokumenty obsahujúce text aj obrázky.
Cieľom OpenAI je vybudovať všeobecnú umelú inteligenciu (AGI), ktorá je bezpečná a prospešná. Veríme v postupné sprístupňovanie našich nástrojov, čo nám umožňuje postupne zlepšovať a zdokonaľovať opatrenia na zmiernenie rizík, pričom zároveň pripravujeme všetkých na výkonnejšie systémy v budúcnosti. Táto stratégia sa stáva ešte dôležitejšou pri pokročilých modeloch zahŕňajúcich hlas a obraz.
Nová hlasová technológia, ktorá je schopná vytvárať realistické syntetické hlasy už z niekoľkých sekúnd skutočnej reči, otvára dvere mnohým kreatívnym, a na prístupnosť zameraným aplikáciám. Tieto schopnosti však prinášajú aj nové riziká, ako je potenciál pre škodlivých aktérov vydávať sa za verejne známe osobnosti alebo páchať podvody.
Preto používame túto technológiu na pohon konkrétneho prípadu použitia – na hlasový čet. Hlasový čet bol vytvorený s hlasovými hercami, s ktorými sme priamo spolupracovali. Tiež podobným spôsobom spolupracujeme s ďalšími. Napríklad Spotify využíva silu tejto technológie na pilotnú verziu svojej funkcie Preklad hlasu(otvorí sa v novom okne), ktorá pomáha podcasterom rozšíriť dosah ich rozprávania tým, že prekladá podcasty do ďalších jazykov v hlase samotných podcasterov.
Modely založené na videní tiež predstavujú nové výzvy, od halucinácií o ľuďoch až po spoliehanie sa na interpretáciu obrázkov modelom v kritických oblastiach. Pred širším nasadením sme testovali model s „red teamermi“ pre riziká v oblastiach, ako je extrémizmus a vedecká spôsobilosť, a s rôznorodou skupinou alfa testerov. Náš výskum nám umožnil zlepšiť niekoľko kľúčových detailov pre zodpovedné používanie.
Podobne ako iné funkcie ChatGPT, aj funkcia videnia je o tom, ti vám pomáhala vo tvojom každodennom živote. Najlepšie to robí vtedy, keď môže vidieť to, čo vidíš ty.
Tento prístup bol priamo ovplyvnený našou prácou s Be My Eyes – bezplatnou mobilnou aplikáciou pre nevidiacich a slabozrakých ľudí – aby sme pochopili používanie a obmedzenia. Používatelia nám povedali, že považujú za hodnotné viesť všeobecné konverzácie o obrázkoch, ktoré náhodou obsahujú osoby na pozadí, napríklad keď sa niekto objaví v televízii, zatiaľ čo sa snažíš nastaviť svoje diaľkové ovládanie.
Prijali sme tiež technické opatrenia na výrazné obmedzenie schopnosti ChatGPT analyzovať a robiť priame vyhlásenia o ľuďoch, keďže ChatGPT nie je vždy presný, a tieto systémy by mali rešpektovať súkromie osôb.
Používanie v skutočnom svete a pripomienky nám pomôžu ešte viac zlepšiť tieto bezpečnostné opatrenia, pričom nástroj zostáva užitočný.
Používatelia môžu závisieť od ChatGPT v súvislosti so špecializovanými témami, napríklad v oblastiach ako je výskum. Sme transparentní ohľadom obmedzení modelu a odrádzame od použitia vo vysoko rizikových prípadoch bez riadneho overenia. Model je zdatný v prepisovaní textu v angličtine, ale má slabý výkon pri niektorých iných jazykoch, najmä tých, ktoré nepoužívajú latinku. Našim neanglicky hovoriacim používateľom odporúčame, aby na tento účel ChatGPT nepoužívali.
Viac informácií o našom prístupe k bezpečnosti a našej spolupráci s Be My Eyes nájdete v systémovej karte pre obrázkový vstup.
Používatelia taríf Plus a Enterprise budú môcť využívať hlas a obrázky v najbližších dvoch týždňoch. Tešíme sa, že čoskoro sprístupníme tieto funkcie aj iným skupinám používateľov, vrátane vývojárov.
Autor
Poďakovania
Jadro výskumu hlasového režimu
Alec Radford, Tao Xu, Jong Wook Kim
Jadrového výskumu nasadenia videnia
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


