A ChatGPT most már lát, hall és beszél

Elkezdjük bevezetni az új hang- és kép alapú funkciókat a ChatGPT‑ben. Új, intuitívabb típusú felületet kínálnak azáltal, hogy lehetővé teszik, hogy hangbeszélgetést folytass, vagy megmutasd a ChatGPT‑nek, miről beszélsz.
A hang és a kép több módot kínál arra, hogy a ChatGPT‑t a mindennapi életedben használd. Készíts egy képet egy nevezetességről utazás közben, és folytass élő beszélgetést arról, mit érdemes róla tudni. Amikor otthon vagy, készíts képeket a hűtőszekrényedről és a kamrádról, hogy kitaláld, mi legyen a vacsora (és tegyél fel további kérdéseket egy lépésről lépésre szóló recepthez). Vacsora után segíts a gyerekednek egy matematikai feladat megoldásában úgy, hogy készítesz egy fényképet, bekarikázod a feladatsort, és megosztod az útmutatásokat mindkettőtökkel.
A következő két hétben bevezetjük a hang- és képeket a ChatGPT Plus és Enterprise felhasználók számára. A hang elérhető lesz iOS-en és Androidon (a beállításaidban választható), a képek pedig minden platformon elérhetők lesznek.
Mostantól használhatod a hangot is az oda-vissza beszélgetéshez az asszisztenseddel. Beszélgess vele útközben a Go-n, kérj esti mesét a családodnak, vagy dönts el egy vacsoraasztali vitát.
Használd a hangod, hogy oda-vissza beszélgetést folytass az asszisztenseddel.
A hang használatának megkezdéséhez menj a Beállítások → Új funkciók menüpontra a mobil appban, és válaszd a beszélgetések lehetőséget. Ezután érintsd meg a kezdőképernyő jobb felső sarkában található fejhallgató gombot, és válaszd ki az öt különböző hang közül a számodra legmegfelelőbbet.
Az új hangfunkciót egy új szöveg-beszéd modell működteti, amely képes emberi hanghoz hasonló hangot generálni pusztán szövegből és néhány másodpercnyi mintaként szolgáló beszédből. Profi szinkronszínészekkel együtt dolgozva alkottuk meg a hangokat. A Whisper, a nyílt forráskódú beszédfelismerő rendszerünk segítségével a kimondott szavaidat szöveggé alakítjuk át.
Most már megmutathatsz egy vagy több képet a ChatGPT‑nek. Kiderítheted, miért nem indul a grill, áttekintheted a hűtőd tartalmát egy étel megtervezéséhez, vagy elemezhetsz egy összetett grafikont munkával kapcsolatos adatokhoz. Ha a kép egy adott részére szeretnél összpontosítani, használhatod a rajzeszközt az appunkban.
Mutass ChatGPT‑nek egy vagy több képet.
A kezdéshez érintsd meg a fényképezőgombot, és készíts vagy válassz egy képet. Ha iOS-en vagy Androidon vagy, először érintsd meg a plusz gombot. Több képet is megvitathatsz, vagy használhatod a rajzeszközünket, hogy irányítsd az asszisztenst.
A képértést a multimodális GPT‑3.5 és GPT‑4 támogatja. Ezek a modellek nyelvi érvelési képességeiket széles körű képeken alkalmazzák, például fényképeken, képernyőképeken és olyan dokumentumokon, amelyek szöveget és képeket egyaránt tartalmaznak.
Az OpenAI célja, hogy biztonságos és hasznos AGI-t hozzon létre. Hiszünk abban, hogy eszközeinket fokozatosan kell elérhetővé tenni, ami lehetővé teszi számunkra, hogy idővel fejlesztéseket hajtsunk végre és finomítsuk a kockázatcsökkentéseket, miközben mindenkit felkészítünk a jövőben érkező erősebb rendszerekre. Ez a stratégia még fontosabbá válik a hangot és képet magában foglaló fejlett modellekkel.
Az új hangtechnológia—amely képes valósághű szintetikus hangokat létrehozni csupán néhány másodpercnyi valós beszédből—sok kreatív és akadálymentesítési célú alkalmazás előtt nyitja meg az ajtót. Ezek a képességek azonban új kockázatokat is jelentenek, például a rosszindulatú szereplők számára, közszereplők megszemélyesítése vagy család elkövetése okán.
Ezért használjuk ezt a technológiát egy konkrét felhasználási esethez—hangalapú csevegéshez. A hangalapú csevegést olyan szinkronszínészekkel hoztuk létre, akikkel közvetlenül dolgoztunk együtt. Hasonló módon másokkal is együttműködünk. Például a Spotify a technológia erejét használja a Hangalapú fordítás(új ablakban nyílik meg) funkciójuk kísérleti projektjéhez, amely segít a podcastereknek kibővíteni történetmesélésük hatókörét azáltal, hogy a podcastokat a podcasterek saját hangján fordítja le további nyelvekre.
A látásalapú modellek új kihívásokat is jelentenek, az emberekkel kapcsolatos valótlan vagy vélt állításoktól kezdve a modellek képek értelmezésére való támaszkodásáig a kritikus domainokban. A szélesebb körű bevezetés előtt a modellt red teamerekkel teszteltük a kockázatok szempontjából olyan domainokban, mint a szélsőségesség és a tudományos jártasság, valamint egy sokszínű alfa tesztelői csoporttal. Kutatásaink engedélyezést tettek lehetővé számunkra, hogy néhány kulcsfontosságú részletben megegyezzünk a felelősségteljes használat érdekében.
Mint a ChatGPT többi funkciója, a vizuális funkció is a mindennapi életed megkönnyítésére szolgál. Azt akkor csinálja a legjobban, ha látja, amit te látsz.
Ezt a megközelítést közvetlenül a Be My Eyes-szal végzett munkánk inspirálta, egy ingyenes mobil appal vak és gyengénlátó felhasználók számára, hogy megértsük a felhasználási lehetőségeket és korlátokat. A felhasználók arról számoltak be, hogy értékesnek találják az általános beszélgetéseket olyan képekről, amelyek háttérben embereket tartalmaznak, például amikor valaki megjelenik a tévében, miközben próbálod beállítani a távirányító beállításait.
Technikai intézkedéseket is tettünk annak érdekében, hogy jelentősen korlátozzuk a ChatGPT képességét arra, hogy emberekről közvetlen állításokat tegyen vagy elemzéseket készítsen, mivel a ChatGPT nem mindig pontos, és ezeknek a rendszereknek tiszteletben kell tartaniuk az egyének magánszféráját.
A valós használat és a visszajelzések segítenek nekünk abban, hogy ezeket a védelmi intézkedéseket még jobbá tegyük, miközben az eszköz hasznos marad.
A felhasználók ChatGPT‑re speciális témakörökben, például kutatási területeken támaszkodhatnak. Átláthatóak vagyunk a modell korlátait illetően, és nem javasoljuk a magasabb kockázatú felhasználási eseteket megfelelő indoklás nélkül. Továbbá, a modell kiválóan teljesít az angol szöveg átírásában, de gyengén teljesít néhány más nyelvnél, különösen azoknál, amelyek nem latin írásrendszerűek. A nem angol anyanyelvű felhasználóinknak az a tanácsunk, hogy ne használják a ChatGPT‑t erre a célra.
További információkat olvashatsz a biztonsághoz való hozzáállásunkról és a Be My Eyes-szel való együttműködésünkről a képbevitel rendszerkártyán.
A Plus és Enterprise felhasználók a következő két hétben élvezhetik a hang és a képek használatát. Izgatottan várjuk, hogy ezeket a képességeket hamarosan más felhasználói csoportok, köztük a fejlesztők számára is bevezessük.
Szerző
Köszönetnyilvánítások
Alapkutatás a hangalapú módhoz
Alec Radford, Tao Xu, Jong Wook Kim
Alapkutatás a vizuális rendszerek bevezetéséhez
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal
Tekintsd meg a GPT-4V(ision) technikai munkát és a szerzőket


