Ugrás a fő tartalomra
OpenAI

2023. szeptember 25.

Termék

A ChatGPT most már lát, hall és beszél

A ChatGPT most már lát, hall és beszél

Elkezdjük bevezetni az új hang- és kép alapú funkciókat a ChatGPT‑ben. Új, intuitívabb típusú felületet kínálnak azáltal, hogy lehetővé teszik, hogy hangbeszélgetést folytass, vagy megmutasd a ChatGPT‑nek, miről beszélsz.

A hang és a kép több módot kínál arra, hogy a ChatGPT‑t a mindennapi életedben használd. Készíts egy képet egy nevezetességről utazás közben, és folytass élő beszélgetést arról, mit érdemes róla tudni. Amikor otthon vagy, készíts képeket a hűtőszekrényedről és a kamrádról, hogy kitaláld, mi legyen a vacsora (és tegyél fel további kérdéseket egy lépésről lépésre szóló recepthez). Vacsora után segíts a gyerekednek egy matematikai feladat megoldásában úgy, hogy készítesz egy fényképet, bekarikázod a feladatsort, és megosztod az útmutatásokat mindkettőtökkel.

A következő két hétben bevezetjük a hang- és képeket a ChatGPT Plus és Enterprise felhasználók számára. A hang elérhető lesz iOS-en és Androidon (a beállításaidban választható), a képek pedig minden platformon elérhetők lesznek.

Beszélj a ChatGPT-vel, és hagyd, hogy válaszoljon

Mostantól használhatod a hangot is az oda-vissza beszélgetéshez az asszisztenseddel. Beszélgess vele útközben a Go-n, kérj esti mesét a családodnak, vagy dönts el egy vacsoraasztali vitát.

Használd a hangod, hogy oda-vissza beszélgetést folytass az asszisztenseddel.

A hang használatának megkezdéséhez menj a Beállítások → Új funkciók menüpontra a mobil appban, és válaszd a beszélgetések lehetőséget. Ezután érintsd meg a kezdőképernyő jobb felső sarkában található fejhallgató gombot, és válaszd ki az öt különböző hang közül a számodra legmegfelelőbbet.

Az új hangfunkciót egy új szöveg-beszéd modell működteti, amely képes emberi hanghoz hasonló hangot generálni pusztán szövegből és néhány másodpercnyi mintaként szolgáló beszédből. Profi szinkronszínészekkel együtt dolgozva alkottuk meg a hangokat. A Whisper, a nyílt forráskódú beszédfelismerő rendszerünk segítségével a kimondott szavaidat szöveggé alakítjuk át.

Betöltés...

Csevegés képekről

Most már megmutathatsz egy vagy több képet a ChatGPT‑nek. Kiderítheted, miért nem indul a grill, áttekintheted a hűtőd tartalmát egy étel megtervezéséhez, vagy elemezhetsz egy összetett grafikont munkával kapcsolatos adatokhoz. Ha a kép egy adott részére szeretnél összpontosítani, használhatod a rajzeszközt az appunkban.

Mutass ChatGPT‑nek egy vagy több képet.

A kezdéshez érintsd meg a fényképezőgombot, és készíts vagy válassz egy képet. Ha iOS-en vagy Androidon vagy, először érintsd meg a plusz gombot. Több képet is megvitathatsz, vagy használhatod a rajzeszközünket, hogy irányítsd az asszisztenst.

A képértést a multimodális GPT‑3.5 és GPT‑4 támogatja. Ezek a modellek nyelvi érvelési képességeiket széles körű képeken alkalmazzák, például fényképeken, képernyőképeken és olyan dokumentumokon, amelyek szöveget és képeket egyaránt tartalmaznak.

Fokozatosan vezetjük be a kép- és hangfelismerési képességeket

Az OpenAI célja, hogy biztonságos és hasznos AGI-t hozzon létre. Hiszünk abban, hogy eszközeinket fokozatosan kell elérhetővé tenni, ami lehetővé teszi számunkra, hogy idővel fejlesztéseket hajtsunk végre és finomítsuk a kockázatcsökkentéseket, miközben mindenkit felkészítünk a jövőben érkező erősebb rendszerekre. Ez a stratégia még fontosabbá válik a hangot és képet magában foglaló fejlett modellekkel.

Hang

Az új hangtechnológia—amely képes valósághű szintetikus hangokat létrehozni csupán néhány másodpercnyi valós beszédből—sok kreatív és akadálymentesítési célú alkalmazás előtt nyitja meg az ajtót. Ezek a képességek azonban új kockázatokat is jelentenek, például a rosszindulatú szereplők számára, közszereplők megszemélyesítése vagy család elkövetése okán.

Ezért használjuk ezt a technológiát egy konkrét felhasználási esethez—hangalapú csevegéshez. A hangalapú csevegést olyan szinkronszínészekkel hoztuk létre, akikkel közvetlenül dolgoztunk együtt. Hasonló módon másokkal is együttműködünk. Például a Spotify a technológia erejét használja a Hangalapú fordítás(új ablakban nyílik meg) funkciójuk kísérleti projektjéhez, amely segít a podcastereknek kibővíteni történetmesélésük hatókörét azáltal, hogy a podcastokat a podcasterek saját hangján fordítja le további nyelvekre.

Képbevitel

A látásalapú modellek új kihívásokat is jelentenek, az emberekkel kapcsolatos valótlan vagy vélt állításoktól kezdve a modellek képek értelmezésére való támaszkodásáig a kritikus domainokban. A szélesebb körű bevezetés előtt a modellt red teamerekkel teszteltük a kockázatok szempontjából olyan domainokban, mint a szélsőségesség és a tudományos jártasság, valamint egy sokszínű alfa tesztelői csoporttal. Kutatásaink engedélyezést tettek lehetővé számunkra, hogy néhány kulcsfontosságú részletben megegyezzünk a felelősségteljes használat érdekében.

A látás funkcionális és biztonságos megvalósítása

Mint a ChatGPT többi funkciója, a vizuális funkció is a mindennapi életed megkönnyítésére szolgál. Azt akkor csinálja a legjobban, ha látja, amit te látsz. 

Ezt a megközelítést közvetlenül a Be My Eyes-szal végzett munkánk inspirálta, egy ingyenes mobil appal vak és gyengénlátó felhasználók számára, hogy megértsük a felhasználási lehetőségeket és korlátokat. A felhasználók arról számoltak be, hogy értékesnek találják az általános beszélgetéseket olyan képekről, amelyek háttérben embereket tartalmaznak, például amikor valaki megjelenik a tévében, miközben próbálod beállítani a távirányító beállításait.

Technikai intézkedéseket is tettünk annak érdekében, hogy jelentősen korlátozzuk a ChatGPT képességét arra, hogy emberekről közvetlen állításokat tegyen vagy elemzéseket készítsen, mivel a ChatGPT nem mindig pontos, és ezeknek a rendszereknek tiszteletben kell tartaniuk az egyének magánszféráját.

A valós használat és a visszajelzések segítenek nekünk abban, hogy ezeket a védelmi intézkedéseket még jobbá tegyük, miközben az eszköz hasznos marad.

Átláthatóság a modell korlátairól

A felhasználók ChatGPT‑re speciális témakörökben, például kutatási területeken támaszkodhatnak. Átláthatóak vagyunk a modell korlátait illetően, és nem javasoljuk a magasabb kockázatú felhasználási eseteket megfelelő indoklás nélkül. Továbbá, a modell kiválóan teljesít az angol szöveg átírásában, de gyengén teljesít néhány más nyelvnél, különösen azoknál, amelyek nem latin írásrendszerűek. A nem angol anyanyelvű felhasználóinknak az a tanácsunk, hogy ne használják a ChatGPT‑t erre a célra.

További információkat olvashatsz a biztonsághoz való hozzáállásunkról és a Be My Eyes-szel való együttműködésünkről a képbevitel rendszerkártyán.

Bővíteni fogjuk a hozzáférést

A Plus és Enterprise felhasználók a következő két hétben élvezhetik a hang és a képek használatát. Izgatottan várjuk, hogy ezeket a képességeket hamarosan más felhasználói csoportok, köztük a fejlesztők számára is bevezessük.

Szerző

OpenAI

Köszönetnyilvánítások

Alapkutatás a hangalapú módhoz

Alec Radford, Tao Xu, Jong Wook Kim

Alapkutatás a vizuális rendszerek bevezetéséhez

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Tekintsd meg a GPT-4V(ision) technikai munkát és a szerzőket