ChatGPT tani mund të shohë, dëgjojë dhe flasë.

Ne po fillojmë të prezantojmë aftësi të reja zanore dhe të imazhit në ChatGPT. Këto mundësojnë një lloj të ri dhe më intuitiv të ndërfaqes duke të lejuar të bësh bisedë me zë ose t'i tregosh ChatGPT për çfarë po flet.
Zëri dhe imazhi të japin më shumë mënyra për të përdorur ChatGPT në jetën tënde. Bëj një foto të një monumenti gjatë udhëtimit dhe zhvillo një bisedë të drejtpërdrejtë për atë që është interesante rreth tij. Kur je në shtëpi, bëj foto të frigoriferit dhe dollapit për të kuptuar se çfarë do të gatuash për darkë (dhe bëj pyetje pasuese për një recetë hap pas hapi). Pas darke, ndihmo fëmijën tënd me një problem matematikor duke bërë një foto, duke rrethuar grupin e problemeve dhe duke e bërë atë të ndajë sugjerime me të dy ju.
Ne po prezantojmë zërin dhe imazhet në ChatGPT për përdoruesit e Plus dhe Enterprise gjatë dy javëve të ardhshme. Zëri do të vijë në iOS dhe Android (me zgjedhje në cilësimet e tua) dhe imazhet do të jenë të disponueshme në të gjitha platformat.
Tani mund të përdorësh zërin për të zhvilluar një bisedë të dyanshme me asistentin tënd. Bisedo me të gjatë lëvizjes, kërkoji një përrallë për gjumë për familjen, ose jepi zgjidhje një debati në tryezën e darkës.
Përdor zërin për të zhvilluar një bisedë prapa e përpara me asistentin tënd.
Për të filluar me zërin, shko te Cilësimet → Veçoritë e Reja në aplikacionin celular dhe zgjidh për t'u përfshirë në biseda zanore. Pastaj, prek butonin e kufjeve që ndodhet në këndin e sipërm djathtas të ekranit kryesor dhe zgjidh zërin tënd të preferuar nga pesë zëra të ndryshëm.
Aftësia e re e zërit është e fuqizuar nga një model i ri tekst-në-zë, i aftë të përftojë audio të ngjashme me atë njerëzore vetëm nga teksti dhe disa sekonda të të folurit shembull. Ne bashkëpunuam me aktorë zanorë profesionistë për të krijuar secilën prej zërave. Ne gjithashtu përdorim Whisper, sistemin tonë të njohjes së të folurit me burim të hapur, për të transkriptuar fjalët e tua të folura në tekst.
Tani mund t'i tregosh ChatGPT një ose më shumë imazhe. Kupto pse nuk ndizet skara, eksploro përmbajtjen e frigoriferit për të bërë një plan vakti, ose analizo një grafik kompleks për të dhëna të lidhura me punën. Për t'u përqendruar në një pjesë specifike të imazhit, mund të përdorësh mjetin e vizatimit në aplikacionin tonë për celular.
Tregoji ChatGPT një ose më shumë imazhe.
Për të filluar, prek butonin e fotos për të shkrepur ose zgjedhur një imazh. Nëse je në iOS ose Android, shtyp së pari butonin plus. Gjithashtu mund të diskutosh për imazhe të shumta ose të përdorësh mjetin tonë të vizatimit për të udhëhequr asistentin tënd.
Kuptimi i imazhit mundësohet nga GPT‑3.5 dhe GPT‑4 multimodalë. Këto modele përdorin aftësitë e tyre të arsyetimit gjuhësor në një gamë të gjerë imazhesh, si fotografi, pamje ekrani dhe dokumente që përmbajnë si tekst ashtu edhe imazhe.
Qëllimi i OpenAI është të ndërtojë një AGI të sigurt dhe të dobishëm. Ne besojmë në bërjen e mjeteve tona të disponueshme gradualisht, gjë që na lejon të bëjmë përmirësime dhe të përmirësojmë zbutjen e rreziqeve me kalimin e kohës, ndërsa gjithashtu përgatisim të gjithë për sisteme më të fuqishme në të ardhmen. Kjo strategji bëhet edhe më e rëndësishme me modelet e avancuara që përfshijnë zërin dhe figurën.
Teknologjia e re e zërit—e aftë të krijojë zëra sintetikë realistë nga vetëm disa sekonda të ligjërimit të vërtetë—hap dyert për shumë aplikacione krijuese dhe të fokusuara në asistencë. Megjithatë, këto aftësi paraqesin gjithashtu rreziqe të reja, si mundësia që aktorët keqdashës të imitojnë figura publike ose të kryejnë mashtrime.
Kjo është arsyeja pse po përdorim këtë teknologji për të mbështetur një rast specifik përdorimi—bisedën me zë. Biseda me zë u krijua me aktorë zëri me të cilët kemi punuar drejtpërdrejt. Ne gjithashtu po bashkëpunojmë në një mënyrë të ngjashme me të tjerët. Për shembull, Spotify po përdor fuqinë e kësaj teknologjie për pilotimin e veçorisë së tyre Voice Translation(hapet në një dritare të re), e cila ndihmon podkasterët të zgjerojnë shtrirjen e tregimeve të tyre duke përkthyer podkastet në gjuhë të mëtejshme në zërat e vetë podkasterëve.
Modelet e bazuara në shikim gjithashtu paraqesin sfida të reja, duke filluar nga halucinacionet për njerëzit deri te mbështetja në interpretimin e imazheve nga modeli në fusha me rrezik të lartë. Para se të bënim një implementim më të gjerë, testuam modelin me ekipet e simulimit të sulmeve për të vlerësuar rrezikun në fusha si ekstremizmi dhe aftësitë shkencore, si dhe me një grup të larmishëm testuesish alfa. Kërkimi ynë na mundësoi të biem dakord për disa detaje kyçe për përdorim të përgjegjshëm.
Ashtu si veçoritë e tjera të ChatGPT, aftësia për shikim ka të bëjë me asistencën në jetën tënde të përditshme. Këtë e bën më mirë kur mund të shohë atë që sheh ti.
Kjo qasje bazohet drejtpërdrejt në punën tonë me Be My Eyes, një aplikacion falas për njerëzit e verbër dhe me shikim të dobët, për të kuptuar përdorimet dhe kufizimet. Përdoruesit na kanë thënë se ia shohin dobinë kur bëjnë biseda të përgjithshme rreth imazheve që përmbajnë njerëz në sfond, si për shembull kur dikush shfaqet në televizor ndërsa po përpiqesh të rregullosh cilësimet e telekomandës.
Ne kemi marrë gjithashtu masa teknike për të kufizuar ndjeshëm aftësinë e ChatGPT për të analizuar dhe bërë deklarata të drejtpërdrejta për njerëzit, pasi ChatGPT nuk është gjithmonë i saktë dhe këto sisteme duhet të respektojnë privatësinë e individëve.
Përdorimi në botën reale dhe përshtypje do të na ndihmojnë t'i bëjmë këto masa mbrojtëse edhe më të mira, duke e mbajtur mjetin të dobishëm.
Përdoruesit mund të mbështeten te ChatGPT për tema të specializuara, për shembull në fusha si kërkimi. Ne jemi të hapur për kufizimet e modelit dhe dekurajojmë përdorimet me rrezik të lartë pa verifikim të duhur. Për më tepër, modeli është i aftë të transkriptojë tekstin në anglisht, por performon dobët me disa gjuhë të tjera, veçanërisht ato me jo me alfabet latin. Ne këshillojmë përdoruesit që nuk flasin anglisht të mos e përdorin ChatGPT për këtë qëllim.
Mund të lexosh më shumë rreth qasjes sonë për sigurinë dhe punës sonë me Be My Eyes në kartën e sistemit për inputin e imazhit.
Përdoruesit e Plus dhe Enterprise do të kenë mundësinë të përjetojnë zërin dhe imazhet në dy javët para. Do të kemi kënaqësinë t'i prezantojmë këto aftësi për grupe të tjera përdoruesish, duke përfshirë zhvilluesit, së shpejti pas kësaj.
Autor
Falenderime
Kërkimi thelbësor i modalitetit me zë
Alec Radford, Tao Xu, Jong Wook Kim
Kërkimi bazë për qarkullimin viziv
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


