ChatGPT issa jista’ jara, jisma’, u jitkellem

Bdejna noħorġu kapaċitajiet ġodda tal-vuċi u tal-immaġni f’ChatGPT. Dawn joffru tip ġdid u aktar intuwittiv ta’ interface billi jħalluk ikollok konverżazzjoni bil-vuċi jew turi lil ChatGPT dwar xiex qed titkellem.
Il-vuċi u l-immaġni jagħtuk aktar modi kif tuża ChatGPT f’ħajtek. Ħu ritratt ta’ monument waqt li tkun qed tivvjaġġa u agħmel konverżazzjoni live dwar x’hemm interessanti fih. Meta tkun id-dar, ħu ritratti tal-friġġ u l-pantry tiegħek biex tifhem x’hemm għall-ikel ta’ filgħaxija (u staqsi mistoqsijiet ta’ segwitu għal riċetta pass pass). Wara l-ikel, għin lit-tifel jew tifla tiegħek bi problema tal-matematika billi tieħu ritratt, iddawwar il-parti tal-eżerċizzji, u tħallih jaqsam ħjiel magħkom it-tnejn.
Qed noħorġu l-vuċi u l-immaġnijiet f’ChatGPT għall-utenti Plus u Enterprise matul il-ġimagħtejn li ġejjin. Il-vuċi se tasal fuq iOS u Android (opt-in fis-settings tiegħek) u l-immaġnijiet se jkunu disponibbli fuq il-pjattaformi kollha.
Issa tista’ tuża l-vuċi biex tidħol f’konverżazzjoni botta u risposta mal-assistent tiegħek. Tkellem miegħu waqt li tkun għaddej, itlob storja ta’ qabel l-irqad għall-familja tiegħek, jew solvvi dibattitu fuq il-mejda tal-ikel.
Use voice to engage in a back-and-forth conversation with your assistant.
Biex tibda bil-vuċi, mur f’Settings → New Features fl-app tal-mowbajl u agħżel il-konverżazzjonijiet bil-vuċi. Imbagħad, tektek il-buttuna tal-headphones fin-naħa ta’ fuq tal-lemin tal-iskrin prinċipali u agħżel il-vuċi li tippreferi minn fost ħames vuċijiet differenti.
Il-kapaċità l-ġdida tal-vuċi hija mħaddma minn mudell ġdid text-to-speech, li kapaċi jiġġenera awdjo li jixbah tal-bniedem minn test biss u ftit sekondi ta’ kampjun ta’ diskors. Ikkollaborajna ma’ atturi professjonali tal-vuċi biex noħolqu kull vuċi. Nużaw ukoll Whisper, is-sistema open-source tagħna għar-rikonoxximent tad-diskors, biex nittraskrivu kliemek mitkellem f’test.
Issa tista’ turi lil ChatGPT immaġni waħda jew aktar. Isolvi għaliex il-grill tiegħek ma jridx jinxtegħel, esplora l-kontenut tal-friġġ tiegħek biex tippjana ikla, jew analizza graff kumpless għal data relatata max-xogħol. Biex tiffoka fuq parti speċifika tal-immaġni, tista’ tuża l-għodda tat-tpinġija fl-app tal-mowbajl tagħna.
Show ChatGPT one or more images.
Biex tibda, tektek il-buttuna tar-ritratt biex taqbad jew tagħżel immaġni. Jekk inti fuq iOS jew Android, l-ewwel tektek il-buttuna tal-plus. Tista’ wkoll tiddiskuti diversi immaġnijiet jew tuża l-għodda tat-tpinġija tagħna biex tiggwida lill-assistent tiegħek.
Il-fehim tal-immaġni huwa mħaddem minn GPT‑3.5 u GPT‑4 multimodali. Dawn il-mudelli japplikaw il-ħiliet tagħhom ta’ raġunament lingwistiku għal firxa wiesgħa ta’ immaġnijiet, bħal ritratti, screenshots, u dokumenti li fihom kemm test kif ukoll immaġnijiet.
L-għan ta’ OpenAI hu li tibni AGI li jkun sigur u ta’ benefiċċju. Nemmnu li nagħmlu l-għodod tagħna disponibbli gradwalment, li jippermettilna nagħmlu titjib u nirfinaw il-mitigazzjonijiet tar-riskju maż-żmien filwaqt li nippreparaw lil kulħadd għal sistemi aktar b’saħħithom fil-futur. Din l-istrateġija ssir saħansitra aktar importanti b’mudelli avvanzati li jinvolvu vuċi u viżjoni.
It-teknoloġija l-ġdida tal-vuċi—kapaċi toħloq vuċijiet sintetiċi realistiċi minn ftit sekondi biss ta’ diskors reali—tiftaħ il-bibien għal ħafna applikazzjonijiet kreattivi u ffukati fuq l-aċċessibbiltà. Madankollu, dawn il-kapaċitajiet jippreżentaw ukoll riskji ġodda, bħall-potenzjal li atturi malizzjużi jippersonaw figuri pubbliċi jew iwettqu frodi.
Għalhekk qed nużaw din it-teknoloġija biex tħaddem każ ta’ użu speċifiku—voice chat. Voice chat inħoloq ma’ atturi tal-vuċi li ħdimna direttament magħhom. Qed nikkollaboraw ukoll b’mod simili ma’ oħrajn. Pereżempju, Spotify qed tuża l-qawwa ta’ din it-teknoloġija għall-pilot tal-karatteristika tagħha Voice Translation(jinfetaħ f’tieqa ġdida), li tgħin lill-podcasters jestendu l-firxa tal-istejjer tagħhom billi jittraduċu podcasts għal lingwi addizzjonali bil-vuċijiet proprji tal-podcasters.
Mudelli bbażati fuq il-viżjoni jippreżentaw ukoll sfidi ġodda, li jvarjaw minn alluċinazzjonijiet dwar in-nies sa dipendenza fuq l-interpretazzjoni tal-mudell tal-immaġnijiet f’oqsma ta’ riskju għoli. Qabel implimentazzjoni usa’, ittestjajna l-mudell ma’ red teamers għar-riskju f’oqsma bħall-estremiżmu u l-profiċjenza xjentifika, u ma’ sett divers ta’ alpha testers. Ir-riċerka tagħna ppermettietna naqblu fuq xi dettalji ewlenin għall-użu responsabbli.
Bħal karatteristiċi oħra ta’ ChatGPT, il-viżjoni hi maħsuba biex tgħinek fil-ħajja ta’ kuljum. Dan tagħmlu bl-aħjar mod meta tkun tista’ tara dak li tara int.
Dan l-approċċ ġie infurmat direttament mix-xogħol tagħna ma’ Be My Eyes, app tal-mowbajl bla ħlas għal persuni għomja u b’vista baxxa, biex nifhmu l-użi u l-limitazzjonijiet. L-utenti qalulna li jsibuha ta’ valur li jkollhom konverżazzjonijiet ġenerali dwar immaġnijiet li b’kumbinazzjoni jkun fihom nies fl-isfond, bħal jekk xi ħadd jidher fuq it-TV waqt li tkun qed tipprova tifhem is-settings tar-remote control tiegħek.
Ħadna wkoll miżuri tekniċi biex nillimitaw b’mod sinifikanti l-kapaċità ta’ ChatGPT li janalizza u jagħmel stqarrijiet diretti dwar in-nies peress li ChatGPT mhux dejjem preċiż u dawn is-sistemi għandhom jirrispettaw il-privatezza tal-individwi.
L-użu fid-dinja reali u l-feedback se jgħinuna nagħmlu dawn is-salvagwardji saħansitra aħjar filwaqt li nżommu l-għodda utli.
L-utenti jistgħu jiddependu fuq ChatGPT għal suġġetti speċjalizzati, pereżempju f’oqsma bħar-riċerka. Aħna trasparenti dwar il-limitazzjonijiet tal-mudell u niskoraġġixxu każijiet ta’ użu b’riskju ogħla mingħajr verifika xierqa. Barra minn hekk, il-mudell huwa profiċjenti fit-traskrizzjoni ta’ test bl-Ingliż iżda jaħdem ħażin f’xi lingwi oħra, speċjalment dawk b’kitba mhux Rumana. Nagħtu parir lill-utenti tagħna li ma jitkellmux bl-Ingliż biex ma jużawx ChatGPT għal dan l-iskop.
Tista’ taqra aktar dwar l-approċċ tagħna għas-sikurezza u x-xogħol tagħna ma’ Be My Eyes fil-kard tas-sistema għall-input tal-immaġni.
L-utenti ta’ Plus u Enterprise se jkunu jistgħu jesperjenzaw il-vuċi u l-immaġnijiet fil-ġimagħtejn li ġejjin. Ninsabu eċċitati li noħorġu dawn il-kapaċitajiet għal gruppi oħra ta’ utenti, inklużi l-iżviluppaturi, ftit wara.
Awtur
Rikonoxximenti
Riċerka ewlenija tal-modalità tal-vuċi
Alec Radford, Tao Xu, Jong Wook Kim
Riċerka ewlenija tal-implimentazzjoni tal-viżjoni
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


