ChatGPT sasa inaweza kuona kusikia na kuzungumza

Tunaanza kuzindua uwezo mpya wa sauti na picha katika ChatGPT. Unatoa aina mpya, ya angavu zaidi ya kiolesura kwa kukuruhusu kuwa na mazungumzo ya sauti au kuonyesha ChatGPT kile unachozungumzia.
Sauti na picha zinakupa njia zaidi za kutumia ChatGPT katika maisha yako. Piga picha ya alama muhimu wakati wa kusafiri na fanya mazungumzo ya moja kwa moja kuhusu kinachovutia kuhusu hiyo. Unapokuwa nyumbani, piga picha za friji na kabati lako ili kujua ni nini cha kupika kwa chakula cha jioni (na uulize maswali ya kufuatilia kwa mapishi ya hatua kwa hatua). Baada ya chakula cha jioni, msaidie mtoto wako na tatizo la hisabati kwa kupiga picha, kuzungushia seti ya tatizo na itashirikisha dokezo nanyi.
Tunaanza kusambaza sauti na picha katika ChatGPT kwa watumiaji wa Plus na Enterprise katika wiki mbili zijazo. Sauti inakuja kwenye iOS na Android (chaguo la kujisajili katika mipangilio yako) na picha zitapatikana kwenye majukwaa yote.
Sasa unaweza kutumia sauti kuzungumza kwa majibizano na kiratibu chako. Zungumza nayo ukiwa safarini, omba hadithi ya wakati wa kulala kwa familia yako, au maliza mjadala wa meza ya chakula cha jioni.
Tumia sauti kushiriki katika majibizani na kiratibu chako.
Ili kuanza kutumia sauti, nenda kwenye Mipangilio → Vipengele Vipya kwenye programu ya simu na ujiunge na mazungumzo ya sauti. Kisha, gusa kitufe cha kipokea sauti kilichoko kwenye kona ya juu kulia ya skrini ya mwanzo na uchague sauti unayopendelea kati ya sauti tano tofauti.
Uwezo mpya wa sauti unatumika na muundo mpya wa maandishi hadi hotuba, unaoweza kuzalisha sauti inayofanana na ya kibinadamu kutoka tu kwa maandishi na sekunde chache za sampuli ya hotuba. Tulishirikiana na waigizaji wa sauti wa kitaalamu ili kuunda kila sauti. Pia tunatumia Whisper, mfumo wetu wa utambuzi wa hotuba wa chanzo huria, kubadilisha maneno yako yaliyosemwa kuwa maandishi.
Sasa unaweza kuonyesha ChatGPT picha moja au zaidi. Tafuta tatizo kwa nini grili yako haitaki kuwaka, chunguza kilicho kwenye friji yako ili kupanga chakula, au changanua grafu tata kwa data ya kazi. Ili kuzingatia sehemu maalum ya picha, unaweza kutumia zana ya kuchora katika programu yetu ya simu ya mkononi.
Onyesheni ChatGPT picha moja au zaidi.
Ili kuanza, gusa kitufe cha picha ili kupiga au kuchagua picha. Ikiwa unatumia iOS au Android, bonyeza kitufe cha kuongeza kwanza. Unaweza pia kuchagua picha nyingi au kutumia zana yetu ya kuchora kuongoza kiratibu chako.
Uelewa wa picha unawezeshwa na GPT‑3.5 na GPT‑4 za miundo mingi. Miundo hii hutumia ujuzi wao wa kufikiri kwa lugha kwa aina mbalimbali za picha, kama vile picha za kawaida, picha za skrini na hati zinazojumuisha maandishi na picha.
Lengo la OpenAI ni kujenga AGI salama na yenye manufaa. Tunaamini katika kufanya zana zetu zipatikane hatua kwa hatua, jambo ambalo linatuwezesha kufanya maboresho na kuboresha mikakati ya kupunguza hatari kwa muda huku pia tukimwandaa kila mtu kwa mifumo yenye nguvu zaidi siku zijazo. Mkakati huu unakuwa muhimu zaidi na miundo ya hali ya juu inayohusisha sauti na picha.
Teknolojia mpya ya sauti—inayoweza kuunda sauti za kimitambo zenye uhalisia kutoka kwa sekunde chache tu za hotuba halisi—inatoa fursa kwa programu nyingi za ubunifu na zinazolenga ufikiaji. Hata hivyo, uwezo huu pia unaleta hatari mpya, kama vile uwezekano wa wahusika hasidi kujifanya kuwa watu mashuhuri au kutekeleza udanganyifu.
Hii ndiyo sababu tunatumia teknolojia hii kuendesha matumizi maalum—chati ya sauti. Chati ya sauti iliundwa na waigizaji wa sauti ambao tumefanya kazi nao moja kwa moja. Pia tunashirikiana kwa njia sawa na wengine. Kwa mfano, Spotify inatumia nguvu ya teknolojia hii kwa majaribio ya kipengele chao cha Tafsiri ya Sauti(fungua katika dirisha jipya), ambacho husaidia watangazaji wa podikasti kupanua ufikiaji wa hadithi zao kwa kutafsiri podikasti katika lugha nyingine kwa sauti zao wenyewe.
Miundo inayotegemea picha pia inakabiliwa na changamoto mpya, kuanzia na majibu ya kubuni kuhusu watu hadi kutegemea tafsiri ya muundo wa picha katika vikoa vyenye hatari kubwa. Kabla ya kupelekwa kwa upana zaidi, tulijaribu muundo na wataalamu wa kikoa kwa hatari katika maeneo kama vile misimamo mikali na umahiri wa kisayansi na seti tofauti ya wajaribio wa alpha. Utafiti wetu ulituwezesha kuingiliana juu ya maelezo muhimu kwa matumizi ya kuwajibika.
Kama ilivyo kwa vipengele vingine vya ChatGPT, uwezo wa kuona unalenga kukusaidia katika maisha yako ya kila siku. Hufanya hivyo vyema zaidi inapoweza kuona kile unachokiona.
Njia hii imepata mwongozo moja kwa moja kutoka kwa kazi yetu na Be My Eyes, programu ya simu ya bure kwa watu wasioona na wenye uoni hafifu, ili kuelewa matumizi na mipaka. Watumiaji wametuambia kuwa wanapata thamani katika kuwa na mazungumzo ya jumla kuhusu picha ambazo zina watu kwenye mandarinyuma, kama vile mtu anayeonekana kwenye TV wakati unajaribu kuelewa mipangilio ya kidhibiti chako cha mbali.
Tumepiga hatua za kiufundi ili kupunguza kwa kiasi kikubwa uwezo wa ChatGPT kuchanganua na kutoa taarifa za moja kwa moja kuhusu watu kwa kuwa ChatGPT si sahihi kila wakati na mifumo hii inapaswa kuheshimu faragha ya watu binafsi.
Matumizi ya ulimwengu halisi na majibu yatatusaidia kuboresha hatua hizi za ulinzi zaidi huku tukihakikisha kuwa zana inabaki kuwa ya manufaa.
Watumiaji wanaweza kutegemea ChatGPT kwa mada maalum, kwa mfano katika nyanja kama vile utafiti. Tuna uwazi kuhusu mapungufu ya muundo na tunakataza matumizi ya hatari zaidi bila uthibitishaji wa kina. Zaidi ya hayo, muundo ni hodari katika kunakili maandishi ya Kiingereza lakini hufanya vibaya kwa baadhi ya lugha nyingine, hasa zile zenye maandishi yasiyo ya Kirumi. Tunawashauri watumiaji wetu wasiozungumza Kiingereza wasitumie ChatGPT kwa kusudi hili.
Unaweza kupata maelezo zaidi kuhusu mbinu yetu ya usalama na kazi yetu na Be My Eyes katika kadi ya mfumo ya ingizo la picha.
Watumiaji wa Plus na Enterprise watapata uzoefu wa sauti na picha katika wiki mbili zijazo. Tunafurahi kutangaza kwamba tutaanza kusambaza uwezo huu kwa vikundi vingine vya watumiaji, ikiwa ni pamoja na wasanidi programu, hivi karibuni.
Mwandishi
Shukrani
Utafiti wa msingi wa hali ya sauti
Alec Radford, Tao Xu, Jong Wook Kim
Utekelezaji wa maono ya utafiti wa msingi
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


