ChatGPT‑ն այժմ կարող է տեսնել, լսել և խոսել։

Մենք սկսում ենք թողարկել նոր ձայնային և պատկերային հնարավորություններ ChatGPT‑ում։ Նրանք առաջարկում են նոր, ավելի ինտուիտիվ տեսակի ինտերֆեյս՝ թույլ տալով ձեզ ունենալ ձայնային խոսակցություն կամ ցույց տալ ChatGPT‑ին, թե ինչի մասին եք խոսում:
Ձայնը և պատկերն ձեզ ավելի շատ հնարավորություններ են տալիս օգտագործել ChatGPT‑ն ձեր կյանքում: Ճանապարհորդելիս լուսանկարեք տեսարժան վայր և ունեցեք կենդանի խոսակցություն այն մասին, թե ինչն է հետաքրքիր դրա մեջ։ Երբ տանը եք, լուսանկարեք ձեր սառնարանն ու պահարանը՝ պարզելու համար, թե ինչ պատրաստել ընթրիքի համար (և տվեք հետագա հարցեր՝ քայլ առ քայլ բաղադրատոմսի համար): Ընթրիքից հետո օգնեք ձեր երեխային լուծել մաթեմատիկական խնդիրը՝ լուսանկարելով այն, շրջանագծելով խնդիրների հավաքածուն և խնդրելով նրան ակնարկներ անել ձեզ երկուսի հետ։
Մենք հաջորդ երկու շաբաթների ընթացքում թողարկում ենք ձայնը և պատկերները ChatGPT‑ում՝ Plus և Enterprise օգտատերերի համար։ Ձայնը հասանելի կլինի iOS-ում և Android-ում (ընտրովի ձեր կարգավորումներում), իսկ պատկերները հասանելի կլինեն բոլոր հարթակներում։
Այժմ դուք կարող եք ձայնով ներգրավվել երկկողմանի խոսակցության ձեր օգնականի հետ։ Զրուցեք նրա հետ ճանապարհին, խնդրեք նրան պատմել քնելուց առաջ պատմություն ձեր ընտանիքի համար կամ հարթեք վեճը ճաշի սեղանի շուրջ։
Օգտագործեք ձայնը՝ ձեր օգնականի հետ երկկողմանի խոսակցություն վարելու համար։
Ձայնային խոսակցություններ սկսելու համար անցեք Կարգավորումներ → Նոր գործառույթներ բջջային հավելվածում և միացրեք ձայնային խոսակցությունները։ Այնուհետև սեղմեք գլխավոր էկրանի վերին աջ անկյունում գտնվող ականջակալների կոճակը և ընտրեք ձեր նախընտրած ձայնը հինգ տարբեր ձայներից։
Նոր ձայնային հնարավորությունը սնուցվում է նոր տեքստից խոսքի մոդելով, որը կարող է գեներացնել մարդկային նման ձայն՝ միայն տեքստից և մի քանի վայրկյան նմուշային խոսքից։ Մենք համագործակցեցինք պրոֆեսիոնալ հնչյունավորողների հետ՝ յուրաքանչյուր ձայնը ստեղծելու համար։ Մենք նաև օգտագործում ենք Whisper-ը՝ մեր բաց կոդով խոսքի ճանաչման համակարգը, ձեր խոսքերը տեքստի վերածելու համար։
Այժմ դուք կարող եք ցույց տալ ChatGPT‑ին մեկ կամ ավելի պատկերներ։ Վերլուծեք, թե ինչու ձեր գրիլը չի միանում, ուսումնասիրեք ձեր սառնարանի պարունակությունը՝ ճաշ պատրաստելու պլան կազմելու համար, կամ վերլուծեք բարդ գրաֆիկը՝ աշխատանքային տվյալների համար։ Որպեսզի կենտրոնանաք պատկերի որոշակի մասի վրա, կարող եք օգտագործել նկարչական գործիքը մեր բջջային հավելվածում։
Ցույց տվեք ChatGPT‑ին մեկ կամ ավելի պատկերներ։
Սկսելու համար սեղմեք լուսանկարի կոճակը՝ պատկեր նկարելու կամ ընտրելու համար։ Եթե դուք iOS կամ Android սարք եք օգտագործում, նախ սեղմեք «+» կոճակը։ Դուք կարող եք նաև քննարկել բազմաթիվ պատկերներ կամ օգտագործել մեր նկարչական գործիքը՝ ձեր օգնականին ուղղորդելու համար։
Պատկերի ըմբռնումը ապահովվում է բազմամոդալ GPT‑3.5‑ի և GPT‑4‑ի միջոցով։ Այս մոդելները իրենց լեզվական հիմնավորման հմտությունները կիրառում են պատկերների լայն շրջանակի վրա, ինչպիսիք են լուսանկարները, սքրինշոթները և տեքստ և պատկերներ պարունակող փաստաթղթերը:
OpenAI-ի նպատակը ապահով և շահավետ AGI-ի կառուցումն է: Մենք հավատում ենք, որ մեր գործիքները աստիճանաբար հասանելի դարձնելը թույլ է տալիս մեզ կատարելագործել և ժամանակի ընթացքում բարելավել ռիսկերի մեղմացումը՝ միաժամանակ պատրաստելով բոլորին ապագայում ավելի հզոր համակարգերի համար։ Այս ռազմավարությունը դառնում է ավելի կարևոր, երբ խոսքը վերաբերում է ձայնային և տեսողական առաջադեմ մոդելներին։
Նոր ձայնային տեխնոլոգիան, որը կարող է իրական խոսքի ընդամենը մի քանի վայրկյանից ստեղծել իրատեսական սինթետիկ ձայներ, բացում է դռներ բազմաթիվ ստեղծագործական և մատչելիության վրա կենտրոնացած կիրառությունների համար։ Այնուամենայնիվ, այս հնարավորությունները նաև նոր ռիսկեր են պարունակում, ինչպիսիք են չարամիտ անձանց կողմից հանրային գործիչներին կեղծելու կամ խարդախություն կատարելու հնարավորությունը։
Ահա թե ինչու մենք օգտագործում ենք այս տեխնոլոգիան՝ հատուկ օգտագործման դեպքի համար՝ ձայնային զրույց։ Ձայնային զրույցը ստեղծվել է ձայնային դերասանների հետ, որոնց հետ մենք անմիջականորեն աշխատել ենք: Մենք նաև համագործակցում ենք նման ձևով այլոց հետ։ Օրինակ, Spotify-ն օգտագործում է այս տեխնոլոգիայի ուժը իրենց Ձայնային թարգմանության(բացվում է նոր պատուհանում) ֆունկցիայի փորձնական տարբերակի համար, որը օգնում է փոդքաստերներին ընդլայնել իրենց պատմությունների հասանելիությունը՝ թարգմանելով փոդքաստները լրացուցիչ լեզուներով՝ փոդքաստերների սեփական ձայներով:
Տեսողության վրա հիմնված մոդելները նաև նոր մարտահրավերներ են ներկայացնում՝ սկսած մարդկանց մասին հալյուցինացիաներից մինչև բարձր ռիսկային ոլորտներում պատկերների մոդելի մեկնաբանության վրա հույսը դնելը։ Մինչ լայնամասշտաբ տեղակայումը, մենք փորձարկել ենք մոդելը կարմիր թիմերի հետ՝ ռիսկերը գնահատելու այնպիսի տիրույթներում, ինչպիսիք են ծայրահեղականությունը և գիտական հմտությունները, ինչպես նաև բազմազան ալֆա փորձարկողների խումբը: Մեր հետազոտությունը մեզ միացնելու հնարավորություն տվեց համաձայնեցնել մի քանի հիմնական մանրամասներ պատասխանատու օգտագործման համար:
Ինչպես ChatGPT‑ի մյուս հնարավորությունները, տեսողությունը նպատակ ունի աջակցել ձեզ ձեր առօրյա կյանքում։ Այն դա լավագույնս անում է, երբ կարողանում է տեսնել այն, ինչ դուք եք տեսնում։
Այս մոտեցումը ուղղակիորեն հիմնված է Be My Eyes-ի հետ մեր աշխատանքի վրա, որը կույր և թույլ տեսողություն ունեցող մարդկանց համար նախատեսված անվճար բջջային հավելված է, որի նպատակն է հասկանալ դրա կիրառումը և սահմանափակումները։ Օգտատերերը մեզ ասել են, որ արժեքավոր են համարում ընդհանուր զրույցներ վարել այն պատկերների մասին, որոնց ֆոնին մարդիկ կան, օրինակ՝ եթե ինչ-որ մեկը հայտնվում է հեռուստացույցով, մինչ դուք փորձում եք պարզել հեռակառավարման վահանակի կարգավորումները։
Մենք նաև ձեռնարկել ենք տեխնիկական միջոցառումներ՝ զգալիորեն սահմանափակելու ChatGPT‑ի կարողությունը վերլուծելու և ուղղակի հայտարարություններ անելու մարդկանց մասին, քանի որ ChatGPT‑ն միշտ չէ, որ ճշգրիտ է, և այս համակարգերը պետք է հարգեն անհատների գաղտնիությունը։
Իրական աշխարհի օգտագործումը և կարծիքը կօգնեն մեզ այս պաշտպանական միջոցները դարձնել ավելի լավը՝ միաժամանակ պահպանելով գործիքի օգտակարությունը։
Օգտատերերը կարող են ապավինել ChatGPT‑ին մասնագիտացված թեմաների համար, օրինակ՝ հետազոտությունների նման ոլորտներում։ Մենք թափանցիկ ենք մոդելի սահմանափակումների վերաբերյալ և խրախուսում ենք խուսափել ավելի բարձր ռիսկային օգտագործման դեպքերից առանց պատշաճ հաստատման։ Ավելին, մոդելը հմուտ է անգլերեն տեքստի տառադարձման հարցում, բայց վատ է աշխատում որոշ այլ լեզուների հետ, հատկապես ոչ լատինական գիր ունեցողների հետ։ Մենք խորհուրդ ենք տալիս մեր ոչ անգլերեն օգտատերերին չօգտագործել ChatGPT‑ն այս նպատակով։
Դուք կարող եք ավելին կարդալ մեր անվտանգության մոտեցման և Be My Eyes-ի հետ մեր աշխատանքի մասին պատկերների մուտքագրման համակարգի քարտում։
Plus և Enterprise օգտատերերը կստանան ձայնի և պատկերների փորձառություն հաջորդ երկու շաբաթների ընթացքում։ Մենք ոգևորված ենք շուտով այս հնարավորությունները տրամադրել այլ օգտատերերի խմբերին, ներառյալ ծրագրավորողներին։
Հեղինակ
Շնորհակալագրեր
Ձայնային ռեժիմի հիմնական հետազոտություն
Ալեք Ռեդֆորդ, Թաո Շու, Ջոնգ Վուկ Կիմ
Տեսլականի գործադրման հիմնական հետազոտություն
Ռաուլ Պուրի, Ջեյմի Կիրոս, Հեոնվու Նո, Լոնգ Օույանգ, Սանդհինի Ագարվալ


