გადადით მთავარ შინაარსზე
OpenAI

25 სექტემბერი, 2023

პროდუქტი

ChatGPT‑ს ახლა შეუძლია ხედვა, მოსმენა და საუბარი

ChatGPT Can Now See Hear And Speak

ვიწყებთ ChatGPT‑ში ახალი ხმოვანი და გამოსახულების შესაძლებლობების ეტაპობრივ დანერგვას. ისინი გთავაზობთ ინტერფეისის ახალ, უფრო ინტუიციურ ტიპს, რადგან გაძლევთ შესაძლებლობას გქონდეთ ხმოვანი საუბარი ან აჩვენოთ ChatGPT‑ს, რაზეც ლაპარაკობთ.

ხმა და გამოსახულება გაძლევთ ChatGPT‑ის თქვენს ცხოვრებაში გამოყენების მეტ გზას. მოგზაურობისას გადაიღეთ ღირსშესანიშნაობის ფოტო და გამართეთ ცოცხალი საუბარი იმაზე, თუ რა არის მასში საინტერესო. სახლში ყოფნისას გადაიღეთ თქვენი მაცივრისა და საკუჭნაოს ფოტოები, რათა გაარკვიოთ, რა მოამზადოთ სადილად (და შემდეგ ეტაპობრივი რეცეპტისთვის დამატებითი კითხვებიც დასვით). სადილის შემდეგ კი დაეხმარეთ თქვენს შვილს მათემატიკის ამოცანაში: გადაუღეთ ფოტო, შემოხაზეთ ამოცანების ნაწილი და სთხოვეთ ორივესთვის მინიშნებები გაგიზიაროთ.

მომდევნო ორ კვირაში ChatGPT‑ში ხმასა და გამოსახულებებს Plus და Enterprise მომხმარებლებისთვის ვნერგავთ. ხმა ხელმისაწვდომი იქნება iOS-სა და Android-ზე (პარამეტრებში ჩართვით), ხოლო გამოსახულებები ყველა პლატფორმაზე იქნება ხელმისაწვდომი.

ესაუბრეთ ChatGPT-ს და მოისმინეთ მისი პასუხი

ახლა შეგიძლიათ ხმა გამოიყენოთ თქვენს ასისტენტთან ორმხრივი საუბრისთვის. ესაუბრეთ მას გზაში, სთხოვეთ თქვენს ოჯახს ძილის წინ ამბავი მოუყვეს ან სადილის მაგიდასთან კამათი გადაწყვიტოს.

Use voice to engage in a back-and-forth conversation with your assistant.

ხმოვანი ფუნქციის დასაწყებად, მობილურ აპში გადადით Settings → New Features-ში და ჩართეთ ხმოვანი საუბრები. შემდეგ, საწყისი ეკრანის ზედა მარჯვენა კუთხეში მდებარე ყურსასმენის ღილაკს შეეხეთ და ხუთი განსხვავებული ხმიდან თქვენთვის სასურველი აირჩიეთ.

ახალი ხმოვანი შესაძლებლობა მუშაობს ახალ text-to-speech მოდელზე, რომელსაც შეუძლია მხოლოდ ტექსტიდან და სამეტყველო ნიმუშის რამდენიმე წამიდან ადამიანის მსგავსად ჟღერადი აუდიოს გენერირება. თითოეული ხმის შესაქმნელად პროფესიონალ ხმოვან მსახიობებთან ვითანამშრომლეთ. ასევე ვიყენებთ Whisper-ს, ჩვენს ღია კოდის მეტყველების ამოცნობის სისტემას, რათა თქვენი ნათქვამი სიტყვები ტექსტად გადავწეროთ.

იტვირთება...

ისაუბრეთ გამოსახულებებზე

ახლა შეგიძლიათ ChatGPT‑ს ერთი ან რამდენიმე გამოსახულება აჩვენოთ. გაარკვიეთ, რატომ არ ირთვება თქვენი გრილი, შეისწავლეთ თქვენი მაცივრის შიგთავსი კერძის დასაგეგმად ან გააანალიზეთ რთული გრაფიკი სამსახურთან დაკავშირებული მონაცემებისთვის. გამოსახულების კონკრეტულ ნაწილზე ფოკუსირებისთვის შეგიძლიათ ჩვენს მობილურ აპში ხატვის ხელსაწყო გამოიყენოთ.

Show ChatGPT one or more images.

დასაწყებად, შეეხეთ ფოტოს ღილაკს, რომ გადაიღოთ ან აირჩიოთ გამოსახულება. თუ iOS-ზე ან Android-ზე ხართ, ჯერ პლუსის ღილაკს შეეხეთ. ასევე შეგიძლიათ რამდენიმე გამოსახულება ერთად განიხილოთ ან ჩვენი ხატვის ხელსაწყო გამოიყენოთ თქვენი ასისტენტის მიმართულებისთვის.

გამოსახულების გაგება მუშაობს მულტიმოდალურ GPT‑3.5‑სა და GPT‑4‑ზე. ეს მოდელები თავიანთ ენობრივი მსჯელობის უნარებს გამოსახულებების ფართო სპექტრზე იყენებენ, მაგალითად ფოტოგრაფიაზე, სქრინშოთებსა და დოკუმენტებზე, რომლებიც ტექსტსაც და გამოსახულებებსაც შეიცავს.

გამოსახულებისა და ხმის შესაძლებლობებს ეტაპობრივად ვნერგავთ

OpenAI-ის მიზანია შექმნას უსაფრთხო და სასარგებლო AGI. ჩვენ გვჯერა, რომ ჩვენი ხელსაწყოები თანდათანობით უნდა გავხადოთ ხელმისაწვდომი, რაც გვაძლევს საშუალებას დროთა განმავლობაში გავაუმჯობესოთ ისინი და დავხვეწოთ რისკების შემცირების ზომები, ამავდროულად კი ყველა მოვამზადოთ მომავალში უფრო ძლიერი სისტემებისთვის. ეს სტრატეგია კიდევ უფრო მნიშვნელოვანია ხმასა და ხედვასთან დაკავშირებული მოწინავე მოდელებისთვის.

ხმა

ახალი ხმოვანი ტექნოლოგია — რომელსაც შეუძლია რეალისტური სინთეზური ხმების შექმნა ნამდვილი მეტყველების მხოლოდ რამდენიმე წამიდან — გზას უხსნის მრავალ კრეატიულ და ხელმისაწვდომობაზე ორიენტირებულ გამოყენებას. თუმცა, ამ შესაძლებლობებს ახალი რისკებიც ახლავს, მაგალითად იმის პოტენციალი, რომ ბოროტმოქმედებმა საზოგადოებისთვის ცნობილი პირების იმიტაცია მოახდინონ ან თაღლითობა ჩაიდინონ.

სწორედ ამიტომ ვიყენებთ ამ ტექნოლოგიას კონკრეტული გამოყენების შემთხვევისთვის — ხმოვანი ჩატისთვის. ხმოვანი ჩატი შეიქმნა ხმოვან მსახიობებთან ერთად, რომლებთანაც უშუალოდ ვიმუშავეთ. ანალოგიურად სხვებთანაც ვთანამშრომლობთ. მაგალითად, Spotify ამ ტექნოლოგიის ძალას იყენებს მათი Voice Translation(იხსნება ახალ ფანჯარაში) ფუნქციის საპილოტე ვერსიისთვის, რომელიც პოდკასტერებს ეხმარება, თავიანთი ისტორიების აუდიტორია გააფართოონ პოდკასტების დამატებით ენებზე თარგმნით პოდკასტერებისავე ხმებით.

გამოსახულების შეყვანა

ხედვაზე დაფუძნებული მოდელები ასევე ახალ გამოწვევებს აჩენს — ადამიანების შესახებ ჰალუცინაციებიდან დაწყებული, მაღალი მნიშვნელობის სფეროებში გამოსახულებების მოდელისეულ ინტერპრეტაციაზე დაყრდნობით დასრულებული. უფრო ფართო დანერგვამდე მოდელი შევამოწმეთ red team-ებთან ისეთ სფეროებში რისკებზე, როგორიცაა ექსტრემიზმი და სამეცნიერო კომპეტენცია, ასევე ალფა-ტესტერების მრავალფეროვან ჯგუფთან. ჩვენმა კვლევამ პასუხისმგებლიანი გამოყენებისთვის რამდენიმე საკვანძო დეტალზე შეთანხმების საშუალება მოგვცა.

როგორ ვხდით ხედვას სასარგებლოსაც და უსაფრთხოსაც

როგორც ChatGPT‑ის სხვა ფუნქციები, ხედვაც თქვენი ყოველდღიური ცხოვრების გამარტივებას ემსახურება. ეს საუკეთესოდ მუშაობს მაშინ, როცა მას შეუძლია დაინახოს ის, რასაც თქვენ ხედავთ. 

ამ მიდგომის ჩამოყალიბებაზე პირდაპირ იმოქმედა ჩვენმა თანამშრომლობამ Be My Eyes-თან, უსასყიდლო მობილურ აპთან უსინათლო და მცირემხედველი ადამიანებისთვის, რათა უკეთ გაგვეგო გამოყენების შემთხვევები და შეზღუდვები. მომხმარებლებმა გვითხრეს, რომ მათთვის ღირებულია გამოსახულებებზე ზოგადი საუბრის შესაძლებლობა, როცა ფონში ადამიანები ჩანან, მაგალითად თუ ტელევიზორში ვინმე ჩანს მაშინ, როცა პულტის პარამეტრების გარკვევას ცდილობთ.

ჩვენ ასევე მივიღეთ ტექნიკური ზომები, რათა მნიშვნელოვნად შევზღუდოთ ChatGPT‑ის შესაძლებლობა, გააანალიზოს ადამიანები და მათ შესახებ პირდაპირი განცხადებები გააკეთოს, რადგან ChatGPT ყოველთვის ზუსტი არ არის და ასეთმა სისტემებმა ადამიანების კონფიდენციალურობას პატივი უნდა სცენ.

რეალურ სამყაროში გამოყენება და უკუკავშირი დაგვეხმარება, ეს დამცავი ზომები კიდევ უფრო გავაუმჯობესოთ ისე, რომ ხელსაწყო მაინც სასარგებლო დარჩეს.

გამჭვირვალობა მოდელის შეზღუდვებთან დაკავშირებით

მომხმარებლები შესაძლოა ChatGPT‑ს სპეციალიზებულ თემებშიც დაეყრდნონ, მაგალითად კვლევის სფეროში. ჩვენ ღიად ვსაუბრობთ მოდელის შეზღუდვებზე და სათანადო გადამოწმების გარეშე უფრო მაღალი რისკის გამოყენების შემთხვევებს არ ვუჭერთ მხარს. გარდა ამისა, მოდელს კარგად შეუძლია ინგლისური ტექსტის ტრანსკრიფცია, მაგრამ ზოგ სხვა ენასთან, განსაკუთრებით არარომანული დამწერლობის ენებთან, ცუდად მუშაობს. ჩვენს არაინგლისურენოვან მომხმარებლებს ვურჩევთ, ამ მიზნით ChatGPT არ გამოიყენონ.

უსაფრთხოებისადმი ჩვენი მიდგომისა და Be My Eyes-თან ჩვენი მუშაობის შესახებ მეტი შეგიძლიათ წაიკითხოთ გამოსახულების შეყვანის სისტემურ ბარათში.

წვდომას გავაფართოებთ

Plus და Enterprise მომხმარებლები მომდევნო ორ კვირაში ხმასა და გამოსახულებებს გამოსცდიან. მოხარულები ვართ, რომ მალევე ამ შესაძლებლობებს სხვა მომხმარებელთა ჯგუფებზეც, მათ შორის დეველოპერებზეც, გავავრცელებთ.

ავტორი

OpenAI

მადლობები

ხმოვანი რეჟიმის ძირითადი კვლევა

Alec Radford, Tao Xu, Jong Wook Kim

ხედვის დანერგვის ძირითადი კვლევა

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

იხილეთ GPT-4V(ision)-ის ტექნიკური ნაშრომი და ავტორები