

2012 წლიდან Be My Eyes ტექნოლოგიას ქმნის 250 მილიონზე მეტი უსინათლო ან დაბალი მხედველობის მქონე ადამიანის საზოგადოებისთვის. დანიური სტარტაპი უსინათლო ან დაბალი მხედველობის მქონე ადამიანებს მოხალისეებს აკავშირებს, რათა დახმარება გაუწიონ ყოველდღიური ცხოვრების ასობით ამოცანაში, როგორიცაა პროდუქტის იდენტიფიცირება ან აეროპორტში გადაადგილება.
GPT‑4‑ის ახალი ვიზუალური შეყვანის შესაძლებლობით (კვლევითი პრევიუს ფარგლებში), Be My Eyes-მა Be My Eyes-ის აპში დაიწყო GPT‑4‑ზე დაფუძნებული Virtual Volunteer™-ის შექმნა, რომელსაც შეუძლია ადამიან მოხალისესთან გათანაბრებული კონტექსტისა და გაგების დონის გენერირება.
„იმ მოკლე დროში, რაც წვდომა გვქონდა, ვნახეთ შეუდარებელი შედეგები ყველა არსებულ გამოსახულებიდან-ტექსტად ობიექტების ამოცნობის ხელსაწყოსთან შედარებით“, — ამბობს მაიკლ ბაკლი, Be My Eyes-ის CEO. „გლობალური ხელმისაწვდომობისთვის ამას უზარმაზარი მნიშვნელობა აქვს. არცთუ შორეულ მომავალში, უსინათლო და დაბალი მხედველობის მქონე ადამიანების საზოგადოება ამ ხელსაწყოებს გამოიყენებს არა მხოლოდ ვიზუალური ინტერპრეტაციის მრავალ საჭიროებაში, არამედ იმისთვისაც, რომ ცხოვრებაში მეტი დამოუკიდებლობა ჰქონდეს.“
უცებ, მაგალითად, ვიღაც რომ გამოგიგზავნით თავისი მაცივრის შიგთავსის ფოტოს, GPT‑4‑ის ტექნოლოგია არა მხოლოდ ცნობს და ასახელებს, რა დევს იქ, არამედ აკეთებს დასკვნებს და აანალიზებს, რა შეიძლება მოამზადოთ ამ ინგრედიენტებით. შემდეგ კი შეგიძლიათ კარგი რეცეპტიც ჰკითხოთ. გამოყენების შემთხვევები თითქმის შეუზღუდავია.
„ეს თამაშის წესებს ცვლის“, — ამბობს ბაკლი. „საბოლოოდ, რაც უნდა მომხმარებელს ან რაც სჭირდება, მას შეუძლია ხელსაწყოს დამატებითი მოთხოვნა მისცეს, რომ თითქმის მყისიერად მიიღოს უფრო გამოყენებადი, სასარგებლო და დამხმარე ინფორმაცია.“
თებერვლის დასაწყისში კომპანიამ GPT‑ზე დაფუძნებული ასისტენტის ბეტა-ტესტირება თანამშრომელთა მცირე ჯგუფთან დაიწყო; შედეგები იმდენად პოზიტიური იყო, რომ ფუნქცია რამდენიმე კვირაში მომხმარებლების ხელში იქნება.
„ჩვენი საზოგადოებისთვის აქ უბრალოდ წარმოუდგენელი პოტენციალია“, — ამბობს ბაკლი. „ჩვენს ბეტა-ტესტერებს, მათ შორის ლუსი ედვარდსს, უკვე ძალიან მოსწონთ, რასაც ეს აკეთებს.“
Be My Eyes-ის CTO იესპერ ჰვირინგ ჰენრიკსენი განმარტავს, რომ GPT‑4‑სა და სხვა ენობრივ და მანქანური სწავლების მოდელებს შორის განსხვავება არის როგორც საუბრის წარმართვის უნარი, ისე ტექნოლოგიის მიერ შემოთავაზებული ანალიტიკური შესაძლებლობების უფრო მაღალი დონე. „სურათების ამოცნობის საბაზისო აპლიკაციები მხოლოდ იმას გეუბნებიან, რა არის შენ წინ“, — ამბობს ის. „მათ არ შეუძლიათ დიალოგი იმის გასაგებად, მაგალითად, აქვს თუ არა ლაფშას შესაბამისი ინგრედიენტები, ან ის, მიწაზე რომ დევს, უბრალოდ ბურთი კი არა, წაბორძიკების საფრთხეა — და ამის კომუნიკაცია.“
„GPT-4-სა და სხვა ენობრივ და მანქანური სწავლების მოდელებს შორის განსხვავება არის როგორც საუბრის წარმართვის უნარი, ისე ტექნოლოგიის მიერ შემოთავაზებული ანალიტიკური შესაძლებლობების უფრო მაღალი დონე.“
კომპანიას უკვე აქვს შემთხვევა, როდესაც მომხმარებელმა შეძლო სარკინიგზო სისტემაში ნავიგაცია — ამოცანა, რომელიც, შეიძლება ითქვას, მხედველობის მქონეთათვისაც კი თითქმის შეუძლებელია — და მიიღო არა მხოლოდ დეტალები იმის შესახებ, თუ სად იმყოფებოდა რუკაზე, არამედ ნაბიჯ-ნაბიჯ ინსტრუქციებიც, როგორ მისულიყო უსაფრთხოდ სასურველ ადგილამდე.
თუმცა რთულ ფიზიკურ სამყაროში გადაადგილება მხოლოდ ამბის ნახევარია. იმის გაგება, რა ჩანს ეკრანზე, ადამიანისთვის, რომელიც ვერ ხედავს, შეიძლება ორჯერ უფრო დამქანცველი იყოს. ეკრანის წამკითხველები, რომლებიც ჩაშენებულია თანამედროვე ოპერაციული სისტემების უმეტესობაში, ვებგვერდის ან ডেস্কტოპ-აპლიკაციის ნაწილებს ხაზ-ხაზად, სექცია-სექციად კითხულობენ და თითოეულ სიტყვას ახმოვანებენ. სურათები კი, რომლებიც ვებზე კომუნიკაციის ბირთვია, შეიძლება კიდევ უფრო რთული იყოს.
თუმცა, ჰენრიკსენის თქმით, ახლა მათ შეუძლიათ GPT‑4‑ს ვებგვერდი აჩვენონ და სისტემა უკვე ხვდება — სიღრმისეული სწავლების ალგორითმების მიერ მრავალსაათიანი წვრთნის შემდეგ, როცა ისინი ვებგვერდის „მნიშვნელოვანი“ ნაწილის გასაგებად კავშირებს აყალიბებენ — რომელი ნაწილი უნდა წაიკითხოს ან შეაჯამოს. ეს არა მხოლოდ ამარტივებს ისეთ ამოცანებს, როგორიცაა ონლაინ სიახლეების კითხვა, არამედ ვიზუალური დახმარების საჭიროების მქონე ადამიანებს აძლევს წვდომას ვების ერთ-ერთ ყველაზე გადატვირთულ გვერდებზე: სავაჭრო და ელექტრონული კომერციის საიტებზე. GPT‑4‑ს შეუძლია ძიების შედეგები ისე შეაჯამოს, როგორც მხედველი ადამიანი ბუნებრივად გადაავლებს თვალს — ყოველი წვრილმანი დეტალის წაკითხვის გარეშე, არამედ მნიშვნელოვან მონაცემებს შორის გადასვლით — და დაეხმაროს მათ, ვისაც მხედველობითი მხარდაჭერა სჭირდება, სწორი შესყიდვა რეალურ დროში გააკეთონ.
„ეს კაცობრიობისთვის ფანტასტიკური განვითარებაა“, — ამბობს ბაკლი, „მაგრამ ამავე დროს, ეს უზარმაზარ კომერციულ შესაძლებლობასაც წარმოადგენს.“


