

Od 2012. godine, Be My Eyes stvara tehnologiju za zajednicu od preko 250 miliona ljudi koji su slepi ili slabovidi. Ovaj danski startup povezuje slepe i slabovide osobe sa volonterima radi pomoći u stotinama svakodnevnih zadataka, kao što su identifikovanje proizvoda ili snalaženje na aerodromu.
Sa novom mogućnošću vizuelnog unosa GPT‑4 (u istraživačkom pregledu), Be My Eyes je započeo razvoj Virtual Volunteer™ rešenja pokretanog modelom GPT‑4 u aplikaciji Be My Eyes, koje može da generiše isti nivo konteksta i razumevanja kao ljudski volonter.
„Za kratko vreme otkako imamo pristup, videli smo neuporedivo bolje performanse od bilo kog alata za prepoznavanje objekata sa slike u tekst“, kaže Michael Buckley, izvršni direktor kompanije Be My Eyes. „Posledice za globalnu pristupačnost su duboke. U ne tako dalekoj budućnosti, zajednica slepih i slabovidih koristiće ove alate ne samo za niz potreba vizuelnog tumačenja, već i da imaju veći stepen nezavisnosti u svojim životima.“
Odjednom, slika koju vam neko pošalje, recimo sadržaja frižidera, uz GPT‑4 tehnologiju ne samo da prepoznaje i imenuje šta se u njemu nalazi, već izvodi zaključke i analizira šta možete da napravite od tih sastojaka. Zatim biste mogli da zatražite dobar recept. Primene su gotovo neograničene.
„To menja pravila igre“, kaže Buckley. „Na kraju, šta god korisnik želi ili mu je potrebno, može ponovo da zada instrukciju alatu kako bi dobio više informacija koje su upotrebljive, korisne i od pomoći, gotovo trenutno.“
Početkom februara, kompanija je započela beta-testiranje asistenta zasnovanog na GPT‑u sa malom grupom zaposlenih; rezultati su bili toliko pozitivni da će funkcija za nekoliko nedelja biti u rukama korisnika.
„Potencijal za našu zajednicu je zaista neverovatan“, kaže Buckley. „Naši beta testeri, uključujući Lucy Edwards, već obožavaju ono što ovo radi.“
Razlika između GPT‑4 i drugih jezičkih modela i modela mašinskog učenja, objašnjava Jesper Hvirring Henriksen, CTO kompanije Be My Eyes, jeste i mogućnost vođenja razgovora i veći stepen analitičke snage koju ova tehnologija nudi. „Osnovne aplikacije za prepoznavanje slika samo vam kažu šta je ispred vas“, kaže on. „Ne mogu da vode razgovor da bi razumele da li nudle imaju pravu vrstu sastojaka ili da li predmet na zemlji nije samo lopta, već opasnost od spoticanja — i da to saopšte.“
„Razlika između GPT-4 i drugih jezičkih modela i modela mašinskog učenja jeste i mogućnost vođenja razgovora i veći stepen analitičke snage koju ova tehnologija nudi.“
Kompanija već ima primer u kome je korisnik uspeo da se snađe u železničkom sistemu — što je verovatno nemoguć zadatak čak i za videće osobe — ne samo dobijajući detalje o tome gde se nalazi na mapi, već i uputstva korak po korak kako bezbedno da stigne tamo gde želi.
Ipak, kretanje kroz složeni fizički svet samo je polovina priče. Razumevanje onoga što je na ekranu može biti dvostruko teže za osobu koja ne vidi. Čitači ekrana, ugrađeni u većinu savremenih operativnih sistema, čitaju delove veb stranice ili desktop aplikacije red po red, odeljka po odeljka, izgovarajući svaku reč. Slike, srž komunikacije na vebu, mogu biti još gore.
Ipak, Henriksen kaže da sada mogu da pokažu GPT‑4 veb stranicu i sistem zna — nakon bezbroj sati obuke tokom kojih algoritmi za duboko učenje grade odnose kako bi razumeli „važan“ deo veb stranice — koji deo da pročita ili sažme. To ne samo da može da pojednostavi zadatke poput čitanja vesti na mreži, već ljudima kojima je potrebna vizuelna pomoć daje pristup nekim od najpretrpanijih stranica na vebu: sajtovima za kupovinu i e-trgovinu. GPT‑4 može da sažme rezultate pretrage onako kako ih videće osobe prirodno pregledaju — ne čitajući svaki najsitniji detalj, već skačući između važnih informacija — i da u realnom vremenu pomogne onima kojima je potrebna podrška pri gledanju da obave pravu kupovinu.
„Ovo je fantastičan razvoj za čovečanstvo“, kaže Buckley, „ali predstavlja i ogromnu komercijalnu priliku.“


