Salta al contingut principal
OpenAI

Be My Eyes

Be My Eyes utilitza GPT‑4 per transformar l’accessibilitat visual.

Be My Eyes
S'està carregant…
BeMyEyes

Des del 2012, Be My Eyes crea tecnologia per a la comunitat de més de 250 milions de persones cegues o amb baixa visió. La startup danesa connecta persones cegues o amb baixa visió amb voluntaris perquè les ajudin amb centenars de tasques de la vida diària, com ara identificar un producte o orientar-se en un aeroport.

Amb la nova capacitat d’entrada visual de GPT‑4 (en vista prèvia de recerca), Be My Eyes va començar a desenvolupar un Voluntari Virtual™ impulsat per GPT‑4 dins de l’app Be My Eyes que pot generar el mateix nivell de context i comprensió que un voluntari humà.

«En el poc temps que hi hem tingut accés, hem vist un rendiment inigualable al de qualsevol eina de reconeixement d’objectes d’imatge a text que hi hagi», diu Michael Buckley, CEO de Be My Eyes. «Les implicacions per a l’accessibilitat global són profundes. En un futur no gaire llunyà, la comunitat de persones cegues i amb baixa visió utilitzarà aquestes eines no només per a moltes necessitats d’interpretació visual, sinó també per tenir un grau més alt d’independència a les seves vides.»  

De sobte, la imatge que algú envia de, posem per cas, el contingut de la seva nevera, la tecnologia GPT‑4 no només reconeix i anomena què hi ha dins, sinó que extrapola i analitza què pots preparar amb aquests ingredients. Després li podries demanar una bona recepta. Els casos d’ús són gairebé il·limitats.

«Això canvia les regles del joc», diu Buckley. «En última instància, sigui el que sigui que l’usuari vulgui o necessiti, pot tornar a fer una indicació a l’eina per obtenir més informació útil i beneficiosa, gairebé a l’instant.»

A principis de febrer, l’empresa va començar a provar en beta l’assistent basat en GPT amb un grup reduït d’empleats; els resultats han estat tan positius que la funcionalitat arribarà als usuaris en qüestió de setmanes.

«Hi ha un potencial senzillament increïble per a la nostra comunitat», diu Buckley. «Als nostres beta testers, inclosa Lucy Edwards, ja els encanta el que això fa.»

La diferència entre GPT‑4 i altres models de llenguatge i d’aprenentatge automàtic, explica Jesper Hvirring Henriksen, CTO de Be My Eyes, és tant la capacitat de mantenir una conversa com el major grau de capacitat analítica que ofereix la tecnologia. «Les aplicacions bàsiques de reconeixement d’imatges només et diuen què tens al davant», diu. «No poden mantenir una conversa per entendre si els fideus tenen el tipus d’ingredients adequat o si l’objecte a terra no és només una pilota, sinó un perill d’ensopegada, i comunicar-ho.»

«La diferència entre GPT-4 i altres models de llenguatge i d’aprenentatge automàtic és tant la capacitat de mantenir una conversa com el major grau de capacitat analítica que ofereix la tecnologia.»
Jesper Hvirring Henriksen, CTO de Be My Eyes

L’empresa ja té un cas en què un usuari va poder desplaçar-se pel sistema ferroviari —sens dubte una tasca impossible també per a les persones vidents— obtenint no només detalls sobre on es trobava en un mapa, sinó també instruccions punt per punt sobre com arribar amb seguretat on volia anar.

Tanmateix, recórrer el complicat món físic és només la meitat de la història. Entendre què hi ha en una pantalla pot ser el doble de feixuc per a una persona que no hi veu. Els lectors de pantalla, integrats a la majoria dels sistemes operatius moderns, llegeixen les parts d’una pàgina web o d’una aplicació d’escriptori línia per línia, secció per secció, pronunciant cada paraula. Les imatges, el cor de la comunicació al web, poden ser encara pitjors. 

Tot i això, Henriksen diu que ara poden mostrar a GPT‑4 la pàgina web i el sistema sap —després d’innombrables hores d’entrenament en què els algorismes d’aprenentatge profund estableixen relacions per entendre la part «important» d’una pàgina web— quina part ha de llegir o resumir. Això no només pot simplificar tasques com llegir les notícies en línia, sinó que dona a les persones que necessiten assistència visual accés a algunes de les pàgines més carregades del web: llocs de compres i comerç electrònic. GPT‑4 és capaç de resumir els resultats de cerca de la manera com les persones vidents els escanegen de manera natural —sense llegir cada detall minúscul, sinó saltant entre els punts de dades importants— i ajudar les persones que necessiten suport visual a fer la compra correcta, en temps real.

«Això és un desenvolupament fantàstic per a la humanitat», diu Buckley, «però també representa una oportunitat comercial enorme.»

T’interessa saber més sobre ChatGPT per a empreses?