

Be My Eyes lleva desde 2012 desarrollando tecnología para la comunidad de más de 250 millones de personas invidentes o con problemas de visión. Esta startup danesa conecta a personas invidentes o con deficiencia visual con voluntarios para ayudarlos con cientos de tareas de su día a día, como identificar un producto u orientarse en un aeropuerto.
Gracias a la nueva capacidad de interpretación visual de GPT‑4 (actualmente, en fase de investigación), Be My Eyes empezó a desarrollar su Virtual Volunteer™ asistido por GPT‑4 en el marco de la aplicación de Be My Eyes, que puede generar el mismo nivel de contexto y comprensión que un voluntario humano.
«En el poco tiempo que lo hemos probado, hemos tenido resultados infinitamente mejores que con los de cualquier otra herramienta de reconocimiento de objetos de imagen a texto del mercado», asegura Michael Buckley, CEO de Be My Eyes. «Las implicaciones para la accesibilidad mundial son inabarcables. En un futuro no muy lejano, las personas invidentes y con deficiencia visual usarán este tipo de herramientas no solo para la interpretación visual, sino para conseguir más independencia en su vida».
Imaginemos que alguien envía una foto de su nevera. La tecnología de GPT‑4 no solo es capaz de reconocer y nombrar los alimentos, sino también de extrapolar la información y analizar lo que podríamos preparar con esos ingredientes. Podríamos pedirle una buena receta. Las aplicaciones son casi infinitas.
«Es algo revolucionario», admite Buckley. «En última instancia, independientemente de lo que quiera o necesite el usuario, puede dar nuevas instrucciones a la herramienta para obtener más información que sea útil y relevante casi al instante».
A principios de febrero, la empresa empezó las pruebas beta del asistente asistido por GPT con un pequeño grupo de empleados; los resultados han sido tan prometedores que la función estará en manos de los usuarios en cuestión de semanas.
«Tiene un potencial increíble para nuestra comunidad», asegura Buckley. «Nuestros beta testers, como Lucy Edwards, están satisfechos con los resultados que han obtenido hasta el momento».
«Lo que diferencia a GPT‑4 de otros modelos de lenguaje y aprendizaje automático es tanto su capacidad de tener una conversación como el nivel superior de destreza analítica que ofrece esta tecnología», explica Jesper Hvirring Henriksen, director de Tecnología de Be My Eyes. «Las aplicaciones básicas de reconocimiento de imágenes solo te dicen lo que tienes enfrente», comenta. «No pueden saber si los fideos se han preparado con los ingredientes adecuados o si el objeto del suelo, además de ser una pelota, supone un peligro de tropiezo. Y mucho menos comunicarlo».
«Lo que diferencia a GPT-4 de otros modelos de lenguaje y aprendizaje automático es tanto su capacidad de mantener una conversación como el nivel superior de destreza analítica que ofrece esta tecnología».
La empresa ya acumula un caso de éxito en el que un usuario fue capaz de orientarse en una estación de tren, algo de por sí complicado para las personas sin problemas de visión. No solo consiguió averiguar en qué punto del mapa se encontraba, sino recibir indicaciones detalladas para llegar a su destino con seguridad.
Sin embargo, recorrer el mundo físico es solo la mitad del problema. Saber qué pone en una pantalla puede ser el doble de complicado para una persona invidente. Los lectores de pantalla, integrados en la mayoría de los sistemas operativos actuales, leen los sitios web o las aplicaciones línea por línea, sección por sección y palabra por palabra. Interpretar las imágenes, que constituyen la base de la comunicación en Internet, puede ser incluso peor.
No obstante, Henriksen explica que ahora, tras mostrar a GPT‑4 una página web, el sistema sabe (tras innumerables horas de entrenamiento donde los algoritmos de aprendizaje profundo entablan relaciones para entender cuál es la parte «importante» de una página web) qué partes leer o resumir. Esto no solo simplifica actividades tan básicas como leer las noticias por internet, sino que da acceso a las personas que necesitan asistencia a las páginas más concurridas de Internet, como las webs de compras y el comercio electrónico. GPT‑4 es capaz de resumir los resultados de búsqueda de la misma forma que una persona vidente los analizaría de forma natural; no leyendo cada detalle, sino pasando de un punto importante a otro. También ayuda a las personas invidentes y con deficiencia visual a hacer la compra en tiempo real.
«Es un avance increíble para la humanidad», asegura Buckley, «pero también supone una enorme oportunidad de negocio».


