

Desde el 2012, Be My Eyes ha creado tecnología para la comunidad de más de 250 millones de personas ciegas o con visión deficiente. La startup danesa conecta a personas ciegas o con visión deficiente con voluntarios para ayudarlos con cientos de tareas de la vida diaria, como identificar un producto o navegar un aeropuerto.
Con la nueva capacidad de entrada visual de GPT‑4 (en fase de investigación preliminar), Be My Eyes empezó a desarrollar su Virtual Volunteer™ impulsado con GPT‑4 dentro de la aplicación de Be My Eyes que puede generar el mismo nivel de contexto y comprensión que un voluntario humano.
“En el corto tiempo que hemos tenido acceso, hemos visto un desempeño incomparable con cualquier herramienta de reconocimiento de objetos de imagen a texto disponible en el mercado ―afirmó Michael Buckley, director general de Be My Eyes―. Las implicaciones para la accesibilidad global son profundas. En el futuro no muy lejano, la comunidad de personas ciegas y con visión deficiente utilizarán estas herramientas no solo para sus necesidades de interpretación visual, sino también para tener un mayor grado de independencia en sus vidas”.
Como ejemplo si una persona envía una fotografía del contenido de su refrigerador, la tecnología de GPT‑4 no solo reconoce y nombra lo que hay allí dentro, sino que lo extrapola y analiza lo que puedes preparar con esos ingredientes. Después podrías pedirle una buena receta. Los casos de uso son prácticamente ilimitados.
“Esto cambia las reglas del juego ―comentó Buckley―. En última instancia, no importa lo que el usuario quiera o necesite, puede dar una nueva indicación a la herramienta para obtener más información que sea útil, beneficiosa y de ayuda, casi al instante”.
A principios de febrero, la empresa empezó con las pruebas beta del asistente respaldado por GPT con un pequeño grupo de empleados. Los resultados de estas pruebas han sido tan positivos que la función estará en manos de los usuarios en cuestión de semanas.
“Existe un increíble potencial para nuestra comunidad ―afirmó Buckley―. A nuestros probadores beta, incluida Lucy Edwards, les encanta el resultado”.
Las diferencias entre GPT‑4 y otros lenguajes y modelos de aprendizaje automático son tanto la capacidad de tener una conversación como el mayor grado de destreza analítica que ofrece la tecnología, explicó Jesper Hvirring Henriksen, director de Tecnología de Be My Eyes. “Las aplicaciones básicas de reconocimiento de imágenes solo te dicen lo que está frente a ti ―afirmó―. No pueden tener una discusión para entender si los fideos tienen los ingredientes correctos o si el objeto en el piso no es tan solo una pelota, o si es un peligro de tropiezo, y comunicarlo”.
“Las diferencias entre GPT-4 y otros lenguajes y modelos de aprendizaje automático son tanto la capacidad de tener una conversación como el mayor grado de destreza analítica que ofrece la tecnología”.
La empresa ya tiene un caso en el que un usuario fue capaz de navegar el sistema de ferrocarril (considerada una tarea imposible incluso para las personas sin problemas de visión). Esta persona no solo obtuvo los detalles acerca de dónde estaba ubicada en el mapa, sino también las instrucciones paso por paso sobre cómo llegar a su destino de forma segura.
Sin embargo, recorrer el complicado mundo físico es solo la mitad de la historia. Comprender qué hay en una pantalla puede ser el doble de difícil para una persona sin el sentido de la vista. Los lectores de pantalla, integrados en la mayoría de los sistemas operativos modernos, leen las partes de una página web o una aplicación de una computadora de escritorio línea por línea, sección por sección, diciendo cada palabra. Las imágenes, que son el corazón de la comunicación en Internet, pueden ser incluso peores.
Sin embargo, Henriksen afirma que ahora son capaces de mostrar a GPT‑4 una página web y el sistema sabe qué parte leer o resumir. Esto después de innumerables horas de entrenamiento donde los algoritmos de aprendizaje profundo construyen relaciones para comprender la parte “importante” de una página web. Esto no solo puede simplificar las tareas como leer las noticias en línea, sino que da acceso a las personas que necesitan ayuda visual en algunas de las páginas más saturadas en el Internet: los sitios de compras y comercio electrónico. GPT‑4 es capaz de resumir los resultados de búsqueda de la misma manera que una persona vidente los examina de forma natural, no leyendo cada pequeño detalle sino pasando de un punto importante a otro. Además, ayuda a aquellos que necesitan apoyo visual a hacer la compra correcta, en tiempo real.
“Es un desarrollo fantástico para la humanidad ―comentó Buckley―, pero también representa una enorme oportunidad comercial”.


