Gobierno de Islandia


Islandia es un país insular ubicado en medio del Atlántico Norte que cuenta con un sector tecnológico activo y un sector turístico en auge. Si bien la mayoría de sus 370 000 habitantes habla inglés u otro idioma extranjero, su integración con los Estados Unidos y Europa ha puesto a su lengua propia, el islandés, en una situación de riesgo. De hecho, actualmente existe un debate sobre la posible desaparición(se abre en una ventana nueva) del idioma en los próximos años, ya que la rápida digitalización del país podría provocar que el islandés dejase de ser su «lengua por defecto».
El pueblo islandés aprecia su idioma por su rica historia y por ser una seña de identidad del país. Tal es así que el gobierno mantiene un departamento de planificación lingüística(se abre en una ventana nueva) que acuña términos para conceptos nuevos en lugar de utilizar préstamos de otras lenguas. Por ejemplo, «ordenador» en islandés es tölva (’profetisa de los números’). Gracias a labores como esta, el idioma conserva su carácter singular(se abre en una ventana nueva) y sigue siendo fiel a sus raíces, arraigadas en el nórdico antiguo.
El presidente del país, HE Guðni Th. Jóhannesson, presentó con la ayuda del sector privado una iniciativa(se abre en una ventana nueva) en colaboración con OpenAI para emplear GPT‑4 en las actividades de preservación del islandés. ¿El objetivo? Convertir una situación desfavorable en una oportunidad para innovar.
Esta propuesta no solo sirve para mejorar el servicio de GPT‑4 en un país más; también supone la creación de medios que podrían emplearse para ayudar a conservar otros idiomas con pocos recursos.
«Esta propuesta no solo sirve para mejorar el servicio de GPT-4 en un país más; también supone la creación de recursos que podrían emplearse para ayudar a conservar otros idiomas con pocos recursos».
«Queremos asegurarnos de que la inteligencia artificial no se use únicamente para preservar el idioma, la cultura y la historia. El objetivo es que también sirva para impulsar la economía del país», comenta Jóhanna Vigdís Guðmundsdóttir, directora general de Almannarómur(se abre en una ventana nueva), un centro tecnológico lingüístico sin ánimo de lucro. «El islandés es un caso peculiar», dice, «pero esta es una oportunidad única para convertirnos en una referencia para otros idiomas generalmente olvidados por la industria lingüística, crear un panorama igualitario y facilitar el acceso a la IA a muchos más lugares. No basta con recopilar datos y desarrollar un software exclusivo en islandés; tenemos que hacer que nuestro idioma se incluya en los programas y las aplicaciones que la gente usa en su día a día».
Los modelos GPT de OpenAI se entrenan con colecciones de textos sacados de internet, por lo que la mayoría de los corpus de entrenamiento están en inglés y otros idiomas mayoritarios. Esto significa que la capacidad de comprensión y generación de GPT en lenguas minoritarias no es tan alta. Si bien los modelos se han mejorado a lo largo del tiempo, aún no son capaces de traducir al islandés de forma correcta y clara.

Junta directiva de Almannarómur.
Prompt: Hvað heitir Donald Duck á íslensku? (¿Cómo se llama el Pato Donald en Islandia?).
Respuesta de GPT‑3:Donald Duck heitir á íslensku Donaldi Kjáni (El Pato Donald se llama Donaldi el Zopenco en islandés). - Incorrecto
Respuesta de ChatGPT: Donald Duck heitir sama nafni á íslensku og ensku (El Pato Donald se llama igual en inglés e islandés). - Incorrecto
Respuesta de GPT‑4: Donald Duck heitir Andrés Önd á íslensku (El Pato Donald se llama Andrés Önd en islandés). - Correcto
Incluso GPT‑4, que tiene un nivel de islandés mucho mejor que GPT‑3.5, genera contenido gramaticalmente incorrecto, que parece haber sido traducido y con referencias culturales erróneas. Para solucionarlo, Vilhjálmur Þorsteinsson, director ejecutivo de Miðeind ehf(se abre en una ventana nueva), una empresa dedicada al procesamiento del lenguaje natural, formó un equipo de cuarenta voluntarios para entrenar a GPT‑4 y enseñarle sobre la gramática y la cultura islandesas.
Mediante un proceso de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés), las personas que participaban en el proyecto introducían un prompt en GPT‑4, que a su vez daba cuatro posibles respuestas. Luego, los entrenadores elegían la mejor respuesta y la editaban para hacerla perfecta. Los datos de este proceso se usaron para seguir entrenado a GPT‑4 y enseñarle a producir respuestas más precisas.
Antes del RLHF, el proceso de optimizar un modelo requería mucho esfuerzo y una gran cantidad de datos. De hecho, el equipo de Þorsteinsson intentó entrenar al modelo GPT‑3 con 300 000 ejemplos en islandés, pero los resultados fueron decepcionantes.
«Con GPT-3 era imposible generar un texto en islandés correcto y sin errores gramaticales».
«Ahora podemos aprovechar directamente la capacidad de los últimos modelos», comenta Þorsteinsson. «Así, podemos habilitar cosas en nuestro idioma que antes requerían mucho trabajo manual, preparar datos y recopilar recursos para cada caso». Gracias al RLHF se consiguen buenos resultados con tan solo 100 ejemplos, lo que hace que sea mucho más factible replicar el proceso con idiomas con pocos recursos y con menos datos digitalizados.
Cualquier modelo de lenguaje, dependiendo de la magnitud y la calidad de su entrenamiento con datos, puede desempeñar una serie de tareas. Los modelos más sencillos están pensados para las más simples, como analizar el sentimiento de un tuit o identificar nombres de empresas. Sin embargo, los modelos más complejos pueden hacer varias tareas a la vez, trabajar con conceptos abstractos e identificar contextos sociales y del entorno, así como mostrar cierto nivel de creatividad. Por ejemplo, GPT‑4 puede generar un poema sobre las extravagancias de la vida moderna replicando el estilo del Völuspá(se abre en una ventana nueva), un poema islandés de la Edda poética(se abre en una ventana nueva) de la mitología nórdica.

El equipo de investigadores de IA de Miðeind ha trabajado en el entrenamiento de GPT‑4 en islandés.
GPT‑4 da un respuesta diferente a la misma pregunta según el idioma en el que le escribas.
Prompt (islandés): Hvað sitja margir á þingi?
Respuesta: Á Alþingi, sem er lögþing Íslands, sitja 63 þingmenn (Alþingi, que es el parlamento islandés, tiene 63 miembros).
Prompt (inglés): How many parliamentarians are there? (¿Cuántos miembros forman el parlamento?).
Respuesta: It depends on which country you are referring to. For example: / • In the United Kingdom, the Parliament has 650 members in the House of Commons and approximately 800 members in the House of Lords. / • In Canada, there are 338 members of Parliament in the House of Commons and 105 senators in the Senate. / • In India, there are 545 members in the Lok Sabha (House of the People) and 245 members in the Rajya Sabha (Council of States). / • In Australia, there are 151 members of the House of Representatives and 76 senators in the Senate (Depende del país. Por ejemplo: / • En el Reino Unido, el parlamento cuenta con 650 miembros en la Cámara de los Comunes y aproximadamente 800 miembros en la Cámara de los Lores. / • En Canadá, hay 338 miembros en la Cámara de los Comunes del Parlamento y 105 senadores en el Senado. / • En la India, la Lok Sabha [la cámara baja] está conformada por 545 miembros, mientras que la Rajya Sabha [la cámara alta] está conformada por 245. / • En Australia, en la Cámara de Representantes hay 151 miembros y 76 senadores en el Senado).
Prompt (islandés): Hver er forseti núna?
Respuesta: Forseti Íslands núna (2021) er Guðni Th. Jóhannesson (El actual presidente de Islandia [2021] es Guðni Th. Jóhannesson).
Prompt (inglés): Who is president now? (¿Quién es el presidente actualmente?).
Respuesta: As of 2021, the President of the United States is Joe Biden (En 2021, el presidente de los Estados Unidos es Joe Biden).
Con tan solo una ronda de RLHF, todavía queda mucho por hacer, y esto es trabajo del equipo islandés. El grupo de especialistas tendrá que seguir entrenando a GPT‑4 con más ejemplos hasta que el modelo pueda utilizarse en tareas complejas y creativas en islandés sin depender del inglés. De esta forma, las empresas islandesas podrán utilizar una versión «autóctona» de GPT‑4 en ámbitos interactivos.
Prompt: Er það algengt að íslensk börn séu látin sofa úti í vagni? (¿Es habitual que se ponga a dormir a los bebés fuera en Islandia?).
Respuesta: Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.
Respuesta con gramática y ortografía corregidas: Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum (Sí, es habitual que se ponga a dormir a los bebés fuera en Islandia, especialmente durante la primavera y el verano. Muchos padres opinan que el aire del exterior y el viento fresco son beneficiosos para los bebés. Además, habitualmente, los bebés están más calmados si se duermen fuera. Es importante tener en cuenta el tiempo y la temperatura para que el bebé lleve la ropa adecuada).
El equipo de Þorsteinsson no solo habrá entrenado al modelo más potente del mundo en islandés; también habrá hecho posible que un país entero pueda interactuar con los modelos de OpenAI en su propio idioma. De este modo, Embla, el asistente de voz de Miðeind, podrá tener conversaciones fluidas en islandés y traducir a otros idiomas sirviéndose de GPT‑4. Además, las empresas del país ya no tendrán que depender de un chatbot inglés en sus sitios web, ya que podrán utilizar uno que domine el islandés.
«Estamos entusiasmados por ver el impacto de nuestro trabajo en el modelo más potente y muy contentos de que OpenAI nos ayude a proteger el islandés en la era digital».


