Gobierno de Islandia


Islandia, una nación insular en medio del Atlántico norte, tiene una industria tecnológica dinámica y un turismo en crecimiento. Sin embargo, aunque la mayoría de sus aproximadamente 370,000 ciudadanos hablan inglés u otro segundo idioma, su integración con los Estados Unidos y Europa ha puesto en riesgo el idioma nativo del país, el islandés. Hoy en día existe la creciente preocupación de que si el islandés no sigue siendo la lengua predeterminada del país frente a la rápida digitalización, la lengua podría enfrentarse a una extinción de facto(se abre en una nueva ventana) en algunas generaciones.
Los islandeses valoran su idioma por su rica herencia cultural y su conexión con la identidad de la nación. El gobierno del país tiene un Departamento de Planificación del Idioma(se abre en una nueva ventana) que define nuevos términos en islandés para nuevas ideas, en lugar de adoptar las llamadas “palabras prestadas” de otros idiomas. Por ejemplo, una computadora es una tölva (“profetisa de los números”). Mediante estos esfuerzos, el idioma preserva su carácter particular(se abre en una nueva ventana) y sigue conectado estrechamente con sus raíces nórdicas antiguas.
Bajo la iniciativa(se abre en una nueva ventana) del presidente del país, Guðni Th. Jóhannesson, y con ayuda de la industria privada, Islandia se alió con OpenAI para utilizar GPT‑4 en el esfuerzo de preservación del idioma islandés, y convertir una posición defensiva en una oportunidad para innovar.
La alianza se concibió no solo como una manera de impulsar la capacidad de GPT‑4 para ofrecer sus servicios en una nueva región del mundo, sino también como un paso hacia la generación de recursos que podrían servir para promover la preservación de otros idiomas con pocos recursos.
“La alianza se concibió no solo como una manera de impulsar la capacidad de GPT-4 para ofrecer sus servicios en una nueva región del mundo, sino también como un paso hacia la generación de recursos que podrían servir para promover la preservación de otros idiomas con pocos recursos”.
“Queremos asegurar que la inteligencia artificial se utilizará no solo para preservar el idioma, la cultura y la historia, sino también para apoyar la prosperidad económica”, mencionó Jóhanna Vigdís Guðmundsdóttir, directora general de Almannarómur(se abre en una nueva ventana), un centro tecnológico lingüístico sin fines de lucro. “El islandés es un caso un poco peculiar ―afirmó―, pero vimos la oportunidad de convertirnos en pioneros para otros idiomas de nicho, ayudar a crear una igualdad de condiciones y evitar una «brecha de IA». No es suficiente recopilar datos y desarrollar software localmente para el islandés; tenemos que incorporar nuestro idioma en el software y las aplicaciones que las personas usan todos los días”.
Los modelos GPT de OpenAI están entrenados en enormes cantidades de texto en el Internet. Por lo tanto, la mayoría del conjunto de entrenamiento del modelo está en inglés y otros idiomas importantes, lo que significa que GPT no tiene las mismas capacidades o alcance de comprensión en idiomas más pequeños. Los modelos han mejorado con el tiempo, pero no producen traducciones claras y correctas al islandés de forma consistente.

Consejo de Almannarómur.
Prompt Hvað heitir Donald Duck á íslensku? (¿Cómo se llama el Pato Donald en islandés?)
Completion de GPT‑3 Donald Duck heitir á íslensku Donaldi Kjáni (Al Pato Donald se le llama Donaldi el Tonto islandés) Incorrecta
Completion de ChatGPT Donald Duck heitir sama nafni á íslensku og ensku (El Pato Donald tiene el mismo nombre en islandés y en inglés) Incorrecta
Completion de GPT‑4 Donald Duck heitir Andrés Önd á íslensku (El Pato Donald se llama Andrés Önd en islandés) Correcta
Incluso GPT‑4, que aunque es mucho mejor en el islandés que GPT‑3.5, produce el idioma con errores gramaticales, “traduccionismos” y conocimientos culturales incorrectos. Para cambiar esto, Vilhjálmur Þorsteinsson, director ejecutivo en Miðeind ehf(se abre en una nueva ventana), una empresa tecnológica lingüística involucrada en la iniciativa, integró un equipo de 40 voluntarios para entrenar a GPT‑4 en gramática y conocimiento cultural islandés correctos.
En un proceso llamado aprendizaje reforzado a partir de retroalimentación humana (RLHF), los evaluadores humanos dan una instrucción (prompt) a GPT‑4 y se generan cuatro posibles respuestas (completions). Los evaluadores seleccionan la mejor respuesta de las cuatro y la editan para crear una respuesta ideal. Los datos de este proceso después se utilizan para entrenar aún más a GPT‑4 para que genere mejores respuestas en el futuro.
Antes del RLHF, el proceso de ajuste fino de un modelo requería de mucha mano de obra y datos. El equipo de Þorsteinsson trató de realizar un ajuste fino de un modelo de GPT‑3 con 300 000 ejemplos en idioma islandés, pero los resultados fueron decepcionantes.
“La capacidad para generar islandés gramaticalmente correcto simplemente no existía con GPT-3”.
“Ahora podemos entrar directamente a las capacidades generales de los modelos de gran tamaño y habilitar funciones con nuestro idioma que solían requerir mucho trabajo manual, preparación de datos y recopilación de recursos para cada caso de uso”, mencionó Þorsteinsson. El RLHF produce resultados con solo 100 ejemplos, lo que lo hace más factible para otros idiomas de pocos recursos, con menos datos disponibles en lenguaje digital, para replicar el proceso.
Cualquier modelo de lenguaje, dependiendo de la solidez y amplitud de su entrenamiento de datos, tiene una escala de tareas que puede realizar. Los modelos de lenguaje simples están limitados a tareas sencillas, como evaluar el sentimiento de un tweet o identificar nombres de empresas. Los modelos más complejos pueden realizar varias tareas a la vez, pueden trabajar con conceptos abstractos, considerar contextos sociales y ambientales e incluso tener cierto grado de creatividad. Por ejemplo, GPT‑4 puede generar un poema sobre los altibajos de la vida moderna al estilo de Völuspá(se abre en una nueva ventana), un poema islandés antiguo de la Edda Poética(se abre en una nueva ventana) de la mitología nórdica.

El equipo de investigadores de Miðeind ha trabajado en el entrenamiento de GPT‑4 en islandés.
GPT‑4 genera una respuesta diferente a la misma pregunta dependiendo el idioma en que preguntes.
Prompt (islandés) Hvað sitja margir á þingi?
Completion Á Alþingi, sem er lögþing Íslands, sitja 63 þingmenn. (En Alþingi, que es el parlamento de Islandia, hay 63 parlamentarios).
Prompt (inglés) How many parliamentarians are there? (¿Cuántos parlamentarios hay?)
Completion It depends on which country you are referring to. For example: / • In the United Kingdom, the Parliament has 650 members in the House of Commons and approximately 800 members in the House of Lords. / • In Canada, there are 338 members of Parliament in the House of Commons and 105 senators in the Senate. / • In India, there are 545 members in the Lok Sabha (House of the People) and 245 members in the Rajya Sabha (Council of States). / • In Australia, there are 151 members of the House of Representatives and 76 senators in the Senate. (Depende del país al que te refieras. Por ejemplo: / • En el Reino Unido, el Parlamento tiene 650 miembros en la Cámara de los Comunes y aproximadamente 800 miembros en la Cámara de los Lores. / • En Canadá, hay 338 miembros del Parlamento en la Cámara de los Comunes y 105 senadores en el Senado. / • En India, hay 545 miembros en el Lok Sabha (Parlamento) y 245 miembros en el Rajya Sabha (Consejo de Estados). / • En Australia, hay 151 miembros de la Cámara de Representantes y 76 senadores en el Senado.)
Prompt (islandés)Hver er forseti núna?
Completion Forseti Íslands núna (2021) er Guðni Th. Jóhannesson. (El presidente actual de Islandia (2021) es Guðni Th. Jóhannesson).
Prompt (inglés)Who is president now? (¿Quién es el presidente actual?)
CompletionAs of 2021, the President of the United States is Joe Biden. (Al 2021, el Presidente de los Estados Unidos es Joe Biden).
Con una ronda de RLHF terminada, el modelo todavía tiene un margen de mejora. Este es el trabajo continuo para el equipo de Islandia: seguir entrenando a GPT‑4 con suficientes ejemplos para que el modelo pueda impulsar las aplicaciones más complejas y creativas en islandés, en lugar de recurrir al inglés por defecto. De esta forma, las empresas islandesas pronto podrán desplegar GPT‑4 en islandés en sus aplicaciones interactivas.
Prompt Er það algengt að íslensk börn séu látin sofa úti í vagni? (¿Es común que los bebés islandeses duerman una siesta en el exterior en una carriola?)
Completion Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.
Completion corregida para gramática y ortografía Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum. (Sí, es común que los bebés islandeses tomen una siesta en el exterior en una carriola, especialmente en la primavera y el verano. Muchos padres piensan que el aire y el viento fresco y limpio son buenos para los bebés y, además, que generalmente están más calmados cuando se quedan dormidos afuera. Lo mejor es prestar atención al clima y la temperatura y asegurar que el bebé esté lo suficientemente vestido según las circunstancias.)
El equipo de Þorsteinsson no solo habrá entrenado al motor de lenguaje más poderoso del mundo en su idioma, sino que también le habrán dado a un país completo la oportunidad de interactuar con los modelos de OpenAI en su propio idioma. Así, con el uso de GPT‑4 como backend, Embla (la aplicación de asistente de voz de Miðeind) podrá tener conversaciones con los usuarios en islandés fluido, así como ofrecer traducciones a otros idiomas. Otro ejemplo es que las empresas islandesas no tendrán que depender de un chatbot en inglés en su sitio web, sino que pueden tener uno en islandés.
“Estamos emocionados por el impacto de nuestro trabajo en el modelo general, y felices de tener el apoyo de OpenAI para ayudar al idioma islandés a sobrevivir en una era digital”.


