Salta al contingut principal
OpenAI

Government of Iceland

Iceland Scenery
S'està carregant…
Una fotografia d’un cotxe circulant per una carretera estreta flanquejada per aigua a banda i banda, amb muntanyes nevades al fons sota un cel serè.

Islàndia, una nació insular al mig de l’Atlàntic Nord, té una indústria tecnològica vibrant i un turisme en auge. Tot i això, encara que la majoria dels seus aproximadament 370.000 ciutadans parlen anglès o una altra segona llengua, la seva integració amb els Estats Units i Europa ha posat en risc la llengua nativa del país, l’islandès. Avui hi ha una preocupació creixent que d’aquí a unes quantes generacions, si l’islandès no pot continuar sent la llengua per defecte del país davant la ràpida digitalització, la llengua pugui patir una extinció de facto(s'obre en una finestra nova).

Els islandesos valoren la seva llengua pel seu ric patrimoni cultural i la seva connexió amb la identitat nacional. El govern del país manté un Departament de Planificació Lingüística(s'obre en una finestra nova) que encunya termes islandesos per a idees noves, en lloc d’adoptar els anomenats «manlleus» d’altres llengües. Un ordinador, per exemple, és una tölva («profetessa dels nombres»). Gràcies a aquests esforços, la llengua preserva el seu caràcter distintiu(s'obre en una finestra nova) i manté una connexió estreta amb les seves arrels en nòrdic antic.

Per iniciativa(s'obre en una finestra nova) del president del país, S. E. Guðni Th. Jóhannesson, i amb l’ajuda del sector privat, Islàndia s’ha associat amb OpenAI per utilitzar GPT‑4 en l’esforç de preservació de la llengua islandesa i per convertir una posició defensiva en una oportunitat per innovar.

La col·laboració es va concebre no només com una manera de reforçar la capacitat de GPT‑4 per donar servei a un nou racó del món, sinó també com un pas cap a la creació de recursos que poguessin servir per promoure la preservació d’altres llengües amb pocs recursos.

«La col·laboració es va concebre no només com una manera de reforçar la capacitat de GPT-4 per donar servei a un nou racó del món, sinó també com un pas cap a la creació de recursos que poguessin servir per promoure la preservació d’altres llengües amb pocs recursos.»

«Volem assegurar-nos que la intel·ligència artificial s’utilitzarà no només per ajudar a preservar la llengua, la cultura i la història, sinó també per sustentar la prosperitat econòmica», diu Jóhanna Vigdís Guðmundsdóttir, consellera delegada d’Almannarómur(s'obre en una finestra nova), un centre sense ànim de lucre de tecnologia lingüística. «L’islandès és un cas una mica peculiar», admet, «però vam veure l’oportunitat de convertir-nos en pioners per a altres llengües de cua llarga, ajudar a crear unes condicions de competència equitatives i evitar una “bretxa de la IA”. No n’hi ha prou de recopilar dades i crear programari localment per a l’islandès; hem d’introduir la nostra llengua en el programari i les aplicacions que la gent utilitza cada dia.»

Els models GPT d’OpenAI s’entrenen amb quantitats enormes de text a internet. En conseqüència, la major part del conjunt d’entrenament del model és en anglès i altres llengües principals, cosa que significa que GPT no té les mateixes capacitats ni la mateixa amplitud de comprensió en llengües més petites. Els models han millorat amb el temps, però no produeixen de manera consistent traduccions clares i correctes a l’islandès.

Stjorn Almannaroms

The board of Almannarómur.

Anglès a islandès

IndicacióHvað heitir Donald Duck á íslensku?Com es diu Donald Duck en islandès?

Resposta de GPT‑3Donald Duck heitir á íslensku Donaldi KjániDonald Duck es diu en islandès Donaldi el BoigIncorrecte

Resposta de ChatGPTDonald Duck heitir sama nafni á íslensku og enskuDonald Duck té el mateix nom en islandès i en anglèsIncorrecte

Resposta de GPT‑4Donald Duck heitir Andrés Önd á íslenskuDonald Duck es diu Andrés Önd en islandèsCorrecte

Fins i tot GPT‑4, tot i que és molt millor en islandès que GPT‑3.5, produeix islandès amb errors gramaticals, «traduccionès» i coneixements culturals incorrectes. Per canviar-ho, Vilhjálmur Þorsteinsson, director executiu de Miðeind ehf(s'obre en una finestra nova), una empresa de tecnologia lingüística implicada en la iniciativa, va reunir un equip de 40 voluntaris per entrenar GPT‑4 en gramàtica islandesa correcta i coneixements culturals. 

En un procés anomenat aprenentatge per reforç a partir de la retroacció humana, o RLHF, els avaluadors humans donen a GPT‑4 una indicació, i es generen quatre possibles respostes. Després, els avaluadors seleccionen la millor resposta d’entre les quatre i l’editen per crear una resposta ideal. Les dades d’aquest procés s’utilitzen després per continuar entrenant GPT‑4 perquè produeixi millors respostes en el futur.

Abans de l’RLHF, el procés d’ajust fi d’un model requeria molta mà d’obra i moltes dades. L’equip de Þorsteinsson va intentar ajustar un model GPT‑3 amb 300.000 exemples en llengua islandesa, però els resultats van ser decebedors.

«La capacitat de generar islandès gramatical o correcte simplement no existia amb GPT-3.»
Vilhjálmur Þorsteinsson, director executiu, Miðeind ehf

«Ara podem passar directament a les capacitats generals dels grans models», diu Þorsteinsson, «i fer possibles amb la nostra llengua coses que abans requerien molta feina manual, preparació de dades i recopilació de recursos per a cada cas d’ús». L’RLHF produeix resultats amb només 100 exemples, cosa que fa més factible que altres llengües amb pocs recursos, amb menys dades lingüístiques digitals disponibles, puguin replicar el procés. 

Qualsevol model de llenguatge, segons la força i l’abast de les dades d’entrenament, té una escala de tasques que pot dur a terme. Els models de llenguatge simples es limiten a tasques senzilles com avaluar el sentiment d’un tuit o identificar noms d’empreses. Els models més complexos són multitasca, capaços de treballar amb conceptes abstractes, tenir en compte contextos socials i ambientals i fins i tot mostrar graus de creativitat. GPT‑4, per exemple, pot generar un poema sobre els capricis de la vida moderna a l’estil de Völuspá(s'obre en una finestra nova), un antic poema islandès de la Poetic Edda(s'obre en una finestra nova) de la mitologia nòrdica.

Mideind Team

Miðeind’s team of AI researchers has been working on training GPT‑4 on Icelandic.

Context cultural

GPT‑4 dona una resposta diferent a la mateixa pregunta segons en quina llengua es formuli.

Indicació (islandès)Hvað sitja margir á þingi?

RespostaÁ Alþingi, sem er lögþing Íslands, sitja 63 þingmenn.A l’Alþingi, que és el parlament islandès, hi ha 63 parlamentaris.

Indicació (anglès)How many parliamentarians are there?

RespostaDepèn de a quin país et refereixis. Per exemple: / • Al Regne Unit, el Parlament té 650 membres a la Cambra dels Comuns i aproximadament 800 membres a la Cambra dels Lords. / • Al Canadà, hi ha 338 membres del Parlament a la Cambra dels Comuns i 105 senadors al Senat. / • A l’Índia, hi ha 545 membres al Lok Sabha (Cambra del Poble) i 245 membres al Rajya Sabha (Consell dels Estats). / • A Austràlia, hi ha 151 membres de la Cambra de Representants i 76 senadors al Senat.

Indicació (islandès)Hver er forseti núna?

RespostaForseti Íslands núna (2021) er Guðni Th. Jóhannesson.L’actual president d’Islàndia (2021) és Guðni Th. Jóhannesson.

Indicació (anglès)Who is president now?

RespostaA data de 2021, el president dels Estats Units és Joe Biden.

Amb una ronda d’RLHF completada, el model encara té marge de millora. Aquesta és la feina en curs de l’equip d’Islàndia: continuar entrenant GPT‑4 amb prou exemples perquè el model pugui impulsar les aplicacions més complexes i creatives en islandès, en lloc de recórrer per defecte a l’anglès, de manera que les empreses islandeses aviat puguin desplegar GPT‑4 en islandès en les seves aplicacions interactives.

Marge de millora

IndicacióEr það algengt að íslensk börn séu látin sofa úti í vagni?És habitual que els nadons islandesos facin la migdiada a fora en un cotxet?

RespostaJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.

Resposta corregida per gramàtica i ortografiaJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.Sí, és habitual que els nadons islandesos facin la migdiada a fora en un cotxet, especialment a la primavera i a l’estiu. Molts pares pensen que l’aire exterior i el vent fresc i net són bons per als nadons i, a més, que normalment estan més tranquils quan s’adormen a fora. El millor és parar molta atenció al temps i a la temperatura i assegurar-se que el nadó va prou abrigat segons les circumstàncies.

L’equip de Þorsteinsson no només haurà entrenat el motor lingüístic més potent del món en la seva llengua, sinó que també haurà ofert a tot un país l’oportunitat d’interactuar amb els models d’OpenAI en la seva pròpia llengua. Així, utilitzant GPT‑4 com a backend, Embla —l’aplicació d’assistent de veu de Miðeind— podrà mantenir converses amb els usuaris en un islandès fluid, a més d’oferir traduccions a altres llengües. Com a altre exemple, les empreses islandeses no hauran de dependre d’un chatbot en anglès al seu web, sinó que en podran tenir un en islandès.

«Ens entusiasma l’impacte de la nostra feina en el model en general, i ens alegra comptar amb el suport d’OpenAI per ajudar la llengua islandesa a sobreviure en l’era digital.»
Vilhjálmur Þorsteinsson, director executiu, Miðeind ehf

Vols obtenir més informació sobre ChatGPT per a empreses?