Пређите на главни садржај
OpenAI

Government of Iceland

Iceland Scenery
Учитавање…
Фотографија аутомобила који се креће уским путем окруженим водом са обе стране, док се у позадини под ведрим небом уздижу планине прекривене снегом.

Исланд, острвска држава усред северног Атлантика, има живу технолошку индустрију и процват туризма. Ипак, иако већина од око 370.000 становника говори енглески или неки други други језик, интеграција са Сједињеним Државама и Европом довела је матерњи језик земље, исландски, у ризик. Данас расте забринутост да би за неколико генерација, ако исландски не остане подразумевани језик земље пред брзом дигитализацијом, језик могао да се суочи са де факто изумирањем(отвара се у новом прозору).

Исланђани негују свој језик због његовог богатог културног наслеђа и везе са идентитетом нације. Влада земље одржава Одељење за језичко планирање(отвара се у новом прозору) које смишља исландске термине за нове идеје, уместо да усваја такозване „позајмљенице“ из других језика. Компјутер је, на пример, tölva („пророчица бројева“). Захваљујући овим напорима, језик чува свој посебан карактер(отвара се у новом прозору) и остаје тесно повезан са старонордијским коренима.

На иницијативу(отвара се у новом прозору) председника земље, Њ. Е. Guðni Th. Jóhannesson-а, и уз помоћ приватне индустрије, Исланд је склопио партнерство са OpenAI-ом како би користио GPT‑4 у напорима за очување исландског језика — и како би од одбрамбеног става направио прилику за иновације.

Партнерство је замишљено не само као начин да се унапреди способност GPT‑4 да служи новом делу света, већ и као корак ка стварању ресурса који би могли да помогну очувању других језика са мало ресурса.

„Партнерство је замишљено не само као начин да се унапреди способност GPT-4 да служи новом делу света, већ и као корак ка стварању ресурса који би могли да помогну очувању других језика са мало ресурса.“

„Желимо да обезбедимо да се вештачка интелигенција користи не само да помогне очувању језика, културе и историје, већ и да подржи економски просперитет“, каже Jóhanna Vigdís Guðmundsdóttir, извршна директорка Almannarómur(отвара се у новом прозору), непрофитног центра за језичке технологије. „Исландски је помало посебан случај“, признаје она, „али смо видели прилику да постанемо пионир за друге језике дугог репа, помогнемо у стварању равноправних услова и избегнемо ‘AI јаз’. Није довољно локално прикупљати податке и правити софтвер за исландски; морамо да уведемо наш језик у софтвер и апликације које људи користе сваког дана.“

OpenAI GPT модели обучавају се на огромним количинама текста на интернету. Сходно томе, већина скупа за обуку модела је на енглеском и другим великим језицима, што значи да GPT нема исте способности нити ширину разумевања на мањим језицима. Модели су се временом побољшали, али и даље не дају доследно јасне и тачне преводе на исландски.

Stjorn Almannaroms

The board of Almannarómur.

Са енглеског на исландски

ИнструкцијаHvað heitir Donald Duck á íslensku?Како се Donald Duck зове на исландском?

GPT‑3 завршетакDonald Duck heitir á íslensku Donaldi KjániDonald Duck се на исландском зове Donaldi the FoolНетачно

ChatGPT завршетакDonald Duck heitir sama nafni á íslensku og enskuDonald Duck има исто име на исландском и енглескомНетачно

GPT‑4 завршетакDonald Duck heitir Andrés Önd á íslenskuDonald Duck се на исландском зове Andrés ÖndТачно

Чак и GPT‑4, иако је много бољи у исландском од GPT‑3.5, производи исландски са граматичким грешкама, „преводилачким стилом“ и нетачним културним знањем. Да би то променили, Vilhjálmur Þorsteinsson, извршни директор компаније Miðeind ehf(отвара се у новом прозору), компаније за језичке технологије укључене у иницијативу, окупио је тим од 40 волонтера да обучава GPT‑4 правилној исландској граматици и културном знању. 

У процесу који се назива подстицајно учење из повратних информација од људи, или RLHF, људски тестери дају GPT‑4 инструкцију, а затим се генеришу четири могућа завршетка. Тестери потом бирају најбољи одговор од четири понуђена и уређују га да направе идеалан завршетак. Подаци из овог процеса затим се користе за даљу обуку GPT‑4 како би у будућности давао боље одговоре.

Пре RLHF-а, процес финог подешавања модела био је радно и подацима интензиван. Тим Þorsteinssona покушао је да фино подеси GPT‑3 модел са 300.000 примера на исландском језику, али су резултати били разочаравајући.

„Могућност да се генерише граматички исправан или тачан исландски једноставно није постојала са GPT-3.“
Vilhjálmur Þorsteinsson, извршни директор, Miðeind ehf

„Сада можемо једноставно директно да пређемо на опште способности великих модела“, каже Þorsteinsson, „и да омогућимо ствари на нашем језику које су раније захтевале много ручног рада, припреме података и прикупљања ресурса за сваки случај употребе.“ RLHF даје резултате са само 100 примера, што га чини изводљивијим и за друге језике са мало ресурса, са мање доступних дигиталних језичких података, да понове овај процес. 

Сваки језички модел, у зависности од снаге и ширине података за обуку, има скалу задатака које може да обавља. Једноставни језички модели ограничени су на једноставне задатке као што су процена сентимента твита или идентификација назива компанија. Сложенији модели су вишенаменски, способни да раде са апстрактним појмовима, узимају у обзир друштвени и еколошки контекст и чак показују степене креативности. GPT‑4, на пример, може да генерише песму о непредвидивостима савременог живота у стилу Völuspá(отвара се у новом прозору), древне исландске песме из Поетске Еде(отвара се у новом прозору) нордијске митологије.

Mideind Team

Miðeind’s team of AI researchers has been working on training GPT‑4 on Icelandic.

Културни контекст

GPT‑4 даје различит одговор на исто питање у зависности од тога на ком језику га поставите.

Инструкција (исландски)Hvað sitja margir á þingi?

ЗавршетакÁ Alþingi, sem er lögþing Íslands, sitja 63 þingmenn.У Алтингу, који је исландски парламент, има 63 посланика.

Инструкција (енглески)Колико има парламентараца?

ЗавршетакЗависи на коју земљу мислите. На пример: / • У Уједињеном Краљевству, парламент има 650 чланова у Доњем дому и приближно 800 чланова у Дому лордова. / • У Канади, има 338 чланова парламента у Доњем дому и 105 сенатора у Сенату. / • У Индији, има 545 чланова у Lok Sabha (Дом народа) и 245 чланова у Rajya Sabha (Савет држава). / • У Аустралији, има 151 члан Представничког дома и 76 сенатора у Сенату.

Инструкција (исландски)Hver er forseti núna?

ЗавршетакForseti Íslands núna (2021) er Guðni Th. Jóhannesson.Тренутни (2021) председник Исланда је Guðni Th. Jóhannesson.

Инструкција (енглески)Ко је сада председник?

ЗавршетакПрема стању из 2021, председник Сједињених Држава је Joe Biden.

Са једним завршеним кругом RLHF-а, модел још увек има простора за побољшање. Ово је текући рад исландског тима: наставити обуку GPT‑4 са довољно примера да модел може да покреће најсложеније и најкреативније примене на исландском, уместо да подразумевано прелази на енглески, како би исландске компаније ускоро могле да примене GPT‑4 на исландском у својим интерактивним апликацијама.

Простор за побољшање

ИнструкцијаEr það algengt að íslensk börn séu látin sofa úti í vagni?Да ли је уобичајено да исландске бебе спавају напољу у колицима?

ЗавршетакJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti.

Завршетак исправљен за граматику и правописJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.Да, уобичајено је да исландске бебе дремају напољу у колицима, нарочито у пролеће и лето. Многи родитељи сматрају да су спољни ваздух и свеж чист ветар добри за бебе и да су, штавише, обично мирније када заспу напољу. Најбоље је пажљиво пратити време и температуру и водити рачуна да је беба довољно обучена у складу са условима.

Тим Þorsteinssona не само да ће обучити најмоћнији језички механизам на свету на свом језику, већ ће читавој земљи пружити прилику да комуницира са OpenAI моделима на свом језику. Тако ће Embla — апликација гласовног асистента компаније Miðeind — користећи GPT‑4 као позадински систем, моћи да води разговоре са корисницима на течном исландском, као и да нуди преводе на друге језике. Као још један пример, исландске компаније неће морати да се ослањају на четбота који говори енглески на свом веб-сајту, већ ће моћи да имају четбота на исландском.

„Узбуђени смо због утицаја нашег рада на шири модел — и драго нам је што имамо подршку OpenAI-а у помагању да исландски језик опстане у дигиталном добу.“
Vilhjálmur Þorsteinsson, извршни директор, Miðeind ehf

Желите да сазнате више о услузи ChatGPT за предузећа?