Government of Iceland


Солтүстік Атлантиканың қақ ортасындағы арал мемлекеті Исландияның технология индустриясы қарқынды дамып, туризмі өркендеп келеді. Алайда шамамен 370 000 азаматының көбі ағылшын немесе өзге екінші тілде сөйлегенімен, елдің АҚШ-пен және Еуропамен ықпалдасуы оның ана тілі — исланд тіліне қауіп төндірді. Бүгінде жедел цифрлану жағдайында исланд тілі елдің негізгі тілі болып қала алмаса, бірнеше ұрпақтан кейін бұл тіл іс жүзінде жойылып кетуі(жаңа терезеде ашылады) мүмкін деген алаңдаушылық күшейіп келеді.
Исландиялықтар өз тілін бай мәдени мұрасы мен ұлттық болмыспен байланысы үшін қадірлейді. Ел үкіметі өзге тілдерден алынатын «кірме сөздерді» қабылдаудың орнына, жаңа ұғымдарға исландша атаулар ойлап табатын Тіл жоспарлау департаментін ұстап отыр(жаңа терезеде ашылады). Мысалы, компьютер — tölva («сан пайғамбары әйел»). Осындай күш-жігердің арқасында тіл өзінің ерекше сипатын сақтайды(жаңа терезеде ашылады) және көне норвег түбірлерімен тығыз байланыста қалады.
Ел президенті, Мәртебелі Guðni Th. Jóhannesson бастамасымен және жекеменшік сектордың көмегімен Исландия OpenAI-пен исланд тілін сақтау ісінде GPT‑4‑ті пайдалану үшін серіктестік орнатты әрі қорғаныстық ұстанымды инновация мүмкіндігіне айналдыруға кірісті.
Бұл серіктестік тек GPT‑4‑тің әлемнің жаңа бір бөлігіне қызмет көрсету қабілетін күшейту жолы ретінде ғана емес, сонымен қатар ресурсы шектеулі өзге тілдерді сақтауды ілгерілетуге көмектесе алатын ресурстар жасауға жасалған қадам ретінде де ойластырылды.
«Бұл серіктестік тек GPT-4-тің әлемнің жаңа бір бөлігіне қызмет көрсету қабілетін күшейту жолы ретінде ғана емес, сонымен қатар ресурсы шектеулі өзге тілдерді сақтауды ілгерілетуге көмектесе алатын ресурстар жасауға жасалған қадам ретінде де ойластырылды.»
«Жасанды интеллект тек тілді, мәдениет пен тарихты сақтауға көмектесу үшін ғана емес, сонымен қатар экономикалық өркендеудің негізі болуы үшін де қолданылатынына көз жеткізгіміз келеді», — дейді коммерциялық емес тілдік технология орталығы Almannarómur(жаңа терезеде ашылады)-дың бас атқарушы директоры Йоханна Вигдис Гудмундсдоттир. «Исланд тілі — біршама ерекше жағдай, — деп мойындайды ол, — бірақ біз өзге ұзынқұйрық тілдер үшін ізашар болуға, тең мүмкіндік жасауға және “AI алшақтығынан” қашуға мүмкіндік көрдік. Исланд тілі үшін дерек жинап, бағдарламалық жасақтама құру жеткіліксіз; біз тілімізді адамдар күн сайын қолданатын бағдарламалар мен қолданбаларға енгізуіміз керек».
OpenAI-дың GPT модельдері интернеттегі орасан көп мәтінде оқытылады. Соған сәйкес, модельдің оқыту жиынтығының басым бөлігі ағылшын және басқа ірі тілдерде, бұл GPT‑тің шағын тілдерде қабілеті мен түсінік ауқымы бірдей емес дегенді білдіреді. Модельдер уақыт өте жақсарды, бірақ олар анық әрі дұрыс исландша аудармаларды тұрақты түрде шығара бермейді.

The board of Almannarómur.
КөмексөзHvað heitir Donald Duck á íslensku?Donald Duck исланд тілінде қалай аталады?
GPT‑3 аяқтауыDonald Duck heitir á íslensku Donaldi KjániDonald Duck исланд тілінде Donaldi the Fool деп аталадыДұрыс емес
ChatGPT аяқтауыDonald Duck heitir sama nafni á íslensku og enskuDonald Duck исланд және ағылшын тілдерінде бірдей аталадыДұрыс емес
GPT‑4 аяқтауыDonald Duck heitir Andrés Önd á íslenskuDonald Duck исланд тілінде Andrés Önd деп аталадыДұрыс
GPT‑4 те, исланд тілін GPT‑3.5‑тен әлдеқайда жақсы меңгергенімен, грамматикалық қателері бар, «аудармаға ұқсас», әрі мәдени білімінде қателіктері бар исланд тілін шығарады. Мұны өзгерту үшін бастамаға қатысқан тілдік технология компаниясы Miðeind ehf(жаңа терезеде ашылады)-тің атқарушы директоры Вильхьялмур Торстейнссон GPT‑4‑ті дұрыс исланд грамматикасы мен мәдени біліміне үйрету үшін 40 еріктіден тұратын топ құрды.
Адам пікіріне негізделген күшейтпелі оқыту, немесе RLHF (адам пікіріне негізделген күшейтпелі оқыту) деп аталатын үдерісте адам тестілеушілер GPT‑4‑ке көмексөз береді, содан кейін төрт ықтимал аяқтау жасалады. Кейін тестілеушілер осы төрт жауаптың ішінен ең жақсысын таңдап, оны мінсіз аяқтау жасау үшін өңдейді. Осы үдерістен алынған деректер кейін GPT‑4‑ті болашақта жақсырақ жауаптар беруі үшін қосымша оқытуға пайдаланылады.
RLHF (адам пікіріне негізделген күшейтпелі оқыту)-ке дейін модельді дәл баптау үдерісі еңбек пен деректі көп қажет ететін. Торстейнссонның командасы 300 000 исланд тіліндегі мысалмен GPT‑3 моделін дәл баптауға тырысты, бірақ нәтижелері көңіл көншітпеді.
«GPT-3-пен грамматикалық немесе дұрыс исланд тілін жасау мүмкіндігі мүлде болмады.»
«Енді біз үлкен модельдердің жалпы қабілеттеріне тікелей өте аламыз, — дейді Торстейнссон, — және тілімізбен бұрын әр қолдану жағдайы үшін көп қол еңбегін, дерек дайындауды және ресурс жинауды қажет еткен нәрселерді іске қоса аламыз». RLHF (адам пікіріне негізделген күшейтпелі оқыту) небәрі 100 мысалмен нәтиже береді, бұл цифрлық тілдік дерегі аз өзге де ресурсы шектеулі тілдерге бұл үдерісті қайталауды анағұрлым қолжетімді етеді.
Кез келген тілдік модель, деректермен оқытудың күші мен ауқымына қарай, орындай алатын тапсырмалар шкаласына ие. Қарапайым тілдік модельдер твиттің реңкін бағалау немесе компания атауларын анықтау сияқты қарапайым тапсырмалармен шектеледі. Неғұрлым күрделі модельдер көпміндетті болады: олар абстракт ұғымдармен жұмыс істей алады, әлеуметтік және қоршаған орта контексттерін ескереді, тіпті белгілі бір дәрежеде креативтілік те танытады. Мысалы, GPT‑4 қазіргі өмірдің құбылмалылығы туралы Völuspá(жаңа терезеде ашылады) стилінде өлең жаза алады; бұл — скандинав мифологиясындағы Poetic Edda(жаңа терезеде ашылады) жинағындағы көне исланд поэмасы.

Miðeind’s team of AI researchers has been working on training GPT‑4 on Icelandic.
GPT‑4 бір сұраққа оны қай тілде қойғаныңызға қарай әртүрлі жауап береді.
Көмексөз (исландша)Hvað sitja margir á þingi?
АяқтауÁ Alþingi, sem er lögþing Íslands, sitja 63 þingmenn.Исландия парламенті болып табылатын Alþingi-де 63 депутат бар.
Көмексөз (ағылшынша)Қанша парламентарий бар?
АяқтауБұл қай елді меңзеп отырғаныңызға байланысты. Мысалы: / • Біріккен Корольдікте парламентте Қауымдар палатасында 650 мүше және Лордтар палатасында шамамен 800 мүше бар. / • Канадада Қауымдар палатасында 338 парламент мүшесі және Сенатта 105 сенатор бар. / • Үндістанда Лок Сабхада (Халық палатасы) 545 мүше және Раджья Сабхада (Штаттар кеңесі) 245 мүше бар. / • Аустралияда Өкілдер палатасында 151 мүше және Сенатта 76 сенатор бар.
Көмексөз (исландша)Hver er forseti núna?
АяқтауForseti Íslands núna (2021) er Guðni Th. Jóhannesson.Исландияның қазіргі (2021) президенті — Guðni Th. Jóhannesson.
Көмексөз (ағылшынша)Қазір президент кім?
Аяқтау2021 жылғы жағдай бойынша Америка Құрама Штаттарының президенті — Джо Байден.
RLHF (адам пікіріне негізделген күшейтпелі оқыту)-тің бір кезеңі аяқталғаннан кейін, модельді әлі де жақсартуға болады. Бұл — Исландия командасының қазіргі жұмысы: GPT‑4‑ті жеткілікті мысалдармен оқытуды жалғастыру, сонда модель ағылшын тіліне әдепкі ауысып кетпей, исланд тіліндегі ең күрделі әрі креативті қолданбаларды қолдай алады, ал исландиялық компаниялар жақын арада GPT‑4‑ті өздерінің интерактивті қолданбаларында исланд тілінде енгізе алады.
КөмексөзEr það algengt að íslensk börn séu látin sofa úti í vagni?Исландиялық сәбилерді арбада далада ұйықтату жиі кездесе ме?
АяқтауJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti.
Грамматика мен емлеге түзетілген аяқтауJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.Иә, исландиялық сәбилерді арбада далада ұйықтату жиі кездеседі, әсіресе көктем мен жазда. Көптеген ата-аналар дала ауасы мен таза самал сәбилерге пайдалы деп санайды, әрі олар сыртта ұйықтағанда әдетте тынышырақ болады. Ауа райы мен температураны мұқият бақылап, сәбидің жағдайға сай жеткілікті киінгеніне көз жеткізген дұрыс.
Торстейнссонның командасы өз тілінде әлемдегі ең қуатты тілдік қозғалтқышты оқытып қана қоймай, бүкіл бір елге OpenAI модельдерімен өз тілінде өзара әрекеттесу мүмкіндігін береді. Осылайша, GPT‑4‑ті өзінің негізі ретінде пайдаланып, Embla — Miðeind-тің дауыстық көмекші қолданбасы — пайдаланушылармен еркін исланд тілінде сөйлесе алады, сондай-ақ басқа тілдерге аударма ұсына алады. Тағы бір мысал ретінде, исландиялық компанияларға веб-сайтында ағылшын тілінде сөйлейтін чатботқа сүйенудің қажеті болмайды, оның орнына исланд тіліндегі нұсқасын қолдана алады.
«Жұмысымыздың кеңірек модельге әсеріне қуаныштымыз және OpenAI-дың исланд тілінің цифрлық дәуірде сақталып қалуына көмектесудегі қолдауына ризамыз.»


