Government of Iceland


ისლანდია, კუნძულოვანი ქვეყანა ჩრდილო ატლანტიკის შუაგულში, გამოირჩევა ძლიერი ტექნოლოგიური ინდუსტრიით და სწრაფად მზარდი ტურიზმით. თუმცა, მიუხედავად იმისა, რომ მისი დაახლოებით 370,000 მოქალაქის უმეტესობა ინგლისურად ან სხვა მეორე ენაზე საუბრობს, შეერთებულ შტატებსა და ევროპასთან ინტეგრაციამ ქვეყნის მშობლიური ენა, ისლანდიური, რისკის ქვეშ დააყენა. დღეს იზრდება შიში, რომ რამდენიმე თაობაში, თუ ისლანდიური ვერ დარჩება ქვეყნის ნაგულისხმევ ენად სწრაფი დიგიტალიზაციის პირობებში, ენას შეიძლება ფაქტობრივი გადაშენება(იხსნება ახალ ფანჯარაში) დაემუქროს.
ისლანდიელები თავიანთ ენას აფასებენ მისი მდიდარი კულტურული მემკვიდრეობისა და ეროვნული იდენტობასთან კავშირის გამო. ქვეყნის მთავრობა ინარჩუნებს ენის დაგეგმვის დეპარტამენტს(იხსნება ახალ ფანჯარაში), რომელიც ახალ იდეებისთვის ისლანდიურ ტერმინებს ქმნის, სხვა ენებიდან所谓 „ნასესხები სიტყვების“ მიღების ნაცვლად. მაგალითად, კომპიუტერი არის tölva („რიცხვთა წინასწარმეტყველი ქალი“). ამ ძალისხმევის წყალობით, ენა ინარჩუნებს თავის გამორჩეულ ხასიათს(იხსნება ახალ ფანჯარაში) და ძველ ნორსულ ფესვებთან მჭიდრო კავშირს.
ქვეყნის პრეზიდენტის, მისი აღმატებულება Guðni Th. Jóhannesson-ის ინიციატივით(იხსნება ახალ ფანჯარაში) და კერძო ინდუსტრიის დახმარებით, ისლანდიამ OpenAI-თან პარტნიორობა დაიწყო, რათა GPT‑4 გამოიყენოს ისლანდიური ენის შენარჩუნების საქმეში — და თავდაცვითი პოზიცია ინოვაციის შესაძლებლობად აქციოს.
პარტნიორობა ჩაფიქრებული იყო არა მხოლოდ როგორც გზა, რომ გაეზარდა GPT‑4‑ის უნარი ემსახურა მსოფლიოს ახალ კუთხეს, არამედ როგორც ნაბიჯი ისეთი რესურსების შექმნისკენ, რომლებიც სხვა დაბალრესურსიანი ენების შენარჩუნების ხელშეწყობასაც შეძლებდნენ.
„პარტნიორობა ჩაფიქრებული იყო არა მხოლოდ როგორც გზა, რომ გაეზარდა GPT-4-ის უნარი ემსახურა მსოფლიოს ახალ კუთხეს, არამედ როგორც ნაბიჯი ისეთი რესურსების შექმნისკენ, რომლებიც სხვა დაბალრესურსიანი ენების შენარჩუნების ხელშეწყობასაც შეძლებდნენ.“
„გვინდა დავრწმუნდეთ, რომ ხელოვნური ინტელექტი გამოყენებული იქნება არა მხოლოდ ენის, კულტურისა და ისტორიის შენარჩუნების მხარდასაჭერად, არამედ ეკონომიკური კეთილდღეობის გასამყარებლადაც,“ ამბობს არაკომერციული ენობრივი ტექნოლოგიების ცენტრის Almannarómur(იხსნება ახალ ფანჯარაში)-ის აღმასრულებელი დირექტორი იოჰანა ვიგდის გუდმუნდსდოტირი. „ისლანდიური გარკვეულწილად განსაკუთრებული შემთხვევაა,“ აღიარებს ის, „მაგრამ ჩვენ დავინახეთ შესაძლებლობა, გავმხდარიყავით გზის გამკვლევები სხვა გრძელი კუდის ენებისთვის, დაგვეხმარა თანაბარი პირობების შექმნაში და აგვერიდებინა „AI დაყოფა“. საკმარისი არ არის ისლანდიურისთვის ადგილობრივად მონაცემების შეგროვება და პროგრამული უზრუნველყოფის შექმნა; საჭიროა, ჩვენი ენა შევიტანოთ იმ პროგრამებსა და აპლიკაციებში, რომლებსაც ადამიანები ყოველდღე იყენებენ.“
OpenAI-ის GPT მოდელები ინტერნეტში არსებული ტექსტების უზარმაზარ რაოდენობაზე არიან გაწვრთნილი. შესაბამისად, მოდელის სასწავლო მონაცემების დიდი ნაწილი ინგლისურ და სხვა მთავარ ენებზეა, რაც ნიშნავს, რომ GPT‑ს მცირე ენებში იგივე შესაძლებლობები ან გაგების მასშტაბი არ აქვს. მოდელები დროთა განმავლობაში გაუმჯობესდა, მაგრამ ისინი მაინც მუდმივად ვერ ქმნიან მკაფიო და სწორ ისლანდიურ თარგმანებს.

The board of Almannarómur.
მოთხოვნაHvað heitir Donald Duck á íslensku?რა ჰქვია Donald Duck-ს ისლანდიურად?
GPT‑3 პასუხიDonald Duck heitir á íslensku Donaldi KjániDonald Duck-ს ისლანდიურად ჰქვია Donaldi the Foolარასწორია
ChatGPT პასუხიDonald Duck heitir sama nafni á íslensku og enskuDonald Duck-ს ისლანდიურსა და ინგლისურში ერთი და იგივე სახელი აქვსარასწორია
GPT‑4 პასუხიDonald Duck heitir Andrés Önd á íslenskuDonald Duck-ს ისლანდიურად Andrés Önd ჰქვიასწორია
თუნდაც GPT‑4, მიუხედავად იმისა, რომ ისლანდიურში GPT‑3.5‑ზე ბევრად უკეთესია, მაინც ქმნის ისლანდიურ ტექსტს გრამატიკული შეცდომებით, „თარგმანულად ჟღერადი“ სტილით და არასწორი კულტურული ცოდნით. ამის შესაცვლელად, ვილჰიალმურ თორსტეინსონმა, ინიციატივაში ჩართული ენობრივი ტექნოლოგიების კომპანიის Miðeind ehf(იხსნება ახალ ფანჯარაში)-ის აღმასრულებელმა დირექტორმა, შეკრიბა 40 მოხალისისგან შემდგარი გუნდი, რათა GPT‑4 სწორი ისლანდიური გრამატიკისა და კულტურული ცოდნის მიხედვით გაეწვრთნათ.
პროცესში, რომელსაც Reinforcement Learning from Human Feedback, ანუ RLHF ეწოდება, ადამიანური ტესტერები GPT‑4‑ს აწვდიან მოთხოვნას, რის შემდეგაც გენერირდება ოთხი შესაძლო პასუხი. შემდეგ ტესტერები ამ ოთხ პასუხს შორის საუკეთესოს ირჩევენ და ასწორებენ, რათა იდეალური პასუხი შექმნან. ამ პროცესიდან მიღებული მონაცემები შემდეგ გამოიყენება GPT‑4‑ის დამატებით გასაწვრთნელად, რათა მომავალში უკეთესი პასუხები შექმნას.
RLHF-მდე მოდელის დახვეწის პროცესი შრომატევადი და მონაცემებზე მეტად დამოკიდებული იყო. თორსტეინსონის გუნდმა სცადა GPT‑3 მოდელის დახვეწა ისლანდიური ენის 300,000 მაგალითით, მაგრამ შედეგები იმედგამაცრუებელი აღმოჩნდა.
„GPT-3-ს უბრალოდ არ ჰქონდა გრამატიკულად სწორი, ან საერთოდ სწორი ისლანდიურის გენერირების უნარი.“
„ახლა ჩვენ შეგვიძლია პირდაპირ დიდი მოდელების ზოგად შესაძლებლობებზე გადავიდეთ,“ ამბობს თორსტეინსონი, „და ჩვენი ენით შევძლოთ ისეთი რამეები, რომლებიც ადრე თითოეული გამოყენების შემთხვევისთვის დიდ ხელით შრომას, მონაცემების მომზადებას და რესურსების შეგროვებას მოითხოვდა.“ RLHF შედეგს მხოლოდ 100 მაგალითით იძლევა, რაც ამ პროცესის გამეორებას უფრო რეალისტურს ხდის სხვა დაბალრესურსიანი ენებისთვისაც, რომლებისთვისაც ხელმისაწვდომია ნაკლები ციფრული ენობრივი მონაცემი.
ნებისმიერ ენობრივ მოდელს, მონაცემთა სწავლების სიძლიერისა და სიგანის მიხედვით, აქვს ამოცანების გარკვეული მასშტაბი, რომლის შესრულებაც შეუძლია. მარტივი ენობრივი მოდელები შემოიფარგლება მარტივი ამოცანებით, როგორიცაა ტვიტის განწყობის შეფასება ან კომპანიის სახელების ამოცნობა. უფრო რთული მოდელები მრავალფუნქციურები არიან, შეუძლიათ აბსტრაქტულ ცნებებთან მუშაობა, სოციალური და გარემო კონტექსტების გათვალისწინება და შემოქმედებითობის გარკვეული დონის გამოვლენაც კი. მაგალითად, GPT‑4‑ს შეუძლია თანამედროვე ცხოვრების ცვალებადობაზე ლექსის შექმნა Völuspá(იხსნება ახალ ფანჯარაში)-ს სტილში — ეს არის ძველი ისლანდიური პოემა ნორვეგიული მითოლოგიის Poetic Edda(იხსნება ახალ ფანჯარაში)-დან.

Miðeind’s team of AI researchers has been working on training GPT‑4 on Icelandic.
GPT‑4 ერთსა და იმავე კითხვაზე განსხვავებულ პასუხს იძლევა იმის მიხედვით, რომელ ენაზე დაუსვამთ.
მოთხოვნა (ისლანდიურად)Hvað sitja margir á þingi?
პასუხიÁ Alþingi, sem er lögþing Íslands, sitja 63 þingmenn.ალთინგში, რომელიც ისლანდიის პარლამენტია, 63 პარლამენტარი ზის.
მოთხოვნა (ინგლისურად)რამდენი პარლამენტარია?
პასუხიეს დამოკიდებულია, რომელ ქვეყანას გულისხმობთ. მაგალითად: / • გაერთიანებულ სამეფოში პარლამენტს ჰყავს 650 წევრი თემთა პალატაში და დაახლოებით 800 წევრი ლორდთა პალატაში. / • კანადაში თემთა პალატაში პარლამენტის 338 წევრია და სენატში 105 სენატორი. / • ინდოეთში ლოკ საბჰაში (სახალხო პალატა) 545 წევრია და რაჯია საბჰაში (შტატების საბჭო) 245 წევრი. / • ავსტრალიაში წარმომადგენელთა პალატაში 151 წევრია და სენატში 76 სენატორი.
მოთხოვნა (ისლანდიურად)Hver er forseti núna?
პასუხიForseti Íslands núna (2021) er Guðni Th. Jóhannesson.ისლანდიის ამჟამინდელი (2021) პრეზიდენტია Guðni Th. Jóhannesson.
მოთხოვნა (ინგლისურად)ახლა ვინ არის პრეზიდენტი?
პასუხი2021 წლის მდგომარეობით, ამერიკის შეერთებული შტატების პრეზიდენტია ჯო ბაიდენი.
RLHF-ის ერთი რაუნდის დასრულების შემდეგ, მოდელს ჯერ კიდევ აქვს გაუმჯობესების სივრცე. აი, რაზე მუშაობს ახლა ისლანდიის გუნდი: GPT‑4‑ის სწავლების გაგრძელება საკმარისი რაოდენობის მაგალითებით, რათა მოდელმა ისლანდიურ ენაზე შეძლოს ყველაზე რთული და შემოქმედებითი აპლიკაციების მხარდაჭერა, ინგლისურზე ავტომატურად გადასვლის ნაცვლად, ისე რომ ისლანდიურმა კომპანიებმა მალე შეძლონ GPT‑4‑ის ისლანდიურად დანერგვა თავიანთ ინტერაქტიულ აპლიკაციებში.
მოთხოვნაEr það algengt að íslensk börn séu látin sofa úti í vagni?ჩვეულებრივია თუ არა, რომ ისლანდიელ ბავშვებს ეტლში გარეთ დააძინონ?
პასუხიJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.
პასუხი, გრამატიკისა და მართლწერის მიხედვით შესწორებულიJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.დიახ, ჩვეულებრივია, რომ ისლანდიელ ბავშვებს ეტლში გარეთ დააძინონ, განსაკუთრებით გაზაფხულსა და ზაფხულში. ბევრ მშობელს მიაჩნია, რომ გარეთის ჰაერი და სუფთა, სუსხიანი ნიავი ბავშვებისთვის სასარგებლოა და გარდა ამისა, ისინი გარეთ დაძინებისას ჩვეულებრივ უფრო მშვიდებიც არიან. უმჯობესია, ყურადღებით დააკვირდეთ ამინდსა და ტემპერატურას და დარწმუნდეთ, რომ ბავშვი გარემო პირობების შესაბამისად საკმარისად არის ჩაცმული.
თორსტეინსონის გუნდი არა მხოლოდ საკუთარ ენაზე გაწვრთნის მსოფლიოს ყველაზე ძლიერ ენობრივ ძრავს, არამედ მთელ ქვეყანას მისცემს შესაძლებლობას, OpenAI-ის მოდელებთან საკუთარ ენაზე იურთიერთოს. ამგვარად, GPT‑4‑ის გამოყენებით როგორც საბაზო სისტემის, Embla — Miðeind-ის ხმოვანი ასისტენტის აპი — შეძლებს მომხმარებლებთან გამართულ ისლანდიურ ენაზე საუბარს, ასევე სხვა ენებზე თარგმანების შეთავაზებასაც. კიდევ ერთი მაგალითია, რომ ისლანდიურ კომპანიებს აღარ დასჭირდებათ საკუთარ ვებსაიტზე ინგლისურენოვან ჩატბოტზე დაყრდნობა და ამის ნაცვლად ისლანდიური ჩატბოტის გამოყენებას შეძლებენ.
„გვიხარია, რა გავლენას მოახდენს ჩვენი ნამუშევარი უფრო ფართო მოდელზე — და ბედნიერები ვართ, რომ OpenAI მხარს გვიჭერს, რათა ისლანდიურმა ენამ ციფრულ ეპოქაში გადარჩენა შეძლოს.“


