Liwati menyang isi utama
OpenAI

Government of Iceland

Iceland Scenery
Lagi dimuat…
Foto mobil sing mlaku ing dalan sempit kanthi banyu ing sisih loro, karo gunung pucuke bersalju ing latar mburi ing sangisore langit cerah.

Islandia, negara pulo ing tengah Atlantik Lor, nduweni industri teknologi sing urip lan pariwisata sing maju pesat. Nanging, sanadyan mayoritas saka kira-kira 370.000 wargane bisa basa Inggris utawa basa kapindho liyane, integrasine karo Amerika Serikat lan Eropa wis ndadekake basa asline negara iki, basa Islandia, ana ing risiko. Saiki ana rasa kuwatir sing saya gedhe yen sajrone sawetara generasi, yen basa Islandia ora bisa tetep dadi basa baku negara iki ing tengah digitalisasi sing cepet, basa iki bisa ngadhepi kepunahan de facto(mbukak ing jendhela anyar).

Wong Islandia ngugemi basane amarga warisan budaya sing sugih lan sesambungane karo identitas bangsa. Pamrentah negara iki njaga sawijining Departemen Perencanaan Basa(mbukak ing jendhela anyar) sing nyipta istilah basa Islandia kanggo gagasan anyar, tinimbang nampa sing diarani “tembung serapan” saka basa liyane. Contone, komputer iku tölva (“nabi wadon angka”). Liwat upaya iki, basa kasebut njaga watak khasé(mbukak ing jendhela anyar) lan tetep sesambungan raket karo akar Nordik Kuno.

Atas inisiatif(mbukak ing jendhela anyar) Presiden negara kasebut, HE Guðni Th. Jóhannesson, lan kanthi pitulungan industri swasta, Islandia wis kerja sama karo OpenAI kanggo nggunakake GPT‑4 ing upaya nglestarekake basa Islandia—lan ngowahi posisi defensif dadi kesempatan kanggo inovasi.

Kerja sama iki dibayangake ora mung minangka cara kanggo nambah kemampuan GPT‑4 nglayani wilayah anyar ing donya, nanging uga minangka langkah menyang penciptaan sumber daya sing bisa mbantu ndhukung pelestarian basa liya sing sumber dayane winates.

“Kerja sama iki dibayangake ora mung minangka cara kanggo nambah kemampuan GPT-4 nglayani wilayah anyar ing donya, nanging uga minangka langkah menyang penciptaan sumber daya sing bisa mbantu ndhukung pelestarian basa liya sing sumber dayane winates.”

“Kita pengin mesthekake yen kecerdasan artifisial bakal digunakake ora mung kanggo mbantu nglestarekake basa, budaya, lan sejarah, nanging uga kanggo ndhukung kemakmuran ekonomi,” ujare Jóhanna Vigdís Guðmundsdóttir, kepala eksekutif Almannarómur(mbukak ing jendhela anyar), pusat teknologi basa nirlaba. “Basa Islandia iku kasus sing rada khas,” pangakune, “nanging kita weruh kesempatan kanggo dadi pelopor kanggo basa-basa long-tail liyane, mbantu nggawe kesempatan sing setara, lan ngindhari ‘jurang AI’. Ora cukup mung nglumpukake data lan mbangun piranti lunak lokal kanggo basa Islandia; kita kudu nggawa basa kita menyang piranti lunak lan aplikasi sing digunakake wong saben dina.”

Model GPT OpenAI dilatih nganggo teks internet sing jumlahé gedhe banget. Mula, mayoritas set latihan model iki nganggo basa Inggris lan basa-basa utama liyane, tegese GPT ora nduweni kemampuan utawa jembare pangerten sing padha ing basa-basa sing luwih cilik. Model-model iki saya apik saka wektu ke wektu, nanging durung konsisten ngasilake terjemahan basa Islandia sing cetha lan bener.

Stjorn Almannaroms

The board of Almannarómur.

Inggris menyang Islandia

PromptHvað heitir Donald Duck á íslensku?Sapa jeneng Donald Duck ing basa Islandia?

GPT‑3 completionDonald Duck heitir á íslensku Donaldi KjániDonald Duck diarani Donaldi Si Bodho ing basa IslandiaOra bener

ChatGPT completionDonald Duck heitir sama nafni á íslensku og enskuDonald Duck duwe jeneng sing padha ing basa Islandia lan InggrisOra bener

GPT‑4 completionDonald Duck heitir Andrés Önd á íslenskuDonald Duck diarani Andrés Önd ing basa IslandiaBener

Malah GPT‑4, senadyan luwih apik banget ing basa Islandia tinimbang GPT‑3.5, isih ngasilake basa Islandia kanthi kesalahan tata basa, “gaya terjemahan”, lan kawruh budaya sing ora trep. Kanggo ngowahi iki, Vilhjálmur Þorsteinsson, kepala eksekutif ing Miðeind ehf(mbukak ing jendhela anyar), perusahaan teknologi basa sing melu inisiatif iki, nglumpukake tim 40 relawan kanggo nglatih GPT‑4 babagan tata basa Islandia sing bener lan kawruh budaya. 

Ing proses sing diarani Sinau Penguatan saka Umpan Balik Manungsa, utawa RLHF, para penguji manungsa menehi GPT‑4 sawijining prompt, lan papat completion sing bisa dipilih banjur digawe. Para penguji banjur milih jawaban paling apik saka papat respons kasebut lan nyunting supaya dadi completion sing ideal. Data saka proses iki banjur digunakake kanggo luwih nglatih GPT‑4 supaya ngasilake respons sing luwih apik ing tembe.

Sadurunge RLHF, proses fine-tuning sawijining model mbutuhake tenaga lan data sing gedhe. Timé Þorsteinsson nyoba fine-tuning model GPT‑3 nganggo 300.000 conto basa Islandia, nanging asile nguciwani.

“Kapabilitas kanggo ngasilake basa Islandia sing gramatikal utawa bener pancen durung ana ing GPT-3.”
Vilhjálmur Þorsteinsson, Kepala Eksekutif, Miðeind ehf

“Saiki kita bisa langsung mlumpat menyang kapabilitas umum saka model gedhe,” ujare Þorsteinsson, “lan mbisakake prekara nganggo basa kita sing biyen mbutuhake akeh tenaga manual, persiapan data, lan pangumpulan sumber daya kanggo saben kasus panggunaan.” RLHF ngasilake asil mung nganggo 100 conto, sing ndadekake proses iki luwih mungkin ditiru dening basa liya sing sumber dayane winates, kanthi data basa digital sing luwih sithik. 

Saben model basa, gumantung saka kekuwatan lan jembaré data latihane, nduweni skala tugas sing bisa ditindakake. Model basa sing prasaja winates ing tugas prasaja kayata ngevaluasi sentimen sawijining tweet utawa ngenali jeneng perusahaan. Model sing luwih kompleks iku multitalenta, bisa nggarap konsep abstrak, nimbang konteks sosial lan lingkungan, lan malah nuduhake tingkat kreativitas. Contone, GPT‑4 bisa ngasilake geguritan babagan ora mesthine urip modern nganggo gaya Völuspá(mbukak ing jendhela anyar), geguritan Islandia kuna saka Poetic Edda(mbukak ing jendhela anyar) ing mitologi Nordik.

Mideind Team

Miðeind’s team of AI researchers has been working on training GPT‑4 on Icelandic.

Konteks budaya

GPT‑4 menehi jawaban beda kanggo pitakon sing padha gumantung saka basa sing digunakake kanggo takon.

Prompt (Icelandic)Hvað sitja margir á þingi?

CompletionÁ Alþingi, sem er lögþing Íslands, sitja 63 þingmenn.In Alþingi, yaiku parlemen Islandia, ana 63 anggota parlemen.

Prompt (English)Pira jumlah anggota parlemen?

CompletionIku gumantung negara endi sing sampeyan maksud. Contone: / • Ing Britania Raya, Parlemen nduweni 650 anggota ing House of Commons lan kurang luwih 800 anggota ing House of Lords. / • Ing Kanada, ana 338 anggota Parlemen ing House of Commons lan 105 senator ing Senate. / • Ing India, ana 545 anggota ing Lok Sabha (House of the People) lan 245 anggota ing Rajya Sabha (Council of States). / • Ing Australia, ana 151 anggota House of Representatives lan 76 senator ing Senate.

Prompt (Icelandic)Hver er forseti núna?

CompletionForseti Íslands núna (2021) er Guðni Th. Jóhannesson.Presiden Islandia saiki (2021) yaiku Guðni Th. Jóhannesson.

Prompt (English)Sapa presidene saiki?

CompletionMiturut kahanan taun 2021, Presiden Amerika Serikat yaiku Joe Biden.

Sawise siji puteran Sinau Penguatan saka Umpan Balik Manungsa (RLHF) rampung, model isih nduweni ruang kanggo dandan. Iki minangka pakaryan sing terus ditindakake tim Islandia: nerusake nglatih GPT‑4 nganggo conto sing cukup supaya model bisa ndhukung aplikasi sing paling kompleks lan kreatif ing basa Islandia, tinimbang otomatis bali menyang basa Inggris, supaya perusahaan Islandia enggal bisa masang GPT‑4 ing basa Islandia ing aplikasi interaktifé.

Isih bisa dandan

PromptEr það algengt að íslensk börn séu látin sofa úti í vagni?Apa umum bayi Islandia ditidurkan turu ing njaba nganggo stroller?

CompletionJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.

Completion corrected for grammar and spellingJá, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.Ya, umum yen bayi Islandia turu ing njaba nganggo stroller, mligine nalika semi lan panas. Akeh wong tuwa mikir yen hawa njaba lan angin seger sing resik iku apik kanggo bayi lan, saliyane, biasane bayi luwih anteng nalika turu ing njaba. Sing paling apik yaiku nggatekake cuaca lan suhu kanthi tliti lan mesthekake bayi nganggo klambi sing cukup miturut kahanan.

Ora mung timé Þorsteinsson bakal nglatih mesin basa paling kuat ing donya nganggo basa dhewe, nanging uga bakal menehi kesempatan marang sak negara kanggo sesambungan karo model OpenAI nganggo basane dhewe. Mula, kanthi nggunakake GPT‑4 minangka backend, Embla—aplikasi asisten swara Miðeind—bakal bisa sesrawungan karo pangguna nganggo basa Islandia sing lancar, uga nawakake terjemahan menyang basa liya. Minangka conto liyane, perusahaan Islandia ora perlu gumantung marang chatbot sing nganggo basa Inggris ing situs webé, nanging bisa duwe chatbot ing basa Islandia.

“Kita bungah karo dampak karya kita marang model sing luwih amba—lan seneng oleh dukungan OpenAI kanggo mbantu basa Islandia tetep urip ing era digital.”
Vilhjálmur Þorsteinsson, Kepala Eksekutif, Miðeind ehf

Kasengsem sinau luwih lengkap babagan ChatGPT kanggo bisnis?