メインコンテンツにスキップ
OpenAI

アイスランド政府

Iceland Scenery
読み込んでいます...
A photograph of a car drives along a narrow road flanked by water on both sides, with snow-capped mountains rising in the background under clear skies.

北大西洋の真ん中に位置する島国アイスランドは、活気あるテクノロジー産業を擁し、近年では観光業でも大きな成長を遂げています。約37万人の国民のほとんどが英語や第二言語を話す一方、アメリカやヨーロッパとの統合が進む中、母語であるアイスランド語が危機に直面しています。急速なデジタル化に伴い、アイスランド語は国の標準語ととして維持できなければ、数世代後には事実上消滅する(新しいウィンドウで開く)可能性が危惧されているのです。

豊かな文化遺産と、国のアイデンティティとの結びつきから、アイスランド人の母国語への愛着は深いものがあります。同国政府はランゲージ・プランニング・デパートメント(新しいウィンドウで開く)を設置し、新しい概念に対して他言語からの「借用語」を取り入れず、アイスランド語の造語を作り出す取り組みを行っています。たとえば、コンピューターを意味する「tölva」は、tala(数)とvolva(予言者)を組み合わせた造語です。こうした努力により、アイスランド語はその独自性を維持しながら(新しいウィンドウで開く)、古ノルド語との深いつながりを維持しているのです。

アイスランドは、グズニ・ヨハンネソン大統領の主導により(新しいウィンドウで開く)、民間企業の協力を得てOpenAIと提携し、GPT‑4をアイスランド語の保存に活用することで、守りの姿勢をイノベーションの機会に変えようとしています。

このパートナーシップは、GPT‑4のサービスを世界の新たな地域に供給しやすくする手段としてだけでなく、低リソース言語の保存を促進するリソース創出に向けた一歩と位置づけられています。

「このパートナーシップは、GPT-4のサービスを世界の新たな地域に供給しやすくする手段としてだけでなく、低リソース言語の保存を促進するリソース創出に向けた一歩と位置づけられています。」

「私たちは、AIの活用が、言語や文化、歴史の保全を進めるだけでなく、経済的繁栄の基盤となることを目指しています」と、非営利の言語技術センターであるAlmannarómur(新しいウィンドウで開く)の最高経営責任者(CEO)、Jóhanna Vigdís Guðmundsdóttir氏は説明しています。さらに、「アイスランドは少し特殊なケースですが」と認めたうえで、「私たちはロングテール言語(あまりローカライズされていない言語)の先駆けとなり、公平な競争の場を作り、『AI格差 』を回避する機会を得ました。データを収集し、アイスランド語用のソフトウェアを現地で構築するだけでは十分ではありません。人々が毎日使うソフトウェアやアプリに私たちの言語を取り込む必要があるのです。」と語っています。

OpenAIのGPTモデルは、インターネット上の膨大な量のテキストを用いて学習します。そのため、モデルの訓練データの大部分は英語やその他の主要言語で構成されており、GPTは小規模な言語に対して同じ能力や広範な理解を持っているわけではありません。時間の経過とともにモデルが改善されても、アイスランド語の翻訳を一貫して明確かつ正確に生成することはないのです。

Stjorn Almannaroms

The board of Almannarómur.の理事会。

英語からアイスランド語に

プロンプト:Hvað heitir Donald Duck á íslensku?/ What is Donald Duck called in Icelandic?(ドナルドダックはアイスランド語で何と呼ばれていますか?)

GPT‑3のコンプリーション:Donald Duck heitir á íslensku Donaldi Kjáni / Donald Duck is called in Icelandic Donaldi the Fool(ドナルドダックはアイスランド語でDonaldi the Foolと呼ばれています)-不正解

ChatGPTのコンプリーション:Donald Duck heitir sama nafni á íslensku og ensku / Donald Duck has the same name in Icelandic and English(ドナルドダックはアイスランド語と英語で同じ名前です)-不正解

GPT‑4のコンプリーション:Donald Duck heitir Andrés Önd á íslensku / Donald Duck is called Andrés Önd in Icelandic(ドナルドダックはアイスランド語でAndrésÖndと呼ばれます)-正解

GPT‑4はGPT‑3.5と比べてアイスランド語においてはるかに優れているものの、文法的誤り、翻訳調の文体、文化的知識の誤りが発生しています。こうした状況を変えるため、この取り組みに参画する言語技術会社Miðeind ehf(新しいウィンドウで開く)の最高経営責任者であるVilhjálmur Þorsteinsson氏は、40人のボランティアチームとともに、GPT‑4に正しいアイスランド語の文法と文化的知識を習得させました。 

人間のフィードバックによる強化学習(RLHF)と呼ばれるプロセスでは、人間のテスターがGPT‑4にプロンプトを与え、4つのコンプリーションが生成されます。次に、人間のテスターが4つの応答から最も適したものを選び、それを編集してより望ましい応答を作成します。このプロセスで得られたデータは、今後より適切な応答を生成することを目指し、GPT‑4のさらなるトレーニングに使用されます。

RLHF以前は、モデルのファインチューニングのプロセスは労力とデータを多く必要とするものでした。Þorsteinssonのチームは、30万のアイスランド語の例を使ってGPT‑3モデルのファインチューニング試みたものの、満足な結果は得られませんでした。

「文法的に正しいアイスランド語を生成する能力はGPT-3にはなかったのです。」
Miðeind ehf 最高経営責任者、Vilhjálmur Þorsteinsson氏

「今では、大規模モデルの一般的な能力に直接アクセスすることができ、以前は個々のユースケースごとに多くの手作業、データ準備、リソース収集を必要としていたものが、自分たちの言語でも可能になりました。」RLHFは、わずか100例で結果を出すことができるため、利用可能なデジタル言語データが少ない他の低リソース言語でも、こうしたプロセスの再現がより現実的になります。 

どのような言語モデルでも、実行できるタスクの規模は学習させるデータの範囲と強度によって変わります。シンプルな言語モデルは、ツイートの感情を評価したり、企業名を特定したりといった単純なタスクに限られます。より複雑なモデルはマルチタスカ―であり、抽象的な概念を扱うことができるだけでなく、社会的・環境的な文脈を考慮し、さらにはある程度の創造性を発揮することもできます。例えばGPT‑4の場合、北欧神話の古エッダ(新しいウィンドウで開く)に書かれている古代アイスランドの詩、巫女の予言(Völuspá)(新しいウィンドウで開く)のスタイルを用いて、現代生活の気まぐれについての詩を生成することも可能です。

Mideind Team

アイスランド語でGPT‑4のトレーニングに取り組むMiðeindのAI研究チーム。

文化的背景

GPT‑4は、同じ質問に対して、どの言語で尋ねるかによって異なる回答を生成します。

プロンプト(アイスランド語):Hvað sitja margir á þingi?

コンプリーション:Á Alþingi, sem er lögþing Íslands, sitja 63 þingmenn(アイスランドの議会であるアルシングには、63人の議員がいます。)

プロンプト(英語):How many parliamentarians are there?(国会議員は何人いますか?)

コンプリーション:It depends on which country you are referring to.(国によって異なります。)For example: / • In the United Kingdom, the Parliament has 650 members in the House of Commons and approximately 800 members in the House of Lords. / • In Canada, there are 338 members of Parliament in the House of Commons and 105 senators in the Senate. / • In India, there are 545 members in the Lok Sabha (House of the People) and 245 members in the Rajya Sabha (Council of States). / • In Australia, there are 151 members of the House of Representatives and 76 senators in the Senate.(例:英国では、議会には下院に650人、上院に約800人の議員がいます。カナダの下院議員は338人、上院議員は105人です。インドでは、下院(ローク・サバー)に545人、上院(ラージヤ・サバー)に245人のメンバーがいます。オーストラリアの下院議員は151人、上院議員は76人です。)

プロンプト(アイスランド語):Hver er forsetinúna?

コンプリーション:Forseti Íslands núna (2021) er Guðni Th.Jóhannesson.(アイスランドの現在(2021年)の大統領は、グズニ・ヨハンネソン氏です)。

プロンプト(英語):Who is president now?(今の大統領はだれですか?)

コンプリーション:As of 2021, the President of the United States is Joe Biden.(2021年現在、米国大統領はジョー・バイデン氏です。)

RLHFの1ラウンドが完了したものの、モデルにはまだ改善の余地があります。アイスランドチームは十分な例を用いてGPT‑4の訓練に引き続き取り組んでおり、モデルがデフォルトの英語ではなく、アイスランド語で最も複雑かつ創造的なアプリケーションを実行し、アイスランド企業が近い将来、インタラクティブなアプリケーションでGPT‑4をアイスランド語で展開できるようにすることを目指しています。

さらなる改善に向けて

プロンプト:Er það algengt að íslensk börn séu látin sofa úti í vagni?(アイスランドの赤ちゃんは、乳母車に寝かされて屋外で昼寝をするのが一般的ですか?)

コンプリーション:Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri.Margir foreldrar telja að útiloft og fersk hrein vindur séu góðir fyrir börnin og auki séu þau oftast rolegri við að sofna úti.Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.

文法と綴りが修正されたコンプリーション:Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri.Margir foreldrar telja að útiloft og ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti.Æskilegt er að fylgjast vel með veðurfari og hitastigi, og passa að barnið sé nægur klætt eftir aðstæðum.(はい、アイスランドの赤ちゃんは、特に春と夏には外に出て乳母車で昼寝をするのが一般的です。)多くの親は、外の空気や自然の澄んだ風が赤ちゃんにとって良いと考え、さらに、外で眠りにつくとより落ち着いて眠ることができると考えています。天候や気温に気を配り、赤ちゃんが状況に応じて十分な服装をしていることを確認するのが一番です。

Þorsteinsson氏のチームの取り組みは、世界で最も強力な言語エンジンを自国語で訓練するだけでなく、アイスランド全体に自国語でOpenAIのモデルと対話できる機会を提供することにつながります。Miðeindの音声アシスタントアプリ「Embla」では、GPT‑4をバックエンドとして使用することで、流暢なアイスランド語でユーザーと会話できるほか、他言語への翻訳が可能です。また、アイスランド企業は英語対応のチャットボットに頼らず、アイスランド語対応のチャットボットを自社サイトに導入できるようになります。

「私たちの取り組みがより高度なモデルに影響を与えていることに興奮しています。そして、アイスランド語がデジタル時代に生き残るためにOpenAIの支援を得られたことを嬉しく思います。」
Miðeind ehf 最高経営責任者、Vilhjálmur Þorsteinsson氏

ビジネス向け ChatGPT について詳しく知りたい方は、チームにご相談ください