私たちの使命は、全人類に利益をもたらす AGI を創造することです。AI がすべての人にとって役立つものになるためには、言語や文化の違いを超えて適切に機能する必要があります。世界の約 80% の人々は英語を母語としていませんが、既存の多くのベンチマークは非英語言語における能力を十分に評価できていません。
MMMLU(新しいウィンドウで開く) のような既存の多言語ベンチマークは、現在ではすでに飽和状態にあり、上位モデルのスコアが高水準で横並びとなっているため、実際の進歩を測る指標としての有用性が低下しています。さらに、現在のベンチマークの多くは翻訳や選択式の課題に重点を置いており、AI システムの言語能力を評価するうえで本当に重要な要素—文脈、文化、歴史、そしてその土地で暮らす人々にとって大切な事柄を十分に捉えきれていません。
そこで私たちは、インドの言語において重要なテーマに対する AI モデルの理解力と推論力を、幅広い文化的分野にわたって評価するための新しいベンチマーク IndQA を開発しました。今後は他の言語や地域向けにも同様のベンチマークを構築していくことを目指していますが、インドはその出発点として最も自然な選択です。インドには、英語を第一言語として使用していない人が約 10 億人おり、22 の公用語(うち少なくとも 7 言語は 5,000 万人以上の話者を持つ)があり、さらに ChatGPT にとって世界第 2 位の市場でもあります。
この取り組みは、インドのユーザー向けに当社の製品やツールを改善し、国全体でより多くの方に当社のテクノロジーを利用していただけるようにするという、当社の継続的な取り組みの一環です。
IndQA は、インドの言語における文化や日常生活に関する知識と推論力を評価します。12 の言語と 10 の文化的領域にわたり、インド全土の 261 名の専門家と協力して作成された 2,278 の質問で構成されています。既存の MMMLU や MGSM のようなベンチマークとは異なり、IndQA は文化的ニュアンスを含む、より高度な推論を要する課題を評価できるよう設計されています。
IndQA は、建築とデザイン、芸術と文化、日常生活、食と料理、歴史、法律と倫理、文学と言語学、メディアとエンターテインメント、宗教と精神性、スポーツとレクリエーションなど、文化的に関連性の高い幅広いテーマを網羅しています。これらの設問は、ベンガル語、英語、ヒンディー語、ヒングリッシュ、カンナダ語、マラーティー語、オディア語、テルグ語、グジャラート語、マラヤーラム語、パンジャブ語、タミル語でそれぞれネイティブスピーカーによって作成されました。注:会話の中でコードスイッチング(言語の切り替え)が頻繁に行われることを踏まえ、特にヒングリッシュを追加しています。
各データポイントには、インドの文化的背景に根ざした現地言語でのプロンプト、検証可能性のための英語訳、採点のための評価基準、そして専門家の期待を反映した理想的な回答が含まれています。
IndQA は、ルーブリックに基づく評価手法を採用しています。各回答は、その特定の質問に対して専門家が作成した評価基準に照らして採点されます。評価基準では、理想的な回答に含めるべき要素や避けるべき点が明確に定義されており、それぞれの項目には重要度に応じて重みづけされた得点が設定されています。モデルベースの採点システムが、各基準を満たしているかどうかを判定し、設定された全評価項目のうち、満たした基準の得点の合計が、最終スコアとなります。
- 専門家による質問作成:私たちはパートナーと協力し、インド各地の 10 の異なる分野における専門家を探し出しました。彼らは、自身の地域や専門領域に基づき、推論力を重視した難易度の高いプロンプトを作成しました。これらの専門家は、対象言語(および英語)のネイティブレベルの話者であり、その分野における深い専門知識を有しています。
- 敵対的フィルタリング:各質問は作成時点での OpenAI の最も強力なモデルである GPT‑4o、OpenAI o3、GPT‑4.5、そして(一部は一般公開後に)GPT‑5 に対してテストされました。これらのモデルの大半が満足のいく回答を生成できなかった質問のみを残し、今後の改良に向けた余地を確保しました。
- 詳細な評価基準:各質問には、専門分野のエキスパートがモデルの回答を採点するための基準を設定しています。これは、論述試験の採点ルーブリックに近い形式です。これらの基準を用いて、候補となる各モデルの回答が評価されます。
- 理想的な回答とレビュー:専門家が理想的な回答と英語訳を作成し、その後、相互レビューと複数回の修正を経て最終承認に至りました。
言語:ベンガル語
分野:文学と言語学
分野:食と料理
私たちは IndQA を活用して、最新のフロンティアモデルの性能を評価し、ここ数年の進歩を可視化しています。IndQA によって、OpenAI のモデルがインドの言語において時間とともに大きく改善していることが確認できますが(注意事項 あり)、それでも、さらなる改善の余地は依然として大きく残されています。今後も性能の向上に取り組み、将来のモデルの結果を共有していく予定です。
また、以下では IndQA におけるパフォーマンスを言語別および分野別に層別化し、GPT‑5 Thinking High と他のフロンティアモデルを比較しています。
言語ごとに質問内容が同一ではないため、IndQA は言語間のランキングを示す「リーダーボード」ではありません。したがって、異なる言語間のスコアをそのまま言語能力の比較として解釈すべきではありません。その代わりに、IndQA はモデルファミリーや設定ごとの経時的な性能向上を測定する目的で活用していく予定です。
さらに、質問は GPT‑4o、OpenAI o3、GPT‑4.5、そして(一般公開後の)GPT‑5 が十分に回答できなかったものに絞り込まれているため、質問の選定自体がこれらのモデルに対して敵対的な性質を持っています。これにより、GPT‑5 の相対的な性能評価が混乱する可能性があり、OpenAI 以外のモデルと比較した場合に、すべての OpenAI モデルが不利になるおそれがあります。
IndQA の質問作成とレビューに携わってくださった、261 名のインドの専門家の皆さま(ジャーナリスト、言語学者、研究者、アーティスト、そして各業界の実務家)に心より感謝いたします。以下は、ご協力いただいた専門家の一例です。
- 750 本以上の映画で出演と脚本を手掛け、ナンディ賞を受賞したテルグ語映画の俳優兼脚本家
- タルン・バラト紙のマラーティー語ジャーナリスト兼編集者
- カンナダ語学の研究者で、辞書編集者
- 世界的チェス・グランドマスターで、トップ100の棋士を指導するコーチ
- 社会的正義、カースト平等、そして表現の自由を提唱するタミル語の作家・詩人・文化活動家
- 受賞歴のあるパンジャブ音楽の作曲家
- グジャラート文化遺産のキュレーターで、保存の専門家
- 受賞歴のあるマラヤーラム語の詩人で、パフォーマンスアーティスト
- ベンガルの豊かな文化遺産を専門とする歴史学教授
- オディシャの寺院を研究する建築学教授
IndQA の公開が、研究コミュニティにおける新たなベンチマーク開発のきっかけや発想の源となることを期待しています。IndQA 形式の設問は、既存の AI ベンチマークで十分に扱われていない言語や文化的分野において特に価値があります。IndQA のようなベンチマークを構築することで、AI 研究機関は現在のモデルが苦手とする言語や分野についてより深く理解し、将来的な改良に向けた指針を得ることができるでしょう。



