我們的使命是讓 AGI 造福全人類。AI 若要真正對所有人都有幫助,就必須在跨語言與跨文化的環境中同樣運作良好。全球約有 80% 的人並非以英語為主要語言,但現有的多數基準仍不足以準確衡量非英語語言的能力。
現有的多語言基準,如 MMMLU(在新視窗中開啟) 已出現天花板效應,頂尖模型的分數高度集中,難以反映實際進展。此外,現有基準多著重於翻譯或多選題任務,無法充分捕捉 AI 語言能力的核心:理解脈絡、文化、歷史,以及人們生活中真正重要的事物。
這正是我們打造 IndQA 的原因,這套全新評測基準用於檢驗 AI 模型在印度語言中,對各種文化領域中重要議題的理解與推理能力。我們也規劃為其他語言與地區建立類似基準,而印度自然成為最佳起點。全印度約有十億人的主要語言非英語,官方語言多達 22 種(其中至少七種語言的使用者超過五千萬),印度同時也是 ChatGPT 的第二大市場。
我們持續耕耘這項計畫,目標是要為印度使用者改進產品與工具,讓更多人能接觸並運用我們的技術。
IndQA 評估 AI 在印度語言中對當地文化與日常生活知識的理解與推理能力。資料涵蓋 12 種語言、10 個文化領域,共 2278 題,由 OpenAI 與全印度 261 位領域專家共同設計。IndQA 不同於現有基準(如 MMMLU 和 MGSM),專為測試文化脈絡與深層推理任務而生,能捕捉以往評測難以反映的細節。
IndQA 涵蓋多元的文化主題,包括建築與設計、藝術與文化、日常生活、飲食與料理、歷史、法律與倫理、文學與語言學、媒體與娛樂、宗教與靈性及體育與休閒。題目以孟加拉語、英語、印地語、印地英語混合語、卡納達語、馬拉地語、奧里亞語、泰盧固語、古吉拉特語、馬拉雅拉姆語、旁遮普語和泰米爾語撰寫。註:由於對話中時常出現語碼切換,我們特別加入了印地英語混合語 (Hinglish)。
每個資料點都包含一個以印度語言撰寫、與當地文化相關的提示詞、一份用於審核的英語翻譯、評分規準,以及一個符合專家預期的理想答案。
IndQA 採用以評分規準為核心的方法。每個回應都依據領域專家為該問題撰寫的標準進行評分。這些標準明確說明理想答案應包含或避免的內容,並根據重要性設定不同的加權分數。模型評分器會檢查每項標準是否達成,最終得分則是滿足條件的分數總和。
- 由專家撰寫的問題。我們與合作夥伴攜手,邀集印度各地、橫跨 10 個不同領域的專家。他們結合地方背景與自身專業,草擬高難度推理題目。這些專家具備母語等級的語言能力(含英語),並擁有深厚的專業背景。
- 對抗性篩選:每個問題都曾在 OpenAI 當時最強的模型上進行測試,包括 GPT‑4o、OpenAI o3、GPT‑4.5,以及 GPT‑5(部分題目於模型公開發布後測試)。我們僅保留大多數模型無法給出可接受答案的問題,藉此保留未來改進的空間。
- 詳細標準。每個問題都附有相關領域專家提供的評分標準,用以評估模型回應,形式類似作文題的評分規準。候選模型的回應會根據這套標準來評分。
- 理想答案 + 審閱。專家提供理想答案與英語翻譯,經同儕審查與多次修訂後,才完成最終定稿。
語言:孟加拉語
領域:文學與語言學
領域:飲食與料理
我們使用 IndQA 來評估近期前沿模型的表現,並追蹤近年來的發展。我們從 IndQA 觀察到,OpenAI 的模型在處理印度語言(請見注意事項)方面已有顯著進步,但仍有相當大的改善空間。我們期待持續提升未來模型的效能,並與大家分享成果。
我們也根據語言與領域對 IndQA 的表現進行分類,並比較 GPT‑5 Thinking High 與其他前沿模型的結果。
由於不同語言的題目內容各不相同,IndQA 並非語言排行榜,跨語言的分數不能直接拿來比較語言能力。我們主要會用 IndQA 來追蹤同一系列模型或設定在一段時間內的進步情況。
此外,由於題目僅保留 GPT‑4o、OpenAI o3、GPT‑4.5 及(公開發布後的)GPT‑5 無法充分回答的部分,因此整體題目設計對這些模型具對抗性。這可能會影響 GPT‑5 的相對表現,並使所有 OpenAI 模型在與其他非 OpenAI 模型比較時相對不利。
我們誠摯感謝 261 位參與 IndQA 題目撰寫與審查的印度專家,包括記者、語言學家、學者、藝術家與其他專業人士。以下列出部分專家的背景:
- 曾獲南迪獎的泰盧固語演員與編劇,參與超過 750 部電影的製作
- 馬拉地語記者,現任《Tarun Bharat》編輯
- 卡納達語語言學學者與字典編輯
- 國際西洋棋特級大師,現任百大棋手教練
- 泰米爾作家、詩人與文化行動家,致力推動社會正義、種姓平等與文學自由
- 獲獎肯定的旁遮普音樂作曲家
- 古吉拉特文化遺產策展人與保育專家
- 獲獎肯定的馬拉雅拉姆語詩人兼表演藝術家
- 歷史學教授,專精於孟加拉豐富的文化遺產
- 建築學教授,研究焦點為奧里薩邦的寺廟
我們希望 IndQA 的發布能啟發研究社群,推動新基準的開發。IndQA 採用的題型,對於現有 AI 基準較少涵蓋的語言或文化領域,特別具有參考價值。建立類似 IndQA 的基準,可協助 AI 研究團隊深入了解目前模型難以處理的語言與領域,並指引未來持續改進的方向。



