我們的使命是讓 AGI 造福全人類。AI 若要能真正惠及每個人,必須要在不同語言與文化中順暢運作。全球約有 80% 的人並非以英語為主要語言,但現有的多數基準仍不足以準確衡量非英語語言的能力。
現有的多語言基準(如 MMMLU(在新視窗中開啟))已出現天花板效應,頂尖模型的分數高度集中,難以有效反映真實進展。此外,這些基準多聚焦於翻譯或選擇題任務,無法充分評估 AI 語言能力的核心:理解脈絡、文化、歷史,以及人們日常生活中真正重要的事物。
這正是我們開發 IndQA 的原因。這套全新評測基準旨在評估 AI 模型在印度語言中,對各種文化領域中重要議題的理解與推理能力。我們也計劃為其他語言和地區建立類似基準,而印度自然是最合適的起點。全印度約有十億人並非以英語為主要語言,擁有多達 22 種官方語言(其中至少七種語言的使用者超過五千萬),而印度更是 ChatGPT 的第二大市場。
我們持續投入這項計劃,目標是為印度用戶改進產品和工具,並讓更多人能使用我們的技術。
IndQA 評估 AI 在印度語言中對當地文化及日常生活知識的理解與推理能力。資料涵蓋 12 種語言、10 個文化領域,共 2278 條題目,由 OpenAI 聯同全印度 261 位領域專家共同設計。IndQA 不同於現有基準(如 MMMLU 和 MGSM),專為測試文化脈絡及高推理難度的任務而設,能捕捉以往評測難以呈現的細微差異。
IndQA 涵蓋多元的文化主題,包括建築與設計、藝術與文化、日常生活、飲食與烹飪、歷史、法律與倫理、文學與語言學、媒體與娛樂、宗教與靈性及體育與休閒。題目以孟加拉語、英語、印地語、印地英語混合語、卡納達語、馬拉地語、奧里亞語、泰盧固語、古吉拉特語、馬拉雅拉姆語、旁遮普語和泰米爾語撰寫。註:由於對話中常見語碼切換,我們特別加入了印地英語混合語 (Hinglish)。
每個資料點都包括以印度語言撰寫、具文化背景的提示語、一份作為審核用途的英語翻譯、評分準則,以及反映專家預期的理想答案。
IndQA 採用以評分準則為核心的方法。每個回答都根據領域專家為該題設定的標準進行評分。這些標準清楚列出理想答案應包含或避免的內容,並按其重要性分配不同權重。模型評分器會檢查各項標準是否達成,最終得分為符合準則的分數總和。
- 由專家撰寫的問題。我們與合作夥伴攜手,邀集遍佈印度、橫跨 10 個不同領域的專家。他們結合地區背景與專業知識,設計具挑戰性的推理題目。這些專家具備母語級的語言能力(包括英語),並擁有深厚的專業知識。
- 對抗性篩選:每條問題都曾在 OpenAI 當時最強的模型上測試,包括 GPT‑4o、OpenAI o3、GPT‑4.5,以及 GPT‑5(部分題目於模型公開發布後測試)。我們只保留大多數模型無法提供可接受答案的問題,藉此保留未來改進的空間。
- 詳細準則。每條問題都經過先進模型測試,只保留大部分模型無法提供合格答案的題目,以保留改進空間。候選模型的回答會依此標準評分。
- 理想答案 + 審閱。專家提供理想答案與英語翻譯,經同儕審查及多次修訂後,最終確認定稿。
語言:孟加拉語
領域:文學與語言學
領域:飲食與烹飪
我們利用 IndQA 評估近年尖端模型的表現,並追蹤過去數年的進展。透過 IndQA,我們觀察到 OpenAI 的模型在處理印度語言方面(請見注意事項)有明顯提升,但仍有相當大的改進空間。我們期待持續提升未來模型的效能,並與各界分享成果。
我們亦根據語言及領域對 IndQA 的表現進行分類,並比較 GPT‑5 Thinking High 與其他前沿模型的結果。
由於不同語言的題目內容並不相同,IndQA 並非語言排行榜,跨語言的分數不應直接用來比較語言能力。我們主要會利用 IndQA 觀察同一模型系列或設定在一段時間內的表現變化。
此外,由於題目只保留 GPT‑4o、OpenAI o3、GPT‑4.5 及(公開發布後的)GPT‑5 無法充分回答的部分,因此整體題目設計對這些模型具對抗性。這可能影響 GPT‑5 的相對表現,並令所有 OpenAI 模型在與其他非 OpenAI 模型比較時相對不利。
我們衷心感謝 261 位參與 IndQA 題目撰寫與審閱的印度專家,包括記者、語言學家、學者、藝術家及業界專業人士。部分與我們合作的專家如下:
- 曾獲南迪獎的泰盧固語演員兼編劇,參與超過 750 部電影製作
- 馬拉地語記者,現任《Tarun Bharat》編輯
- 卡納達語語言學者兼字典編輯
- 國際西洋棋特級大師,現任全球百大棋手教練
- 泰米爾作家、詩人及文化行動者,致力推動社會公義、種姓平等與文學自由
- 獲獎肯定的旁遮普音樂作曲家
- 古吉拉特文化遺產策展人及保育專家
- 獲獎肯定的馬拉雅拉姆語詩人及表演藝術家
- 歷史學教授,專門研究孟加拉豐富的文化遺產
- 建築學教授,研究重點為奧里薩邦的寺廟
我們希望 IndQA 的發佈能啟發研究界,推動新基準的建立。IndQA 所採用的題型,對於現有 AI 基準較少涵蓋的語言或文化領域,特別具有參考價值。建立類似 IndQA 的基準,能協助 AI 研究團隊深入了解現時模型仍難以處理的語言及領域,並為未來改進指明方向。



