跳至主要內容
OpenAI

2025年11月3日

研究發布

全新推出 IndQA

針對 AI 系統在印度文化與語言方面表現的全新評分基準。

一個 3x4 的圓角方形按鈕網格,每個按鈕上皆顯示一個來自不同印度文字或拉丁字母的字元。其中包括孟加拉文 (অ)、英文 (En)、印地文 (ह)、卡納達文 (Hi) 等,代表多種印度語言,背景為淺灰色。此圖像表示多語言支援或語言選擇功能。
載入中…

我們的使命是讓 AGI 造福全人類。AI 若要真正對所有人都有幫助,就必須在跨語言與跨文化的環境中同樣運作良好。全球約有 80% 的人並非以英語為主要語言,但現有的多數基準仍不足以準確衡量非英語語言的能力。

現有的多語言基準,如 MMMLU(在新視窗中開啟) 已出現天花板效應,頂尖模型的分數高度集中,難以反映實際進展。此外,現有基準多著重於翻譯或多選題任務,無法充分捕捉 AI 語言能力的核心:理解脈絡、文化、歷史,以及人們生活中真正重要的事物。

這正是我們打造 IndQA 的原因,這套全新評測基準用於檢驗 AI 模型在印度語言中,對各種文化領域中重要議題的理解與推理能力。我們也規劃為其他語言與地區建立類似基準,而印度自然成為最佳起點。全印度約有十億人的主要語言非英語,官方語言多達 22 種(其中至少七種語言的使用者超過五千萬),印度同時也是 ChatGPT 的第二大市場。  

我們持續耕耘這項計畫,目標是要為印度使用者改進產品與工具,讓更多人能接觸並運用我們的技術。

運作方式

IndQA 評估 AI 在印度語言中對當地文化與日常生活知識的理解與推理能力。資料涵蓋 12 種語言、10 個文化領域,共 2278 題,由 OpenAI 與全印度 261 位領域專家共同設計。IndQA 不同於現有基準(如 MMMLU 和 MGSM),專為測試文化脈絡與深層推理任務而生,能捕捉以往評測難以反映的細節。

IndQA 涵蓋多元的文化主題,包括建築與設計、藝術與文化、日常生活、飲食與料理、歷史、法律與倫理、文學與語言學、媒體與娛樂、宗教與靈性體育與休閒。題目以孟加拉語、英語、印地語、印地英語混合語、卡納達語、馬拉地語、奧里亞語、泰盧固語、古吉拉特語、馬拉雅拉姆語、旁遮普語泰米爾語撰寫。註:由於對話中時常出現語碼切換,我們特別加入了印地英語混合語 (Hinglish)。

每個資料點都包含一個以印度語言撰寫、與當地文化相關的提示詞、一份用於審核的英語翻譯評分規準,以及一個符合專家預期的理想答案

說明評估流程的圖表:展示一段使用者與 AI 助理的對話、一則候選回覆,以及用以評分該回覆的規準表格。

IndQA 採用以評分規準為核心的方法。每個回應都依據領域專家為該問題撰寫的標準進行評分。這些標準明確說明理想答案應包含或避免的內容,並根據重要性設定不同的加權分數。模型評分器會檢查每項標準是否達成,最終得分則是滿足條件的分數總和。

IndQA 的建構方式

  • 由專家撰寫的問題。我們與合作夥伴攜手,邀集印度各地、橫跨 10 個不同領域的專家。他們結合地方背景與自身專業,草擬高難度推理題目。這些專家具備母語等級的語言能力(含英語),並擁有深厚的專業背景。
  • 對抗性篩選:每個問題都曾在 OpenAI 當時最強的模型上進行測試,包括 GPT‑4o、OpenAI o3、GPT‑4.5,以及 GPT‑5(部分題目於模型公開發布後測試)。我們僅保留大多數模型無法給出可接受答案的問題,藉此保留未來改進的空間。
  • 詳細標準。每個問題都附有相關領域專家提供的評分標準,用以評估模型回應,形式類似作文題的評分規準。候選模型的回應會根據這套標準來評分。
  • 理想答案 + 審閱。專家提供理想答案與英語翻譯,經同儕審查與多次修訂後,才完成最終定稿。

題目範例

語言:孟加拉語

領域:文學與語言學

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

領域:飲食與料理

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

持續改進

我們使用 IndQA 來評估近期前沿模型的表現,並追蹤近年來的發展。我們從 IndQA 觀察到,OpenAI 的模型在處理印度語言(請見注意事項)方面已有顯著進步,但仍有相當大的改善空間。我們期待持續提升未來模型的效能,並與大家分享成果。

我們也根據語言與領域對 IndQA 的表現進行分類,並比較 GPT‑5 Thinking High 與其他前沿模型的結果。

注意事項

由於不同語言的題目內容各不相同,IndQA 並非語言排行榜,跨語言的分數不能直接拿來比較語言能力。我們主要會用 IndQA 來追蹤同一系列模型或設定在一段時間內的進步情況。

此外,由於題目僅保留 GPT‑4o、OpenAI o3、GPT‑4.5 及(公開發布後的)GPT‑5 無法充分回答的部分,因此整體題目設計對這些模型具對抗性。這可能會影響 GPT‑5 的相對表現,並使所有 OpenAI 模型在與其他非 OpenAI 模型比較時相對不利。

IndQA 幕後的專家團隊

我們誠摯感謝 261 位參與 IndQA 題目撰寫與審查的印度專家,包括記者、語言學家、學者、藝術家與其他專業人士。以下列出部分專家的背景:

  • 曾獲南迪獎的泰盧固語演員與編劇,參與超過 750 部電影的製作
  • 馬拉地語記者,現任《Tarun Bharat》編輯
  • 卡納達語語言學學者與字典編輯
  • 國際西洋棋特級大師,現任百大棋手教練
  • 泰米爾作家、詩人與文化行動家,致力推動社會正義、種姓平等與文學自由
  • 獲獎肯定的旁遮普音樂作曲家
  • 古吉拉特文化遺產策展人與保育專家
  • 獲獎肯定的馬拉雅拉姆語詩人兼表演藝術家
  • 歷史學教授,專精於孟加拉豐富的文化遺產
  • 建築學教授,研究焦點為奧里薩邦的寺廟

後續步驟

我們希望 IndQA 的發布能啟發研究社群,推動新基準的開發。IndQA 採用的題型,對於現有 AI 基準較少涵蓋的語言或文化領域,特別具有參考價值。建立類似 IndQA 的基準,可協助 AI 研究團隊深入了解目前模型難以處理的語言與領域,並指引未來持續改進的方向。