跳到主要內容
OpenAI

2025年11月3日

研究發佈

全新推出 IndQA

用於評估 AI 系統在印度文化與語言方面表現的新基準。

一個 3x4 的圓角方形按鈕網格,每個按鈕均顯示來自不同印度文字或拉丁字母的字元。當中包括孟加拉文 (অ)、英文 (En)、印地文 (ह)、卡納達文 (Hi) 等,代表多種印度語言,背景為淺灰色。此圖像表示多語言支援或語言選擇功能。
正在載入...

我們的使命是讓 AGI 造福全人類。AI 若要能真正惠及每個人,必須要在不同語言與文化中順暢運作。全球約有 80% 的人並非以英語為主要語言,但現有的多數基準仍不足以準確衡量非英語語言的能力。 

現有的多語言基準(如 MMMLU(在新視窗中開啟))已出現天花板效應,頂尖模型的分數高度集中,難以有效反映真實進展。此外,這些基準多聚焦於翻譯或選擇題任務,無法充分評估 AI 語言能力的核心:理解脈絡、文化、歷史,以及人們日常生活中真正重要的事物。

這正是我們開發 IndQA 的原因。這套全新評測基準旨在評估 AI 模型在印度語言中,對各種文化領域中重要議題的理解與推理能力。我們也計劃為其他語言和地區建立類似基準,而印度自然是最合適的起點。全印度約有十億人並非以英語為主要語言,擁有多達 22 種官方語言(其中至少七種語言的使用者超過五千萬),而印度更是 ChatGPT 的第二大市場。  

我們持續投入這項計劃,目標是為印度用戶改進產品和工具,並讓更多人能使用我們的技術。

運作方式

IndQA 評估 AI 在印度語言中對當地文化及日常生活知識的理解與推理能力。資料涵蓋 12 種語言、10 個文化領域,共 2278 條題目,由 OpenAI 聯同全印度 261 位領域專家共同設計。IndQA 不同於現有基準(如 MMMLU 和 MGSM),專為測試文化脈絡及高推理難度的任務而設,能捕捉以往評測難以呈現的細微差異。

IndQA 涵蓋多元的文化主題,包括建築與設計、藝術與文化、日常生活、飲食與烹飪、歷史、法律與倫理、文學與語言學、媒體與娛樂、宗教與靈性體育與休閒。題目以孟加拉語、英語、印地語、印地英語混合語、卡納達語、馬拉地語、奧里亞語、泰盧固語、古吉拉特語、馬拉雅拉姆語、旁遮普語泰米爾語撰寫。註:由於對話中常見語碼切換,我們特別加入了印地英語混合語 (Hinglish)。

每個資料點都包括以印度語言撰寫、具文化背景的提示語、一份作為審核用途的英語翻譯評分準則,以及反映專家預期的理想答案

示意圖說明評估流程:展示一段用戶與 AI 助理的對話、一個候選回覆,以及用以依據評分準則打分的表格。

IndQA 採用以評分準則為核心的方法。每個回答都根據領域專家為該題設定的標準進行評分。這些標準清楚列出理想答案應包含或避免的內容,並按其重要性分配不同權重。模型評分器會檢查各項標準是否達成,最終得分為符合準則的分數總和。

IndQA 的建立方式

  • 由專家撰寫的問題。我們與合作夥伴攜手,邀集遍佈印度、橫跨 10 個不同領域的專家。他們結合地區背景與專業知識,設計具挑戰性的推理題目。這些專家具備母語級的語言能力(包括英語),並擁有深厚的專業知識。
  • 對抗性篩選:每條問題都曾在 OpenAI 當時最強的模型上測試,包括 GPT‑4o、OpenAI o3、GPT‑4.5,以及 GPT‑5(部分題目於模型公開發布後測試)。我們只保留大多數模型無法提供可接受答案的問題,藉此保留未來改進的空間。
  • 詳細準則。每條問題都經過先進模型測試,只保留大部分模型無法提供合格答案的題目,以保留改進空間。候選模型的回答會依此標準評分。
  • 理想答案 + 審閱。專家提供理想答案與英語翻譯,經同儕審查及多次修訂後,最終確認定稿。

題目示例

語言:孟加拉語

領域:文學與語言學

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

領域:飲食與烹飪

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

持續改進

我們利用 IndQA 評估近年尖端模型的表現,並追蹤過去數年的進展。透過 IndQA,我們觀察到 OpenAI 的模型在處理印度語言方面(請見注意事項)有明顯提升,但仍有相當大的改進空間。我們期待持續提升未來模型的效能,並與各界分享成果。

我們亦根據語言及領域對 IndQA 的表現進行分類,並比較 GPT‑5 Thinking High 與其他前沿模型的結果。

注意事項

由於不同語言的題目內容並不相同,IndQA 並非語言排行榜,跨語言的分數不應直接用來比較語言能力。我們主要會利用 IndQA 觀察同一模型系列或設定在一段時間內的表現變化。

此外,由於題目只保留 GPT‑4o、OpenAI o3、GPT‑4.5 及(公開發布後的)GPT‑5 無法充分回答的部分,因此整體題目設計對這些模型具對抗性。這可能影響 GPT‑5 的相對表現,並令所有 OpenAI 模型在與其他非 OpenAI 模型比較時相對不利。

IndQA 背後的專家團隊

我們衷心感謝 261 位參與 IndQA 題目撰寫與審閱的印度專家,包括記者、語言學家、學者、藝術家及業界專業人士。部分與我們合作的專家如下:

  • 曾獲南迪獎的泰盧固語演員兼編劇,參與超過 750 部電影製作
  • 馬拉地語記者,現任《Tarun Bharat》編輯
  • 卡納達語語言學者兼字典編輯
  • 國際西洋棋特級大師,現任全球百大棋手教練
  • 泰米爾作家、詩人及文化行動者,致力推動社會公義、種姓平等與文學自由
  • 獲獎肯定的旁遮普音樂作曲家
  • 古吉拉特文化遺產策展人及保育專家
  • 獲獎肯定的馬拉雅拉姆語詩人及表演藝術家
  • 歷史學教授,專門研究孟加拉豐富的文化遺產
  • 建築學教授,研究重點為奧里薩邦的寺廟

下一步

我們希望 IndQA 的發佈能啟發研究界,推動新基準的建立。IndQA 所採用的題型,對於現有 AI 基準較少涵蓋的語言或文化領域,特別具有參考價值。建立類似 IndQA 的基準,能協助 AI 研究團隊深入了解現時模型仍難以處理的語言及領域,並為未來改進指明方向。