2025年11月3日

隆重推出 IndQA

一项全新基准，专门用于衡量人工智能系统在印度文化与语言方面的能力。

一个由 3x4 个圆角方形按钮组成的网格，每个按钮上都包含一个来自不同印度文字或拉丁字母的字符。这些字符包括孟加拉语 (অ)、英语 (En)、印地语 (ह)、卡纳达语 (Hi) 以及其他代表各种印度语言的字符，背景为浅灰色。该图片表示多语言支持或多语言选择。

正在加载…

我们的使命是让通用人工智能 (AGI) 造福全人类。要实现这一目标，人工智能必须能够跨越语言与文化的界限，真正服务于每一个人。全球约有 80% 的人口并非以英语为主要语言，但目前用于评估非英语语言能力的基准测试大多仍显不足。

现有的多语言评测基准（如 MMMLU⁠（在新窗口中打开））已趋于饱和——顶尖模型的得分高度集中——这使得它们在衡量真实进展方面的作用逐渐减弱。此外，目前的评测基准大多聚焦于翻译或多项选择任务。它们均未能充分体现评估 AI 系统语言能力所真正重要的方面：理解语境、文化、历史，以及人们在其生活环境中真正关心的事物。

这正是我们开发全新基准 IndQA 的初衷。IndQA 旨在评估人工智能模型在印度语言中对关键问题的理解与推理能力，覆盖广泛的文化领域。虽然我们的长期目标是为其他语言和地区打造类似的基准，但印度无疑是最自然的起点。印度拥有约十亿并非以英语为主要语言的人口，官方语言多达 22 种（其中至少 7 种的使用者超过 5,000 万），同时也是 ChatGPT 的第二大市场。

这项工作体现了我们的一贯承诺：不断改进面向印度用户的产品与工具，并让我们的技术在全国范围内更加易于获取。

如何运作

IndQA 用于评估人工智能模型在印度语言中对印度文化与日常生活的认知与推理能力。它涵盖 2,278 道问题，涉及 12 种语言和 10 个文化领域，并由来自全印度的 261 位领域专家共同参与创建。不同于现有的基准（如 MMMLU 和 MGSM），IndQA 的设计目标是深入考察具有文化语境差异、并高度依赖推理的任务——而这类任务往往超出了现有评测的覆盖范围。

IndQA 涵盖了广泛的文化相关主题，包括：建筑与设计、艺术与文化、日常生活、食品与烹饪、历史、法律与伦理、文学与语言学、媒体与娱乐、宗教与灵性，以及体育与休闲。内容由母语使用者以孟加拉语、英语、印地语、印式英语、卡纳达语、马拉地语、奥迪亚语、泰卢固语、古吉拉特语、马拉雅拉姆语、旁遮普语和泰米尔语撰写。注：我们特别加入了印式英语，以反映对话中频繁出现的语言切换现象。

每个数据点均包含：以印度语言呈现的、具有文化背景的提示；便于审查的英文翻译；评分所依据的量表标准；以及反映专家预期的理想答案。

评估流程示意图：展示一个用户与助手的示例对话、一份候选回复，以及用于按评估标准评分的量表。

IndQA 采用基于量表的评估方式。每个回复都会根据领域专家为该问题制定的标准进行评分。这些标准明确规定了理想答案应包含或避免的要素，并根据其重要性赋予不同的权重分值。随后，基于模型的评分器会逐项检查这些标准是否得到满足。最终得分则是所有满足条件的分值之和占总分的比例。

IndQA 的构建过程

专家撰写的问题。我们与合作伙伴携手，在印度各地寻找涵盖 10 个不同领域的专家。这些专家根据自身所在地区与专业背景，设计了具有挑战性、强调推理能力的问题提示。他们不仅是相关语言（以及英语）的母语级使用者，同时具备深厚的学科知识。
对抗性过滤：每个问题在创建时都针对 OpenAI 的最强模型进行了测试：GPT‑4o、OpenAI o3、GPT‑4.5，以及 GPT‑5（在公开发布后部分测试）。我们仅保留那些大多数模型未能给出可接受答案的问题，以确保未来仍有改进空间。
详细的标准。针对每个问题，领域专家都提供了用于评估模型回复的评分标准，类似于作文题的考试评分量表。这些标准用于对候选模型的回复进行评分。
理想答案 + 审查。专家为每个问题撰写了理想答案，并提供了对应的英文翻译。随后，这些答案经过同行评审和多轮迭代修改，直到最终确认定稿。

问题示例

语言：孟加拉语

领域：文学与语言学

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

领域：食品与烹饪

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?