我们的使命是让通用人工智能 (AGI) 造福全人类。要实现这一目标,人工智能必须能够跨越语言与文化的界限,真正服务于每一个人。全球约有 80% 的人口并非以英语为主要语言,但目前用于评估非英语语言能力的基准测试大多仍显不足。
现有的多语言评测基准(如 MMMLU(在新窗口中打开) )已趋于饱和——顶尖模型的得分高度集中——这使得它们在衡量真实进展方面的作用逐渐减弱。此外,目前的评测基准大多聚焦于翻译或多项选择任务。它们均未能充分体现评估 AI 系统语言能力所真正重要的方面:理解语境、文化、历史,以及人们在其生活环境中真正关心的事物。
这正是我们开发全新基准 IndQA 的初衷。IndQA 旨在评估人工智能模型在印度语言中对关键问题的理解与推理能力,覆盖广泛的文化领域。虽然我们的长期目标是为其他语言和地区打造类似的基准,但印度无疑是最自然的起点。印度拥有约十亿并非以英语为主要语言的人口,官方语言多达 22 种(其中至少 7 种的使用者超过 5,000 万),同时也是 ChatGPT 的第二大市场。
这项工作体现了我们的一贯承诺:不断改进面向印度用户的产品与工具,并让我们的技术在全国范围内更加易于获取。
IndQA 用于评估人工智能模型在印度语言中对印度文化与日常生活的认知与推理能力。它涵盖 2,278 道问题,涉及 12 种语言和 10 个文化领域,并由来自全印度的 261 位领域专家共同参与创建。不同于现有的基准(如 MMMLU 和 MGSM),IndQA 的设计目标是深入考察具有文化语境差异、并高度依赖推理的任务——而这类任务往往超出了现有评测的覆盖范围。
IndQA 涵盖了广泛的文化相关主题,包括:建筑与设计、艺术与文化、日常生活、食品与烹饪、历史、法律与伦理、文学与语言学、媒体与娱乐、宗教与灵性,以及体育与休闲。内容由母语使用者以孟加拉语、英语、印地语、印式英语、卡纳达语、马拉地语、奥迪亚语、泰卢固语、古吉拉特语、马拉雅拉姆语、旁遮普语和泰米尔语撰写。注:我们特别加入了印式英语,以反映对话中频繁出现的语言切换现象。
每个数据点均包含:以印度语言呈现的、具有文化背景的提示;便于审查的英文翻译;评分所依据的量表标准;以及反映专家预期的理想答案。
IndQA 采用基于量表的评估方式。每个回复都会根据领域专家为该问题制定的标准进行评分。这些标准明确规定了理想答案应包含或避免的要素,并根据其重要性赋予不同的权重分值。随后,基于模型的评分器会逐项检查这些标准是否得到满足。最终得分则是所有满足条件的分值之和占总分的比例。
- 专家撰写的问题。我们与合作伙伴携手,在印度各地寻找涵盖 10 个不同领域的专家。这些专家根据自身所在地区与专业背景,设计了具有挑战性、强调推理能力的问题提示。他们不仅是相关语言(以及英语)的母语级使用者,同时具备深厚的学科知识。
- 对抗性过滤:每个问题在创建时都针对 OpenAI 的最强模型进行了测试:GPT‑4o、OpenAI o3、GPT‑4.5,以及 GPT‑5(在公开发布后部分测试)。我们仅保留那些大多数模型未能给出可接受答案的问题,以确保未来仍有改进空间。
- 详细的标准。针对每个问题,领域专家都提供了用于评估模型回复的评分标准,类似于作文题的考试评分量表。这些标准用于对候选模型的回复进行评分。
- 理想答案 + 审查。专家为每个问题撰写了理想答案,并提供了对应的英文翻译。随后,这些答案经过同行评审和多轮迭代修改,直到最终确认定稿。
语言:孟加拉语
领域:文学与语言学
领域:食品与烹饪
我们使用 IndQA 来评估最新前沿模型的表现,并追踪过去几年的进展。通过 IndQA,我们可以清晰地看到,OpenAI 的模型在印度语言上的表现随着时间显著提升(参见注意事项),但仍有相当大的改进空间。展望未来,我们将继续努力提升模型性能,并公布具体评测结果。
我们还按语言和领域对 IndQA 的评测结果进行了分层分析,并将 GPT‑5 Thinking High 与其他前沿模型进行了对比。
由于不同语言的问题有所不同,因此,IndQA 并非语言排行榜;跨语言的分数不应被直接解读为语言能力的比较。相反,我们计划利用 IndQA 来衡量同一模型家族或配置在一段时间内的改进。
此外,由于问题被筛选为 GPT‑4o、OpenAI o3、GPT‑4.5 以及 GPT‑5(公开发布后)无法充分回答的问题,因此问题选择对这些模型具有对抗性。这可能会混淆 GPT‑5 的相对性能,并可能使所有 OpenAI 模型相较于非 OpenAI 模型处于劣势。
我们非常感谢 261 位印度专家(包括记者、语言学家、学者、艺术家以及行业从业者),他们为 IndQA 撰写并审阅了问题。我们合作过的专家包括:
- 一位曾获南迪奖的泰卢固语演员兼编剧,参演电影超过 750 部
- 一位在 Tarun Bharat 工作的马拉地语记者兼编辑
- 一位卡纳达语语言学的学者和词典编辑
- 一位国际象棋特级大师,指导排名前 100 名的棋手
- 一位泰米尔语作家、诗人和文化活动家,倡导社会正义、种姓平等和文学自由
- 一位屡获殊荣的旁遮普语作曲家
- 一位古吉拉特遗产策展人和保护专家
- 一位屡获殊荣的马拉雅拉姆语诗人和表演艺术家
- 一位历史学教授,专攻孟加拉丰富的文化遗产
- 一位建筑学教授,研究重点为奥迪沙寺庙
我们希望 IndQA 的发布能够为研究社区带来启发,推动更多新评测基准的创建。IndQA 风格的问题在现有 AI 基准覆盖较弱的语言或文化领域中尤为重要。构建类似 IndQA 的基准,有助于 AI 研究机构更深入地了解模型在特定语言和领域中的挑战,并为未来的改进提供明确方向。



