메인 콘텐츠로 건너뛰기
OpenAI

2025년 11월 3일

리서치릴리스

IndQA 소개

IndQA는 인도 문화와 언어에 대한 AI 시스템을 평가하기 위해 개발된 새로운 벤치마크입니다.

모서리가 둥근 12개의 정사각형 버튼이 3x4 격자로 배열되어 있으며, 각 버튼에는 서로 다른 인도 문자 또는 라틴 알파벳 문자가 표시되어 있습니다. 표시된 문자는 벵골어(অ), 영어(En), 힌디어(ह), 칸나다어(Hi) 등 다양한 인도 언어 문자를 포함하며 연한 회색 배경 위에 배치되어 있습니다. 이 이미지는 다국어 지원 또는 언어 선택을 의미합니다.
로딩 중...

OpenAI의 사명은 모든 인류에게 유익한 범용인공지능(AGI)을 만드는 것입니다. AI가 모든 사람에게 유용한 도구가 되려면 다양한 언어와 문화를 폭넓게 이해해야 합니다. 전 세계 인구의 약 80%가 영어를 모국어로 사용하지 않음에도 비영어권 언어 역량을 측정하는 기존 벤치마크는 이를 충분히 반영하지 못하고 있습니다. 

MMMLU(새 창에서 열기) 같은 기존 다국어 벤치마크는 이미 포화 상태에 이르러 상위 모델들이 높은 점수대에 몰리게 되었고, 실제 성능을 구체적으로 평가하기는 어려워졌습니다. 또한 현재의 벤치마크는 주로 번역이나 객관식 작업에 초점을 맞추고 있어 AI 시스템의 언어 능력을 제대로 평가하는 데 중요한 요소인 문맥, 문화, 역사, 그리고 사람들이 살아가는 곳에서 중요하게 여기는 가치들을 충분히 반영하지 못합니다.

이러한 배경에서 IndQA가 탄생했습니다. IndQA는 인도 언어로 제기되는 다양한 문화적 주제에 대해 AI 모델이 얼마나 깊이 이해하고 논리적으로 추론할 수 있는지 평가할 수 있도록 OpenAI 팀이 새롭게 설계한 벤치마크입니다. OpenAI는 향후 다른 언어와 지역에 대해서도 유사한 벤치마크를 개발할 계획이며 인도는 그 출발점으로서 가장 적합한 지역으로 평가됩니다. 인도에서 영어를 주 언어로 사용하지 않는 인구는 약 10억 명에 달하며 22개의 공용어가 존재하고 그중 최소 7개는 5천만 명 이상이 사용합니다. 또한 인도는 전 세계에서 두 번째로 큰 ChatGPT 시장이기도 합니다.  

이 프로젝트는 인도 사용자를 위해 제품과 도구를 지속적으로 개선하고 인도 전역에서 더 많은 사용자들이 OpenAI의 기술을 손쉽게 활용할 수 있도록 하기 위한 지속적인 노력의 일환으로 진행되었습니다.

작동 방식

IndQA는 인도의 문화와 일상생활에 대한 지식 및 추론 능력을 인도 언어로 평가합니다. 인도 전역의 분야별 전문가 261명과 함께 제작했으며 12개 언어와 10개 문화 영역에 걸쳐 총 2,278개 문항으로 구성되어 있습니다. MMMLU나 MGSM 같은 기존 벤치마크와 달리 IndQA는 문화적 뉘앙스를 반영한 고난도 추론 과제를 다루도록 설계되어 기존 평가로는 포착하기 어려운 능력을 심층적으로 검증합니다.

IndQA는 건축과 디자인, 예술과 문화, 일상생활, 음식과 요리, 역사, 법과 윤리, 문학과 언어학, 미디어와 엔터테인먼트, 종교와 영성, 스포츠와 여가 활동 등 폭넓은 문화 관련 주제를 포함합니다. 질문은 벵골어, 영어, 힌디어, 힝글리시, 칸나다어, 마라티어, 오리야어, 텔루구어, 구자라트어, 말라얄람어, 펀자브어, 타밀어로 작성되었습니다. 참고: 대화에서 코드 전환이 널리 사용되는 점을 고려하여 특별히 힝글리시(Hinglish)가 추가되었습니다.

각 데이터 포인트에는 인도 언어로 작성된 문화 기반의 질문, 검증을 위한 영어 번역, 채점 기준이 되는 루브릭, 전문가의 기대를 반영한 이상적인 답변이 포함되어 있습니다.

평가 과정을 보여주는 다이어그램: 예시 사용자-어시스턴트 대화, 후보 응답, 해당 응답을 기준별로 채점하는 루브릭 표

IndQA는 루브릭 기반의 평가 방식을 사용합니다. 각 응답은 분야 전문가가 해당 질문에 대해 작성한 기준에 따라 평가됩니다. 이 기준은 이상적인 답변에 포함되어야 할 내용과 피해야 할 요소를 명확히 정의하며 중요도에 따라 각 항목에 가중 점수가 부여됩니다. 모델 기반 채점기는 각 기준이 충족되었는지 확인하고 최종 점수는 충족된 항목의 점수를 모두 합산한 값으로 산출됩니다.

IndQA 개발 과정

  • 전문가가 작성한 질문: OpenAI는 인도 전역의 10개 분야 전문가들과 협력했습니다. 이들은 각 지역과 전문 분야의 맥락을 반영해 추론 중심의 고난도 질문을 직접 작성했습니다. 모든 전문가들은 해당 언어(및 영어)를 원어 수준으로 구사하며 각 분야에 대한 깊은 이해와 전문성을 갖추고 있습니다.
  • 적대적 필터링: 각 질문은 생성 당시 OpenAI의 가장 강력한 모델인 GPT‑4o, OpenAI o3, GPT‑4.5 및 (공개 출시 이후 부분적으로) GPT‑5를 대상으로 테스트되었으며, 대부분의 모델이 적절한 답변을 내놓지 못한 질문만 선별해 향후 발전의 여지를 확보했습니다.
  • 세부 평가 기준: 분야별 전문가들은 논술형 시험의 루브릭과 유사한 형태로 모델의 응답을 평가하기 위한 세부 기준을 마련했습니다. 이러한 기준은 후보 모델의 응답을 채점하는 데 활용되었습니다.
  • 이상적인 답변과 검토: 전문가들은 각 질문에 대한 이상적인 답변과 영어 번역을 작성하고, 이후 동료 검토와 반복적인 수정 과정을 거쳐 최종적으로 확정했습니다.

질문 예시

언어: 벵골어

분야: 문학 및 언어학

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

분야: 음식 및 요리

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

시간에 따른 개선

OpenAI는 IndQA를 활용해 최근 공개된 최첨단 모델들의 성능을 평가하고 지난 몇 년간의 발전 추이를 시각화했습니다. IndQA 결과를 통해 OpenAI 모델이 인도 언어 전반에서 시간이 지남에 따라 뚜렷한 성능 향상을 보였음을 확인할 수 있지만(유의할 점) 개선의 여지는 여전히 남아 있습니다. OpenAI는 앞으로도 모델 성능을 지속적으로 개선하며 테스트 결과를 공유할 계획입니다.

아래에서는 언어와 분야별로 IndQA 성능을 세분화하여 GPT‑5 Thinking High 및 기타 최첨단 모델들의 결과를 비교했습니다.

유의사항

질문은 언어마다 동일하지 않으며 IndQA는 언어별 순위를 매기기 위한 리더보드로 설계되지 않았습니다. 따라서 언어 간 점수 차이를 언어 능력의 직접적인 비교로 해석해서는 안 됩니다. 대신 IndQA는 동일한 모델 계열 또는 구성 내에서 시간에 따른 성능 향상을 측정하는 데 활용될 수 있습니다.

또한 IndQA의 질문은 GPT‑4o, OpenAI o3, GPT‑4.5 및 (공개 출시 이후) GPT‑5가 충분히 답변하지 못한 문항만을 선별하는 적대적 필터링 과정을 거쳤습니다. 이로 인해 GPT‑5의 상대적 성능 평가에 혼선이 생길 수 있으며, 비 OpenAI 모델과 비교했을 때 OpenAI 모델 전반에 불리하게 작용할 가능성도 있습니다.

IndQA에 기여한 전문가들

언론인, 언어학자, 학자, 예술가, 산업 실무자 등 IndQA의 질문을 작성하고 검토해 주신 261명의 모든 인도 전문가분들께 깊은 감사의 인사를 전합니다. 함께 작업한 전문가 중 일부는 다음과 같습니다.

  • 750편 이상의 영화에 참여하고 난디상을 수상한 텔루구 배우 겸 시나리오 작가
  • 마라티 언론인 겸 타룬 바라트 편집자 
  • 칸나다어 언어학자 겸 사전 편집자
  • 세계 100위권 체스 선수들을 지도하는 국제 체스 그랜드마스터
  • 사회 정의, 카스트 평등, 문학적 자유를 옹호하는 타밀어 작가·시인·문화 활동가
  • 어워드 수상 경력을 보유한 펀자브 음악 작곡가
  • 문화유산 큐레이터 겸 보존 전문가
  • 어워드 수상 경력을 보유한 말라얄람어 시인 겸 공연 예술가
  • 벵골의 풍부한 문화유산을 연구하는 역사학 교수
  • 오디샤 사원을 연구하는 건축학 교수

다음 단계

OpenAI는 새롭게 공개된 IndQA를 통해 연구 커뮤니티가 새로운 벤치마크를 개발하는 데 영감을 얻을 수 있기를 바랍니다. IndQA와 같은 형식의 질문은 기존 AI 벤치마크에서 충분히 다뤄지지 않은 언어나 문화적 분야에서 특히 가치가 있습니다. AI 연구 기관들은 IndQA와 같은 벤치마크를 구축하여 현재 모델이 한계를 보이는 언어나 주제 영역을 더 깊이 이해하고, 향후 발전 방향을 제시하는 기준으로 활용할 수 있을 것입니다.