Przejdź do treści głównej
OpenAI

3 listopada 2025

BadaniaWersja

Przedstawiamy IndQA

Nowy metoda oceny systemów AI w odniesieniu do kultury i języków Indii.

Siatka 3x4 złożona z zaokrąglonych kwadratowych przycisków; każdy z nich jest opatrzony znakiem pochodzącym z różnych alfabetów indyjskich lub łacińskiego. Na jasnoszarym tle przedstawiono znak bengalski (অ), angielski (En), hindi (ह), kannada (Hi) i inne reprezentujące różne języki indyjskie. Obraz sugeruje obsługę wielu języków lub przegląd języków.
Ładowanie…

Naszą misją jest zapewnienie, aby modele AGI przynosiły korzyści całej ludzkości. Mają one być przydatne dla każdego, więc muszą dobrze działać w odniesieniu do różnych języków i kultur. Około 80 procent osób na całym świecie nie używa angielskiego jako pierwszego języka, a mimo to większość istniejących standardów oceny umiejętności w językach innych niż angielski jest niewystarczająca. 

Istniejące wielojęzyczne systemy, takie jak model MMMLU(otwiera nowe okno), są już nasycone — oznacza to, że najlepsze modele osiągają najwyższe możliwe wyniki — przez co są mniej przydatne do mierzenia rzeczywistego postępu. Ponadto obecne modele skupiają się głównie na tłumaczeniach lub zadaniach wielokrotnego wyboru. Więc nie obejmują one w wystarczającym stopniu zagadnień naprawdę istotnych w przypadku zdolności językowych systemu AI — zrozumienia kontekstu, kultury, historii i aspektów, które są ważne dla osób w ich miejscu zamieszkania.

Dlatego stworzyliśmy IndQA, nowy test porównawczy zaprojektowany do oceniania poziomu zrozumienia przez AI pytań istotnych w językach indyjskich, który obejmuje szeroki zakres aspektów kulturowych. Naszym celem jest tworzenie podobnych testów dla innych języków i regionów, jednak Indie są oczywistym miejscem rozpoczęcia tego typu działań, ponieważ są zamieszkałe przez około miliard ludzi, którzy nie używają angielskiego jako pierwszego języka. Ponadto obowiązują tam 22 języki urzędowe (w tym co najmniej siedem z nich jest używanych przez ponad 50 milionów osób) i kraj jest ten drugim co do wielkości rynkiem dla ChatGPT.  

Niniejsze opracowanie stanowi element nieustannego procesu ulepszania naszych produktów i narzędzi dla użytkowników z Indii oraz zwiększania dostępności naszej technologii w tym kraju.

Jak ten model działa?

Model IndQA pozwala oceniać wiedzę i umiejętność rozumowania w odniesieniu do kultury indyjskiej oraz życia codziennego w kontekście języków indyjskich. Składa się on z 2278 pytań w 12 językach i obejmuje 10 obszarów kulturowych, a nad jego tworzeniem czuwało 261 ekspertów z całych Indii. W przeciwieństwie do istniejących systemów, takich jak MMMLU i MGSM, został on zaprojektowany z myślą o badaniach zadań nacechowanych kulturowo i wymagających rozumowania, które są trudne do uchwycenia przez istniejące modele.

Model IndQA obejmuje szeroki zakres tematów istotnych kulturowo, takich jak architektura i projektowanie, sztuka i kultura, życie codzienne, jedzenie i kuchnia, historia, prawo i etyka, literatura i językoznawstwo, media i rozrywka, religia i duchowość oraz sport i rekreacja wraz z materiałami napisanymi w języku bengalskim, angielskim, hindi, hinglish, kannada, marathi, odia, telugu, gudżarati, malajalam, pendżabskim i tamilskim. Uwaga: język hinglish dodaliśmy ze względu na powszechność zmiany kodów w konwersacjach.

Każdy punkt danych zawiera polecenie ugruntowane kulturowo w języku indyjskim, tłumaczenie na język angielski dla celów audytu, kryteria oceny oraz idealną odpowiedź odzwierciedlającą oczekiwania ekspertów.

Diagram ilustrujący proces oceniania: przykładowa rozmowa użytkownika z asystentem, odpowiedź kandydata oraz tabela używana do oceny odpowiedzi według kryteriów.

W modelu tym stosowane jest podejście oparte na tabelach. Odpowiedź na każde pytanie jest oceniana według kryteriów opracowanych przez ekspertów z danej dziedziny. Kryteria określają informacje wymagane w idealnej odpowiedzi lub elementy, których należy unikać, a każdej z nich jest przyporządkowana wartość punktowa w oparciu o jej poprawność. Moduł oceniający oparty na modelu sprawdza, czy każde kryterium zostało spełnione. Wynik końcowy stanowi sumę punktów przyznawanych za spełnione kryteria względem całkowitej możliwej liczby punktów do uzyskania.

Jak stworzyliśmy IndQA?

  • Pytania opracowane przez ekspertów. Współpracowaliśmy z naszymi partnerami, którzy pomogli nam znaleźć indyjskich ekspertów specjalizujących się w 10 różnych dziedzinach. Opracowali oni złożone, skupiające się na rozumowaniu polecenia powiązane z ich regionami i specjalizacjami. Nasi eksperci są rodzimymi użytkownikami danego języka (oraz angielskiego) i dysponują dogłębną wiedzą z danej dziedziny.
  • Filtrowanie antagonistyczne: Każde pytanie zostało przetestowane na najsilniejszych modelach OpenAI w momencie ich powstania: GPT‑4o, OpenAI o3, GPT‑4.5 i (częściowo, po publicznym udostępnieniu) GPT‑5. Zachowaliśmy tylko te pytania, w przypadku których większość tych modeli nie zapewniła akceptowalnych odpowiedzi i wymagają one poprawy
  • Szczegółowe kryteria. Wraz z każdym pytaniem eksperci z danej dziedziny dostarczali kryteria używane do oceny odpowiedzi modelu; ich format przypomina arkusz egzaminacyjny używany do oceny wypowiedzi pisemnej. Kryteria te są używane do oceniania odpowiedzi modeli kandydujących.
  • Idealne odpowiedzi + weryfikacja. Eksperci podali idealne odpowiedzi i angielskie tłumaczenia, po czym rozpoczęto weryfikację wzajemną i iteracyjne wprowadzano poprawki aż do ostatecznego zatwierdzenia.

Przykładowe pytania

Język: bengalski

Dziedzina: literatura i językoznawstwo

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Dziedzina: żywność i kuchnia

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Kolejne usprawnienia

Od kilku lat IndQA służy nam do ocenienia działania najnowszych modeli pionierskich i śledzenia postępów. Dzięki IndQA widzimy, że modele OpenAI znacznie się poprawiły w przypadku języków indyjskich na przestrzeni czasu (z zastrzeżeniami), ale nadal wiele aspektów można ulepszyć. Z niecierpliwością oczekujemy dalszego wzrostu ich wydajności i z pewnością podzielimy się wynikami uzyskiwanymi przez przyszłe modele.

Poniżej również kategoryzujemy wydajność modelu IndQA według języka i dziedziny, porównując GPT‑5 Thinking High z innymi modelami pionierskimi.

Zastrzeżenia

Dla różnych języków pytania są odmienne, więc model IndQA nie jest tabelą rezultatów językowych; wyników między językami nie należy interpretować jako bezpośredniego porównania umiejętności językowych. Modelu IndQA planujemy użyć do zmierzenia poprawy jakości w perspektywie czasowej w obrębie rodziny modeli lub konfiguracji.

Ponadto pytania zostały przefiltrowane tak, aby modele GPT‑4o, OpenAI o3, GPT‑4.5 i (po publicznym udostępnieniu) GPT‑5 nie mogły udzielić zadowalających odpowiedzi, więc dobór pytań jest antagonistyczny dla tych modeli. Potencjalnie może to zaburzyć względną wydajność modelu GPT‑5 i stawiać wszystkie modele OpenAI w niekorzystnej sytuacji w porównaniu z modelami innymi niż opracowane przez OpenAI.

Eksperci współpracujący z IndQA

Jesteśmy wdzięczni 261 indyjskim ekspertom — dziennikarzom, językoznawcom, naukowcom, artystom i specjalistom z różnych branży — którzy opracowali i zrecenzowali pytania dla modelu IndQA. Kilku ekspertów, z którymi współpracowaliśmy, przedstawiamy poniżej:

  • laureat nagrody Nandi posługujący się językiem telugu, aktor i scenarzysta współpracujący przy produkcji ponad 750 filmów;
  • dziennikarz i redaktor w gazecie Tarun Bharat wydawanej w języku marathi; 
  • specjalista w dziedzinie językoznawstwa i redaktor słowników w języku kannada;
  • międzynarodowy arcymistrz szachowy, który trenuje 100 najlepszych szachistów;
  • tamilski pisarz, poeta i działacz kulturalny, opowiadający się za sprawiedliwością społeczną, równością kastową i wolnością literacką;
  • wielokrotnie nagradzany kompozytor muzyki pendżabskiej;
  • kurator dziedzictwa języka gudżarati i specjalista ds. konserwacji;
  • nagrodzony poeta malajalamski i artysta performatywny;
  • profesor historii specjalizujący się w bengalskim dziedzictwie kulturowym;
  • profesor architektury badający świątynie odishańskie.

Kolejne kroki

Mamy nadzieję, że wydanie modelu IndQA dostarczy społeczności badawczej informacji i inspiracji do tworzenia nowych testów porównawczych. Pytania podobne do modelu IndQA są szczególnie wartościowe w językach lub aspektach kulturowych, które są w niewielkim stopniu reprezentowane w istniejących testach porównawczych AI. Tworzenie testów porównawczych podobnych do modelu IndQA może pomóc laboratoriom badającym zajmującym się AI w poznawaniu języków i dziedzin, z którymi obecnie zmagają się modele, i stanowić punkt odniesienia dla przyszłych ulepszeń.