
Naszą misją jest zapewnienie, aby modele AGI przynosiły korzyści całej ludzkości. Mają one być przydatne dla każdego, więc muszą dobrze działać w odniesieniu do różnych języków i kultur. Około 80 procent osób na całym świecie nie używa angielskiego jako pierwszego języka, a mimo to większość istniejących standardów oceny umiejętności w językach innych niż angielski jest niewystarczająca.
Istniejące wielojęzyczne systemy, takie jak model MMMLU(otwiera nowe okno), są już nasycone — oznacza to, że najlepsze modele osiągają najwyższe możliwe wyniki — przez co są mniej przydatne do mierzenia rzeczywistego postępu. Ponadto obecne modele skupiają się głównie na tłumaczeniach lub zadaniach wielokrotnego wyboru. Więc nie obejmują one w wystarczającym stopniu zagadnień naprawdę istotnych w przypadku zdolności językowych systemu AI — zrozumienia kontekstu, kultury, historii i aspektów, które są ważne dla osób w ich miejscu zamieszkania.
Dlatego stworzyliśmy IndQA, nowy test porównawczy zaprojektowany do oceniania poziomu zrozumienia przez AI pytań istotnych w językach indyjskich, który obejmuje szeroki zakres aspektów kulturowych. Naszym celem jest tworzenie podobnych testów dla innych języków i regionów, jednak Indie są oczywistym miejscem rozpoczęcia tego typu działań, ponieważ są zamieszkałe przez około miliard ludzi, którzy nie używają angielskiego jako pierwszego języka. Ponadto obowiązują tam 22 języki urzędowe (w tym co najmniej siedem z nich jest używanych przez ponad 50 milionów osób) i kraj jest ten drugim co do wielkości rynkiem dla ChatGPT.
Niniejsze opracowanie stanowi element nieustannego procesu ulepszania naszych produktów i narzędzi dla użytkowników z Indii oraz zwiększania dostępności naszej technologii w tym kraju.
Model IndQA pozwala oceniać wiedzę i umiejętność rozumowania w odniesieniu do kultury indyjskiej oraz życia codziennego w kontekście języków indyjskich. Składa się on z 2278 pytań w 12 językach i obejmuje 10 obszarów kulturowych, a nad jego tworzeniem czuwało 261 ekspertów z całych Indii. W przeciwieństwie do istniejących systemów, takich jak MMMLU i MGSM, został on zaprojektowany z myślą o badaniach zadań nacechowanych kulturowo i wymagających rozumowania, które są trudne do uchwycenia przez istniejące modele.
Model IndQA obejmuje szeroki zakres tematów istotnych kulturowo, takich jak architektura i projektowanie, sztuka i kultura, życie codzienne, jedzenie i kuchnia, historia, prawo i etyka, literatura i językoznawstwo, media i rozrywka, religia i duchowość oraz sport i rekreacja wraz z materiałami napisanymi w języku bengalskim, angielskim, hindi, hinglish, kannada, marathi, odia, telugu, gudżarati, malajalam, pendżabskim i tamilskim. Uwaga: język hinglish dodaliśmy ze względu na powszechność zmiany kodów w konwersacjach.
Każdy punkt danych zawiera polecenie ugruntowane kulturowo w języku indyjskim, tłumaczenie na język angielski dla celów audytu, kryteria oceny oraz idealną odpowiedź odzwierciedlającą oczekiwania ekspertów.
W modelu tym stosowane jest podejście oparte na tabelach. Odpowiedź na każde pytanie jest oceniana według kryteriów opracowanych przez ekspertów z danej dziedziny. Kryteria określają informacje wymagane w idealnej odpowiedzi lub elementy, których należy unikać, a każdej z nich jest przyporządkowana wartość punktowa w oparciu o jej poprawność. Moduł oceniający oparty na modelu sprawdza, czy każde kryterium zostało spełnione. Wynik końcowy stanowi sumę punktów przyznawanych za spełnione kryteria względem całkowitej możliwej liczby punktów do uzyskania.
- Pytania opracowane przez ekspertów. Współpracowaliśmy z naszymi partnerami, którzy pomogli nam znaleźć indyjskich ekspertów specjalizujących się w 10 różnych dziedzinach. Opracowali oni złożone, skupiające się na rozumowaniu polecenia powiązane z ich regionami i specjalizacjami. Nasi eksperci są rodzimymi użytkownikami danego języka (oraz angielskiego) i dysponują dogłębną wiedzą z danej dziedziny.
- Filtrowanie antagonistyczne: Każde pytanie zostało przetestowane na najsilniejszych modelach OpenAI w momencie ich powstania: GPT‑4o, OpenAI o3, GPT‑4.5 i (częściowo, po publicznym udostępnieniu) GPT‑5. Zachowaliśmy tylko te pytania, w przypadku których większość tych modeli nie zapewniła akceptowalnych odpowiedzi i wymagają one poprawy
- Szczegółowe kryteria. Wraz z każdym pytaniem eksperci z danej dziedziny dostarczali kryteria używane do oceny odpowiedzi modelu; ich format przypomina arkusz egzaminacyjny używany do oceny wypowiedzi pisemnej. Kryteria te są używane do oceniania odpowiedzi modeli kandydujących.
- Idealne odpowiedzi + weryfikacja. Eksperci podali idealne odpowiedzi i angielskie tłumaczenia, po czym rozpoczęto weryfikację wzajemną i iteracyjne wprowadzano poprawki aż do ostatecznego zatwierdzenia.
Język: bengalski
Dziedzina: literatura i językoznawstwo
Dziedzina: żywność i kuchnia
Od kilku lat IndQA służy nam do ocenienia działania najnowszych modeli pionierskich i śledzenia postępów. Dzięki IndQA widzimy, że modele OpenAI znacznie się poprawiły w przypadku języków indyjskich na przestrzeni czasu (z zastrzeżeniami), ale nadal wiele aspektów można ulepszyć. Z niecierpliwością oczekujemy dalszego wzrostu ich wydajności i z pewnością podzielimy się wynikami uzyskiwanymi przez przyszłe modele.
Poniżej również kategoryzujemy wydajność modelu IndQA według języka i dziedziny, porównując GPT‑5 Thinking High z innymi modelami pionierskimi.
Dla różnych języków pytania są odmienne, więc model IndQA nie jest tabelą rezultatów językowych; wyników między językami nie należy interpretować jako bezpośredniego porównania umiejętności językowych. Modelu IndQA planujemy użyć do zmierzenia poprawy jakości w perspektywie czasowej w obrębie rodziny modeli lub konfiguracji.
Ponadto pytania zostały przefiltrowane tak, aby modele GPT‑4o, OpenAI o3, GPT‑4.5 i (po publicznym udostępnieniu) GPT‑5 nie mogły udzielić zadowalających odpowiedzi, więc dobór pytań jest antagonistyczny dla tych modeli. Potencjalnie może to zaburzyć względną wydajność modelu GPT‑5 i stawiać wszystkie modele OpenAI w niekorzystnej sytuacji w porównaniu z modelami innymi niż opracowane przez OpenAI.
Jesteśmy wdzięczni 261 indyjskim ekspertom — dziennikarzom, językoznawcom, naukowcom, artystom i specjalistom z różnych branży — którzy opracowali i zrecenzowali pytania dla modelu IndQA. Kilku ekspertów, z którymi współpracowaliśmy, przedstawiamy poniżej:
- laureat nagrody Nandi posługujący się językiem telugu, aktor i scenarzysta współpracujący przy produkcji ponad 750 filmów;
- dziennikarz i redaktor w gazecie Tarun Bharat wydawanej w języku marathi;
- specjalista w dziedzinie językoznawstwa i redaktor słowników w języku kannada;
- międzynarodowy arcymistrz szachowy, który trenuje 100 najlepszych szachistów;
- tamilski pisarz, poeta i działacz kulturalny, opowiadający się za sprawiedliwością społeczną, równością kastową i wolnością literacką;
- wielokrotnie nagradzany kompozytor muzyki pendżabskiej;
- kurator dziedzictwa języka gudżarati i specjalista ds. konserwacji;
- nagrodzony poeta malajalamski i artysta performatywny;
- profesor historii specjalizujący się w bengalskim dziedzictwie kulturowym;
- profesor architektury badający świątynie odishańskie.
Mamy nadzieję, że wydanie modelu IndQA dostarczy społeczności badawczej informacji i inspiracji do tworzenia nowych testów porównawczych. Pytania podobne do modelu IndQA są szczególnie wartościowe w językach lub aspektach kulturowych, które są w niewielkim stopniu reprezentowane w istniejących testach porównawczych AI. Tworzenie testów porównawczych podobnych do modelu IndQA może pomóc laboratoriom badającym zajmującym się AI w poznawaniu języków i dziedzin, z którymi obecnie zmagają się modele, i stanowić punkt odniesienia dla przyszłych ulepszeń.


