Jetzt neu: IndQA
Ein neuer Maßstab zur Bewertung von KI-Systemen in Bezug auf die indische Kultur und Sprachen.

Unsere Mission ist es, die allgemeine künstliche Intelligenz (AGI) zum Nutzen der gesamten Menschheit einzusetzen. Wenn KI für alle nützlich sein soll, muss sie sprachen- und kulturenübergreifend gut funktionieren. Etwa 80 % der Menschen weltweit sprechen nicht Englisch als ihre Hauptsprache, und dennoch sind die meisten bestehenden Benchmarks, die nicht-englische Sprachfähigkeiten messen, unzureichend.
Bestehende mehrsprachige Benchmarks wie MMMLU(wird in einem neuen Fenster geöffnet) sind inzwischen gesättigt – Spitzenmodelle häufen sich in der Nähe hoher Punktzahlen –, was sie für die Messung echter Fortschritte weniger nützlich macht. Darüber hinaus konzentrieren sich aktuelle Benchmarks hauptsächlich auf Übersetzungs- oder Multiple-Choice-Aufgaben. Sie erfassen nicht ausreichend, was wirklich wichtig ist, um die Sprachfähigkeiten eines KI-Systems zu bewerten – das Verständnis von Kontext, Kultur, Geschichte und den Dingen, die den Menschen an ihrem jeweiligen Wohnort wichtig sind.
Deshalb haben wir IndQA entwickelt, einen neuen Benchmark, der evaluieren soll, wie gut KI-Modelle wichtige Fragen in indischen Sprachen in einer Vielzahl kultureller Bereiche verstehen und nachvollziehen können. Während unser Ziel darin besteht, ähnliche Benchmarks für andere Sprachen und Regionen zu erstellen, ist Indien ein offensichtlicher Ausgangspunkt. Indien hat etwa eine Milliarde Menschen, die Englisch nicht als Hauptsprache verwenden, 22 Amtssprachen (darunter mindestens sieben mit über 50 Millionen Sprechern) und ist der zweitgrößte Markt für ChatGPT.
Diese Arbeit ist Teil unseres fortlaufenden Engagements, unsere Produkte und Werkzeuge für indische Benutzer zu verbessern und unsere Technologie im ganzen Land zugänglicher zu machen.
IndQA bewertet Wissen und Schlussfolgerungen über die indische Kultur und das Alltagsleben in indischen Sprachen. Es umfasst 2.278 Fragen in 12 Sprachen und 10 Kulturbereichen, die in Zusammenarbeit mit 261 Fachexpert:innen aus ganz Indien erstellt wurden. Im Gegensatz zu bestehenden Benchmarks wie MMMLU und MGSM ist es darauf ausgelegt, kulturell nuancierte, stark auf logischem Denken basierende Aufgaben zu untersuchen, die bestehende Evaluationen nur schwer erfassen können.
IndQA deckt eine breite Palette kulturell relevanter Themen ab, wie Architektur & Design, Kunst & Kultur, Alltagsleben, Essen & Küche, Geschichte, Recht & Ethik, Literatur & Linguistik, Medien & Unterhaltung, Religion & Spiritualität und Sport & Freizeit – mit Inhalten, die nativ auf Bengali, Englisch, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi und Tamil verfasst sind. Hinweis: Wir haben speziell Hinglish hinzugefügt, da Code-Switching in Gesprächen weit verbreitet ist.
Jeder Datenpunkt enthält ein kulturell verankertes Prompt in einer indischen Sprache, eine englische Übersetzung zur Nachvollziehbarkeit, Bewertungskriterien für die Benotung und eine ideale Antwort, die den Erwartungen von Expert:innen entspricht.
IndQA verwendet einen rubrikbasierten Ansatz. Jede Antwort wird anhand von Kriterien bewertet, die von Fachexpert:innen für die jeweilige Frage verfasst wurden. Die Kriterien legen fest, was eine ideale Antwort beinhalten oder vermeiden sollte, und jedem Kriterium wird je nach seiner Wichtigkeit ein gewichteter Punktwert zugewiesen. Ein modellbasierter Bewerter prüft, ob jedes Kriterium erfüllt ist. Die endgültige Punktzahl ist die Summe der Punkte für die erfüllten Kriterien aus der möglichen Gesamtpunktzahl.
- Von Expert:innen verfasste Fragen. Wir haben mit Partner:innen zusammengearbeitet, um Expert:innen in Indien in 10 verschiedenen Bereichen zu finden. Sie haben schwierige, argumentationsorientierte Prompts entworfen, die mit ihren Regionen und Fachgebieten verbunden waren. Diese Expert:innen sind Muttersprachler:innen der relevanten Sprache (und Englisch) und bringen tiefes Fachwissen mit.
- Adversariales Filtern: Jede Frage wurde gegen die stärksten Modelle von OpenAI zum Zeitpunkt ihrer Erstellung getestet: GPT‑4o, OpenAI o3, GPT‑4.5 und (teilweise, nach der öffentlichen Einführung) GPT‑5. Wir haben nur die Fragen beibehalten, bei denen die Mehrheit dieser Modelle keine akzeptablen Antworten liefern konnte, um Spielraum für Fortschritte zu bewahren
- Detaillierte Kriterien. Zusammen mit jeder Frage stellten die Fachexpert:innen Kriterien zur Verfügung, die zur Bewertung der Modellantwort verwendet wurden, ähnlich wie bei einer Prüfungsrichtlinie für eine Aufsatzfrage. Diese Kriterien werden verwendet, um die Antworten von Kandidatenmodellen zu bewerten.
- Ideale Antworten + Überprüfung. Expert:innen haben ideale Antworten und englische Übersetzungen hinzugefügt, gefolgt von Peer-Reviews und iterativen Korrekturen bis zur Freigabe.
Sprache: Bengali
Bereich: Literatur und Linguistik
Bereich: Essen und Küche
Wir nutzen IndQA, um zu bewerten, wie aktuelle Frontier-Modelle abschneiden, und um die Fortschritte der letzten zwei Jahre aufzuzeigen. Mit IndQA können wir sehen, dass sich die Modelle von OpenAI im Laufe der Zeit bei indischen Sprachen erheblich verbessert haben (mit einigen Einschränkungen, aber es gibt nach wie vor beträchtliches Verbesserungspotenzial. Wir freuen uns darauf, die Leistung zu steigern und die Ergebnisse für zukünftige Modelle zu teilen.
Darüber hinaus stratifizieren wir die Leistung bei IndQA nach Sprache und Fachbereich und vergleichen GPT‑5 Thinking High mit anderen Frontier-Modellen.
Da die Fragen in verschiedenen Sprachen nicht identisch sind, ist IndQA keine Sprachrangliste; sprachübergreifende Ergebnisse sollten daher nicht als direkter Vergleich der Sprachfähigkeiten interpretiert werden. Stattdessen planen wir, IndQA zu verwenden, um die Verbesserung im Laufe der Zeit innerhalb einer Modellfamilie oder Konfiguration zu messen.
Zusätzlich wurden die Fragen so gefiltert, dass GPT‑4o, OpenAI o3, GPT‑4.5 und (nach der öffentlichen Einführung) GPT‑5 sie nicht ausreichend beantworten konnten, wodurch die Auswahl der Fragen sich gezielt gegen diese Modelle richtet. Dies könnte die relative Leistungsfähigkeit von GPT‑5 verfälschen und alle OpenAI-Modelle im Vergleich zu Nicht-OpenAI-Modellen benachteiligen.
Wir sind den 261 indischen Expert:innen – Journalist:innen, Linguist:innen, Wissenschaftler:innen, Künstler:innen und Fachleuten aus der Industrie – dankbar, die die Fragen für IndQA verfasst und geprüft haben. Einige Beispiele der Expert:innen, mit denen wir zusammengearbeitet haben, sind:
- Ein mit dem Nandi Award ausgezeichneter Telugu-Schauspieler und Drehbuchautor mit über 750 Filmen
- Eine Marathi-Journalistin und Redakteurin bei Tarun Bharat
- Ein Gelehrter der Kannada-Linguistik und Wörterbuchredakteur
- Eine internationale Schachgroßmeisterin, die Top-100-Schachspieler coacht
- Ein tamilischer Schriftsteller, Dichter und Kulturaktivist, der sich für soziale Gerechtigkeit, Kasten-Gleichheit und literarische Freiheit einsetzt
- Ein preisgekrönter Punjabi-Musikkomponist
- Eine Kuratorin für Gujarati-Kulturerbe und Spezialistin für Denkmalpflege
- Ein preisgekrönter Malayalam-Dichter und Performancekünstler
- Eine Geschichtsprofessorin, die sich auf das reiche kulturelle Erbe Bengalens spezialisiert
- Ein Professor der Architektur mit Schwerpunkt auf Odishan-Tempeln
Wir hoffen, dass die Veröffentlichung von IndQA die Forschungsgemeinschaft informieren und zur Schaffung neuer Benchmarks inspirieren wird. Fragen im Stil von IndQA sind besonders wertvoll in Sprachen oder kulturellen Bereichen, die von bestehenden KI-Benchmarks nur unzureichend abgedeckt werden. Das Erstellen ähnlicher Benchmarks wie IndQA kann KI-Forschungslabore dabei unterstützen, mehr über Sprachen und Fachbereiche zu erfahren, mit denen Modelle heute Schwierigkeiten haben, und einen Leitstern für zukünftige Verbesserungen bieten.


