Zum Hauptinhalt springen
OpenAI

Jetzt neu: IndQA

Ein neuer Maßstab zur Bewertung von KI-Systemen in Bezug auf die indische Kultur und Sprachen.

Ein 3x4-Raster aus abgerundeten quadratischen Schaltflächen, die jeweils ein Zeichen aus einer anderen indischen Schrift oder dem lateinischen Alphabet enthalten. Die Zeichen umfassen Bengali (অ), Englisch (En), Hindi (ह), Kannada (ಕ) und andere, die verschiedene indische Sprachen repräsentieren, vor einem hellgrauen Hintergrund. Das Bild deutet auf mehrsprachige Unterstützung oder Sprachauswahl hin.
Laden …

Unsere Mission ist es, die allgemeine künstliche Intelligenz (AGI) zum Nutzen der gesamten Menschheit einzusetzen. Wenn KI für alle nützlich sein soll, muss sie sprachen- und kulturenübergreifend gut funktionieren. Etwa 80 % der Menschen weltweit sprechen nicht Englisch als ihre Hauptsprache, und dennoch sind die meisten bestehenden Benchmarks, die nicht-englische Sprachfähigkeiten messen, unzureichend. 

Bestehende mehrsprachige Benchmarks wie MMMLU(wird in einem neuen Fenster geöffnet) sind inzwischen gesättigt – Spitzenmodelle häufen sich in der Nähe hoher Punktzahlen –, was sie für die Messung echter Fortschritte weniger nützlich macht. Darüber hinaus konzentrieren sich aktuelle Benchmarks hauptsächlich auf Übersetzungs- oder Multiple-Choice-Aufgaben. Sie erfassen nicht ausreichend, was wirklich wichtig ist, um die Sprachfähigkeiten eines KI-Systems zu bewerten – das Verständnis von Kontext, Kultur, Geschichte und den Dingen, die den Menschen an ihrem jeweiligen Wohnort wichtig sind.

Deshalb haben wir IndQA entwickelt, einen neuen Benchmark, der evaluieren soll, wie gut KI-Modelle wichtige Fragen in indischen Sprachen in einer Vielzahl kultureller Bereiche verstehen und nachvollziehen können. Während unser Ziel darin besteht, ähnliche Benchmarks für andere Sprachen und Regionen zu erstellen, ist Indien ein offensichtlicher Ausgangspunkt. Indien hat etwa eine Milliarde Menschen, die Englisch nicht als Hauptsprache verwenden, 22 Amtssprachen (darunter mindestens sieben mit über 50 Millionen Sprechern) und ist der zweitgrößte Markt für ChatGPT.  

Diese Arbeit ist Teil unseres fortlaufenden Engagements, unsere Produkte und Werkzeuge für indische Benutzer zu verbessern und unsere Technologie im ganzen Land zugänglicher zu machen.

Funktionsweise

IndQA bewertet Wissen und Schlussfolgerungen über die indische Kultur und das Alltagsleben in indischen Sprachen. Es umfasst 2.278 Fragen in 12 Sprachen und 10 Kulturbereichen, die in Zusammenarbeit mit 261 Fachexpert:innen aus ganz Indien erstellt wurden. Im Gegensatz zu bestehenden Benchmarks wie MMMLU und MGSM ist es darauf ausgelegt, kulturell nuancierte, stark auf logischem Denken basierende Aufgaben zu untersuchen, die bestehende Evaluationen nur schwer erfassen können.

IndQA deckt eine breite Palette kulturell relevanter Themen ab, wie Architektur & Design, Kunst & Kultur, Alltagsleben, Essen & Küche, Geschichte, Recht & Ethik, Literatur & Linguistik, Medien & Unterhaltung, Religion & Spiritualität und Sport & Freizeit – mit Inhalten, die nativ auf Bengali, Englisch, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi und Tamil verfasst sind. Hinweis: Wir haben speziell Hinglish hinzugefügt, da Code-Switching in Gesprächen weit verbreitet ist.

Jeder Datenpunkt enthält ein kulturell verankertes Prompt in einer indischen Sprache, eine englische Übersetzung zur Nachvollziehbarkeit, Bewertungskriterien für die Benotung und eine ideale Antwort, die den Erwartungen von Expert:innen entspricht.

Diagramm, das den Bewertungsprozess veranschaulicht: ein Beispiel für ein Benutzer-Assistenten-Gespräch, eine Kandidatenantwort und eine Rubriktabelle, die zur Bewertung der Antwort anhand von Kriterien verwendet wird.

IndQA verwendet einen rubrikbasierten Ansatz. Jede Antwort wird anhand von Kriterien bewertet, die von Fachexpert:innen für die jeweilige Frage verfasst wurden. Die Kriterien legen fest, was eine ideale Antwort beinhalten oder vermeiden sollte, und jedem Kriterium wird je nach seiner Wichtigkeit ein gewichteter Punktwert zugewiesen. Ein modellbasierter Bewerter prüft, ob jedes Kriterium erfüllt ist. Die endgültige Punktzahl ist die Summe der Punkte für die erfüllten Kriterien aus der möglichen Gesamtpunktzahl.

Wie wir IndQA entwickelt haben

  • Von Expert:innen verfasste Fragen. Wir haben mit Partner:innen zusammengearbeitet, um Expert:innen in Indien in 10 verschiedenen Bereichen zu finden. Sie haben schwierige, argumentationsorientierte Prompts entworfen, die mit ihren Regionen und Fachgebieten verbunden waren. Diese Expert:innen sind Muttersprachler:innen der relevanten Sprache (und Englisch) und bringen tiefes Fachwissen mit.
  • Adversariales Filtern: Jede Frage wurde gegen die stärksten Modelle von OpenAI zum Zeitpunkt ihrer Erstellung getestet: GPT‑4o, OpenAI o3, GPT‑4.5 und (teilweise, nach der öffentlichen Einführung) GPT‑5. Wir haben nur die Fragen beibehalten, bei denen die Mehrheit dieser Modelle keine akzeptablen Antworten liefern konnte, um Spielraum für Fortschritte zu bewahren
  • Detaillierte Kriterien. Zusammen mit jeder Frage stellten die Fachexpert:innen Kriterien zur Verfügung, die zur Bewertung der Modellantwort verwendet wurden, ähnlich wie bei einer Prüfungsrichtlinie für eine Aufsatzfrage. Diese Kriterien werden verwendet, um die Antworten von Kandidatenmodellen zu bewerten.
  • Ideale Antworten + Überprüfung. Expert:innen haben ideale Antworten und englische Übersetzungen hinzugefügt, gefolgt von Peer-Reviews und iterativen Korrekturen bis zur Freigabe.

Beispielfragen

Sprache: Bengali

Bereich: Literatur und Linguistik

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Bereich: Essen und Küche

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Verbesserungen im Laufe der Zeit

Wir nutzen IndQA, um zu bewerten, wie aktuelle Frontier-Modelle abschneiden, und um die Fortschritte der letzten zwei Jahre aufzuzeigen. Mit IndQA können wir sehen, dass sich die Modelle von OpenAI im Laufe der Zeit bei indischen Sprachen erheblich verbessert haben (mit einigen Einschränkungen, aber es gibt nach wie vor beträchtliches Verbesserungspotenzial. Wir freuen uns darauf, die Leistung zu steigern und die Ergebnisse für zukünftige Modelle zu teilen.

Darüber hinaus stratifizieren wir die Leistung bei IndQA nach Sprache und Fachbereich und vergleichen GPT‑5 Thinking High mit anderen Frontier-Modellen.

Einschränkungen

Da die Fragen in verschiedenen Sprachen nicht identisch sind, ist IndQA keine Sprachrangliste; sprachübergreifende Ergebnisse sollten daher nicht als direkter Vergleich der Sprachfähigkeiten interpretiert werden. Stattdessen planen wir, IndQA zu verwenden, um die Verbesserung im Laufe der Zeit innerhalb einer Modellfamilie oder Konfiguration zu messen.

Zusätzlich wurden die Fragen so gefiltert, dass GPT‑4o, OpenAI o3, GPT‑4.5 und (nach der öffentlichen Einführung) GPT‑5 sie nicht ausreichend beantworten konnten, wodurch die Auswahl der Fragen sich gezielt gegen diese Modelle richtet. Dies könnte die relative Leistungsfähigkeit von GPT‑5 verfälschen und alle OpenAI-Modelle im Vergleich zu Nicht-OpenAI-Modellen benachteiligen.

Die Expert:innen hinter IndQA

Wir sind den 261 indischen Expert:innen – Journalist:innen, Linguist:innen, Wissenschaftler:innen, Künstler:innen und Fachleuten aus der Industrie – dankbar, die die Fragen für IndQA verfasst und geprüft haben. Einige Beispiele der Expert:innen, mit denen wir zusammengearbeitet haben, sind:

  • Ein mit dem Nandi Award ausgezeichneter Telugu-Schauspieler und Drehbuchautor mit über 750 Filmen
  • Eine Marathi-Journalistin und Redakteurin bei Tarun Bharat 
  • Ein Gelehrter der Kannada-Linguistik und Wörterbuchredakteur
  • Eine internationale Schachgroßmeisterin, die Top-100-Schachspieler coacht
  • Ein tamilischer Schriftsteller, Dichter und Kulturaktivist, der sich für soziale Gerechtigkeit, Kasten-Gleichheit und literarische Freiheit einsetzt
  • Ein preisgekrönter Punjabi-Musikkomponist
  • Eine Kuratorin für Gujarati-Kulturerbe und Spezialistin für Denkmalpflege
  • Ein preisgekrönter Malayalam-Dichter und Performancekünstler
  • Eine Geschichtsprofessorin, die sich auf das reiche kulturelle Erbe Bengalens spezialisiert
  • Ein Professor der Architektur mit Schwerpunkt auf Odishan-Tempeln

Nächste Schritte

Wir hoffen, dass die Veröffentlichung von IndQA die Forschungsgemeinschaft informieren und zur Schaffung neuer Benchmarks inspirieren wird. Fragen im Stil von IndQA sind besonders wertvoll in Sprachen oder kulturellen Bereichen, die von bestehenden KI-Benchmarks nur unzureichend abgedeckt werden. Das Erstellen ähnlicher Benchmarks wie IndQA kann KI-Forschungslabore dabei unterstützen, mehr über Sprachen und Fachbereiche zu erfahren, mit denen Modelle heute Schwierigkeiten haben, und einen Leitstern für zukünftige Verbesserungen bieten.