Skalierung sozialwissenschaftlicher Forschung
Ein neues Tool, das Forschenden hilft, qualitative Daten in analysierbare Zahlen zu überführen.
Ein zentraler Teil unserer Arbeit bei OpenAI ist es, Wissenschaftler:innen zu ermöglichen, schneller voranzukommen und schwierigere Probleme zu lösen. Heute veröffentlicht unser Economic Research Team GABRIEL: ein Open-Source-Toolkit, das GPT nutzt, um unstrukturierte Texte und Bilder in quantitative Messwerte zu überführen. Es ist für Ökonom:innen, Sozialwissenschaftler:innen und Datenwissenschaftler:innen konzipiert, um qualitative Daten in großem Maßstab zu untersuchen.
Qualitative Daten erzählen die reichhaltigsten Geschichten über die Welt – was Menschen sagen, schreiben, lehren, diskutieren und erleben. Sie reichen von Lehrplänen und Interviews bis zu sozialen Medien und Fotografien. Davon gibt es eine enorme Menge. Doch diese Art von Daten in belastbare Evidenz zu überführen ist äußerst zeitaufwendig. Oft ist es überhaupt nicht machbar. In zu vielen Fällen sind Sozialwissenschaftler:innen gezwungen, wichtige Forschungswege aufzugeben, nicht weil die Daten nicht existieren, sondern weil sie sich nicht analysieren lassen.
GABRIEL wurde entwickelt, um qualitative Daten deutlich zugänglicher zu machen. Es ermöglicht Forscher:innen, in Alltagssprache zu beschreiben, was sie messen wollen – etwa „wie familienfreundlich ist diese Stellenanzeige?“ – und wendet genau diese Frage dann konsistent auf Tausende (oder Millionen) von Dokumenten an und gibt für jedes einen Wert zurück. So verbringen Forscher:innen weniger Zeit mit repetitiver Datenkennzeichnung und mehr Zeit mit der Arbeit, die tatsächlich Expertise erfordert: festlegen, was gemessen wird, Ergebnisse validieren und sorgfältige Schlussfolgerungen ziehen.
Zum Beispiel kann GABRIEL eine große Sammlung wissenschaftlicher Arbeiten analysieren, um zu sehen, welche konkreten Methoden verwendet werden und wie sie sich im Lauf der Zeit entwickeln. Es kann Lehrpläne auswerten, um zu messen, wie viel Aufmerksamkeit verschiedenen Fächern oder Kompetenzen gewidmet wird. Es kann strukturierte historische Details zu jeder Kleinstadt in ganz Europa extrahieren oder eine große Menge an Kundenbewertungen untersuchen und Muster darin erkennen, was Menschen am meisten schätzen. In unserer Arbeit(wird in einem neuen Fenster geöffnet) vergleichen wir GPT beim Kennzeichnen qualitativer Daten über viele Anwendungsfälle hinweg und stellen fest, dass es sehr genau ist.
Über diese Art der Messung hinaus bietet GABRIEL auch praktische Tools, die Forscher:innen häufig brauchen. Dazu gehören das Zusammenführen von Datensätzen auch bei nicht übereinstimmenden Spalten, intelligente Deduplizierung, das Codieren von Textpassagen, das Entwickeln neuer wissenschaftlicher Theorien und das De-Identifizieren personenbezogener Informationen aus Texten zum Schutz der Privatsphäre.
GABRIEL ist jetzt als Open-Source-Python-Bibliothek(wird in einem neuen Fenster geöffnet) verfügbar, mit einem Tutorial-Notebook(wird in einem neuen Fenster geöffnet) für den Einstieg. Es ist so konzipiert, dass nur minimale technische Vorkenntnisse nötig sind. Wir werden GABRIEL im Lauf der Zeit auf Basis von Rückmeldungen aus der wissenschaftlichen Community weiter verbessern. Wir hoffen, dass dieses Tool mehr Forscher:innen hilft, die Vielfalt qualitativer Daten und menschlicher Geschichten in ihre Arbeit einzubringen.


