Skalning av samhällsvetenskaplig forskning
Ett nytt verktyg som hjälper forskare att omvandla kvalitativa data till siffror som de kan analysera.
En central del av vårt arbete på OpenAI är att göra det möjligt för forskare att agera snabbare och lösa svårare problem. Idag släpper vårt ekonomiska forskningsteam GABRIEL: en verktygslåda med öppen källkod som använder GPT för att omvandla ostrukturerad text och bilder till kvantitativa mätningar. Den är utformad för ekonomer, samhällsvetare och dataforskare för att studera kvalitativa data i stor skala.
Kvalitativa data berättar de mest intressanta om världen såsom vad människor säger, skriver, lär ut, diskuterar och upplever. Det omfattar alltifrån kursplaner och intervjuer till sociala medier och fotografier. Det finns en oerhörd stor mängd kvalitativ data. Fast omvandling av denna data till rigorösa bevis är oerhört tidskrävande. Ofta är det inte ens genomförbart. I alltför många fall tvingas samhällsvetare avstå från viktiga forskningsvägar, inte för att data saknas utan för att den är omöjlig att analysera.
GABRIEL är utformad för att göra kvalitativa data mer tillgänglig. Den möjliggör för forskare att beskriva vad de vill mäta med vardagliga ord såsom "hur familjevänlig är denna jobbannons?" och sedan tillämpa samma fråga konsekvent på tusentals (eller miljontals) dokument för att få ett resultat för varje. Detta gör att forskare kan ägna mindre tid åt repetitiv datamärkning och mer tid åt det arbete som verkligen kräver expertis: att välja vad som ska mätas, validera resultat och dra välgrundade slutsatser.
GABRIEL kan till exempel analysera en stor samling vetenskapliga artiklar för att identifiera vilka specifika metoder som används och hur de utvecklas över tid. Den kan granska kursplaner för att bedöma hur mycket uppmärksamhet som ägnas åt olika ämnen eller färdigheter. Den kan extrahera strukturerade historiska detaljer för varje liten stad i Europa eller analysera en mängd kundrecensioner och identifiera mönster i vad människor värdesätter mest. I vår artikel(öppnas i ett nytt fönster) utvärderar vi GPT:s förmåga att märka kvalitativa data i många olika användningsfall och kommer fram till att den är mycket exakt.
Förutom denna typ av mätning erbjuder GABRIEL även praktiska verktyg som forskare ofta behöver. Dessa inkluderar att slå samman datamängder även när kolumnerna inte stämmer överens, smart deduplicering, passagekodning, utveckling av nya vetenskapliga teorier och avidentifiering av personuppgifter från text för bevarande av integritet.
GABRIEL är nu tillgängligt som ett Python-bibliotek med öppen källkod(öppnas i ett nytt fönster) tillsammans med en manual(öppnas i ett nytt fönster) för att komma igång. Den är utformad för att kräva minimal teknisk kunskap. Vi kommer att fortsätta förbättra GABRIEL över tid baserat på återkoppling från den akademiska gemenskapen. Vi hoppas att detta verktyg kommer att hjälpa fler forskare att integrera rik kvalitativ data och mänskliga berättelser i deras arbete.


