Opskalering af samfundsvidenskabelig forskning
Et nyt værktøj til at hjælpe forskere med at omdanne kvalitative data til tal, som de kan analysere.
En kerneopgave i vores arbejde hos OpenAI er at gøre det muligt for forskere at arbejde hurtigere og løse sværere problemer. I dag lancerer vores økonomiske forskningsteam GABRIEL, som er et open source-værktøjssæt, der anvender GPT til at omdanne ustruktureret tekst og billeder til kvantitative målinger. Det er designet til økonomer, samfundsvidenskabsfolk og dataforskere til at kunne studere kvalitative data i stor skala.
Kvalitative data angiver de bedste historier om verdenen, såsom hvad folk siger, skriver, underviser i, argumenterer og oplever. Det omfatter alt fra pensum og interviews til sociale medier og fotografier. Der er en enorm mængde af disse data. Det er dog utroligt tidskrævende at omdanne denne type data til virkelig evidens. Nogle gange er det slet ikke muligt. I alt for mange tilfælde er samfundsforskere tvunget til at opgive vigtige forskningsmuligheder, ikke fordi dataene ikke findes, men fordi det er umuligt at analysere dem.
GABRIEL er bygget til at gøre kvalitative data meget mere tilgængelige. Det giver forskere mulighed for at beskrive, hvad de vil måle, med almindelige ord, som f.eks. "hvor familievenlig er denne jobannonce?", og derefter anvende det samme spørgsmål konsekvent på tværs af tusindvis (eller millioner) af dokumenter og returnere en score for hvert enkelt dokument. Dette giver forskere mulighed for at bruge mindre tid på gentagen datamærkning og mere tid på det arbejde, der virkelig kræver ekspertise såsom at vælge, hvad der skal måles, validere resultaterne og drage velovervejede konklusioner.
GABRIEL kan f.eks. analysere en stor samling af videnskabelige artikler for at se, hvilke specifikke metoder der anvendes, og hvordan de udvikler sig over tid. GABRIEL kan se på kursusplaner for at vurdere, hvor meget opmærksomhed der gives til forskellige fag eller kompetencer. GABRIEL kan udtrække strukturerede historiske detaljer for hver lille by i hele Europa eller analysere en stor mængde kundeanmeldelser og finde mønstre i, hvad folk værdsætter mest. I vores artikel(åbner i et nyt vindue) evaluerer vi GPT's evne til at mærke kvalitative data på tværs af mange brugsscenarier og konstaterer, at den er meget præcis.
Ud over denne type måling giver GABRIEL også praktiske værktøjer, som forskere ofte har brug for. Disse omfatter sammenlægning af datasæt, selv hvis kolonnerne ikke matcher, smart deduplikering, kodning af tekstpassager, udvikling af nye videnskabelige teorier og anonymisering af personlige oplysninger fra tekst for at beskytte privatlivets fred.
GABRIEL er nu tilgængelig som et open source Python-bibliotek(åbner i et nyt vindue) med en introduktionsnotesbog(åbner i et nyt vindue) til at komme i gang. Den er designet til at kræve minimal teknisk baggrund. Vi vil fortsætte med at forbedre GABRIEL over tid baseret på feedback fra det akademiske samfund. Vi håber, at dette værktøj vil hjælpe flere forskere med at integrere rigdommen af kvalitative data og menneskelige historier i deres arbejde.


