Hopp til hovedinnhold
OpenAI

Skalering av samfunnsvitenskapelig forskning

Et nytt verktøy som hjelper forskere med å omdanne kvalitative data til tall de kan analysere.

Laster inn …

En kjernekomponent i arbeidet vårt hos OpenAI er å gjøre det mulig for forskere å jobbe raskere og løse mer utfordrende problemer. I dag lanserer vårt økonomiske forskningsteam GABRIEL: et åpen kildekode-verktøysett som bruker GPT til å konvertere ustrukturert tekst og bilder til kvantitative målinger. Den er designet for økonomer, samfunnsvitere og dataforskere til å studere kvalitative data i stor skala.

Kvalitative data forteller de rikeste historiene om verden—hva folk sier, skriver, underviser, diskuterer og opplever. Det omfatter alt fra pensum og intervjuer til sosiale medier og fotografier. Det er en enorm mengde av det. Men å omdanne den typen data til grundige bevis er utrolig tidkrevende. Ofte er det ikke mulig i det hele tatt. I altfor mange tilfeller blir samfunnsvitere tvunget til å gi opp viktige forskningsveier, ikke fordi dataene ikke finnes, men fordi de er umulige å analysere.

GABRIEL er laget for å gjøre kvalitative data mye mer tilgjengelige. Det gjør det mulig for forskere å beskrive hva de vil måle med hverdagslige ord—som «hvor familievennlig er denne stillingsannonsen?»—og deretter anvende det samme spørsmålet konsekvent på tvers av tusenvis (eller millioner) av dokumenter, og gi en poengsum for hver enkelt. Dette lar forskere bruke mindre tid på repetitiv datamerking og mer tid på arbeidet som virkelig krever ekspertise: å velge hva som skal måles, validere resultater og trekke nøye konklusjoner.

For eksempel kan GABRIEL analysere en stor samling vitenskapelige artikler for å se hvilke spesifikke metoder som brukes, og hvordan de utvikler seg over tid. Den kan se på kursplaner for å måle hvor mye oppmerksomhet som gis til forskjellige fag eller ferdigheter. Den kan hente ut strukturerte historiske detaljer for hver liten by i hele Europa, eller analysere en mengde kundeanmeldelser og oppdage mønstre i hva folk verdsetter mest. I artikkelen vår(åpnes i et nytt vindu) evaluerer vi GPT for merking av kvalitative data på tvers av mange bruksområder og finner at den er svært nøyaktig.

Utover denne typen måling gir GABRIEL også praktiske verktøy som forskere ofte trenger. Disse inkluderer sammenslåing av datasett selv når kolonnene ikke samsvarer, smart deduplisering, koding av avsnitt, utvikling av nye vitenskapelige teorier og avidentifisering av personopplysninger fra tekst for å ivareta personvernet.

GABRIEL er nå tilgjengelig som et åpen kildekode Python-bibliotek(åpnes i et nytt vindu), med en opplæringsnotatbok(åpnes i et nytt vindu) for å komme i gang. Den er designet for å kreve minimal teknisk bakgrunn. Vi kommer til å fortsette å forbedre GABRIEL over tid basert på tilbakemeldinger fra det akademiske miljøet. Vi håper dette verktøyet vil hjelpe flere forskere med å bringe rikdommen av kvalitative data og menneskelige historier inn i arbeidet deres.