Povečevanje obsega raziskav v družboslovju
Novo orodje, namenjeno raziskovalcem za pretvorbo kvalitativnih podatkov v številčne vrednosti, ki jih je mogoče analizirati.
Ključni del našega dela pri OpenAI je omogočiti znanstvenikom, da pospešijo raziskovalne procese in se lotijo zahtevnejših problemov. Danes naša ekipa za ekonomske raziskave predstavlja GABRIEL, odprtokodni komplet orodij, ki uporablja GPT za pretvorbo nestrukturiranega besedila in slik v kvantitativne meritve. Zasnovan je za ekonomiste, družboslovce in podatkovne znanstvenike z namenom preučevanja kvalitativnih podatkov v velikem obsegu.
Kvalitativni podatki ponujajo najbogatejše vpoglede v družbeno stvarnost, in sicer v to, kaj ljudje govorijo, pišejo, poučujejo, o čem razpravljajo in kaj doživljajo. Obsegajo vse od učnih načrtov in intervjujev do družbenih omrežij ter fotografij. Takšnih podatkov je ogromno. Vendar je pretvorba tovrstnih podatkov v metodološko stroge dokaze izjemno časovno zahtevna. Pogosto takšna pretvorba sploh ni izvedljiva. V številnih primerih so družboslovci primorani opustiti pomembne raziskovalne smeri, ne zato, ker podatki ne bi obstajali, temveč zato, ker jih ni mogoče analizirati.
GABRIEL je zasnovan z namenom bistveno povečati dostopnost kvalitativnih podatkov. Raziskovalcem omogoča, da z vsakdanjim jezikom opredelijo, kaj želijo meriti, na primer »kako družini prijazen je ta oglas za delo?«, ter nato isto vprašanje dosledno uporabi na tisočih (ali milijonih) dokumentov in za vsak dokument vrne oceno. S tem se raziskovalcem omogoči, da manj časa namenijo ponavljajočemu se označevanju podatkov in več časa delu, ki dejansko zahteva strokovno presojo: opredelitvi merjenih pojavov, validaciji rezultatov in oblikovanju skrbno utemeljenih zaključkov.
Na primer, GABRIEL lahko analizira obsežno zbirko znanstvenih člankov, da ugotovi, katere specifične metode se uporabljajo in kako se razvijajo skozi čas. Lahko pregleda učne načrte in izmeri, koliko pozornosti se namenja posameznim predmetom ali veščinam. Lahko izlušči strukturirane zgodovinske podatke za vsako majhno mesto po vsej Evropi ali analizira obsežno zbirko mnenj strank ter prepozna vzorce v tem, kaj ljudje najbolj cenijo. V našem članku(odpre se v novem oknu) GPT primerjalno ovrednotimo pri označevanju kvalitativnih podatkov v številnih primerih uporabe in ugotovimo, da dosega visoko stopnjo natančnosti.
Poleg takšnega merjenja GABRIEL zagotavlja tudi praktična orodja, ki jih raziskovalci pogosto potrebujejo. Mednje sodijo združevanje naborov podatkov tudi v primerih, ko se stolpci ne ujemajo, napredno odstranjevanje dvojnikov, kodiranje odlomkov, razvijanje novih znanstvenih teorij ter deidentificiranje osebno prepoznavnih informacij iz besedila z namenom varstva zasebnosti.
GABRIEL je zdaj na voljo kot odprtokodna knjižnica za Python(odpre se v novem oknu) z zvezkom in vadnico(odpre se v novem oknu), ki uporabnika uvedeta v delo. Zasnovan je za uporabo z minimalnim tehničnim predznanjem. GABRIEL bomo še naprej izboljševali na podlagi povratnih informacij akademske skupnosti. Upamo, da bo to orodje več raziskovalcem omogočilo vključevanje bogastva kvalitativnih podatkov in človeških zgodb v njihovo raziskovalno delo.


