Sociālo zinātņu pētniecības mērogošana
Jauns rīks, kas palīdz pētniekiem pārvērst kvalitatīvos datus skaitļos, kurus viņi var analizēt.
Būtiska mūsu darba daļa OpenAI ir nodrošināt zinātniekiem iespēju strādāt ātrāk un risināt sarežģītākas problēmas. Šodien mūsu Ekonomikas pētniecības komanda izlaiž GABRIEL: atvērtā pirmkoda rīkkopu, kas izmanto GPT, lai nestrukturētu tekstu un attēlus pārvērstu kvantitatīvos mērījumos. Tas ir izstrādāts ekonomistiem, sociālajiem zinātniekiem un datu zinātniekiem, lai pētītu kvalitatīvos datus plašā mērogā.
Kvalitatīvie dati atklāj visbagātākos stāstus par pasauli—ko cilvēki saka, raksta, māca, diskutē un piedzīvo. Tas aptver visu, sākot no mācību programmām un intervijām līdz sociālajiem tīkliem un fotogrāfijām. Tā ir milzīgs daudzums. Taču šāda veida datu pārvēršana stabilos pierādījumos ir ļoti laikietilpīga. Bieži vien tas vispār nav iespējams. Pārāk daudzos gadījumos sociālie zinātnieki ir spiesti atteikties no svarīgiem pētniecības virzieniem, nevis tāpēc, ka dati neeksistē, bet gan tāpēc, ka tos nav iespējams analizēt.
GABRIEL ir veidots, lai kvalitatīvie dati būtu daudz pieejamāki. Tas ļauj pētniekiem aprakstīt, ko viņi vēlas izmērīt, izmantojot ikdienas valodu, piemēram, “cik ģimenei draudzīgs ir šis darba sludinājums?”, un pēc tam konsekventi piemēro šo pašu jautājumu tūkstošiem vai miljoniem dokumentu, atgriežot vērtējumu katram no tiem. Tas ļauj pētniekiem veltīt mazāk laika atkārtotai datu marķēšanai un vairāk laika darbam, kas patiešām prasa zināšanas: izvēlēties, ko mērīt, validēt rezultātus un izdarīt rūpīgus secinājumus.
Piemēram, GABRIEL var analizēt plašu zinātnisko rakstu kolekciju, lai redzētu, kādas specifiskas metodes tiek izmantotas un kā tās attīstās laika gaitā. Tas var aplūkot kursu mācību programmas, lai novērtētu, cik daudz uzmanības tiek pievērsts dažādiem priekšmetiem vai prasmēm. Tas var iegūt strukturētus vēsturiskus datus par katru mazo pilsētu visā Eiropā vai izpētīt klientu atsauksmju krājumu un atklāt modeļus tajā, ko cilvēki vērtē visvairāk. Mūsu rakstā(atveras jaunā logā) mēs veicam GPT etalonpārbaudi kvalitatīvo datu marķēšanā dažādos lietošanas gadījumos un secinām, ka tas ir ļoti precīzs.
Papildus šāda veida mērījumiem GABRIEL piedāvā arī praktiskus rīkus, kas pētniekiem bieži ir nepieciešami. Tie ietver datu kopu apvienošanu pat tad, ja kolonnas nesakrīt, viedo dublikātu noņemšanu, teksta fragmentu kodēšanu, jaunu zinātnisku teoriju izstrādi un personiskās informācijas deidentifikāciju tekstā, lai saglabātu privātumu.
GABRIEL tagad ir pieejams kā atvērtā koda Python bibliotēka(atveras jaunā logā), ar apmācības piezīmju grāmatiņu(atveras jaunā logā), lai sāktu darbu. Tas ir veidots tā, lai prasītu minimālas tehniskās zināšanas. Mēs turpināsim uzlabot GABRIEL, balstoties uz akadēmiskās kopienas atsauksmēm. Mēs ceram, ka šis rīks palīdzēs vairāk pētniekiem ienest kvalitatīvo datu bagātību un cilvēku stāstus viņu darbā.


