Skaliranje istraživanja društvenih nauka
Novi alat koji istraživačima pomaže da kvalitativne podatke pretvore u brojeve koje mogu analizirati.
Ključni dio našeg rada u OpenAI-u je omogućiti naučnicima da brže napreduju i rješavaju teže probleme. Danas naš tim za ekonomska istraživanja objavljuje GABRIEL: alat otvorenog koda koji koristi GPT za pretvaranje nestrukturiranog teksta i slika u kvantitativna mjerenja. Namenjen je ekonomistima, društvenim naučnicima i stručnjacima za podatke za proučavanje kvalitativnih podataka u velikom obimu.
Kvalitativni podaci pričaju najbogatije priče o svijetu—o tome šta ljudi govore, pišu, podučavaju, raspravljaju i doživljavaju. Obuhvata sve, od nastavnih planova i intervjua do društvenih mreža i fotografija. Ogromna je količina toga. Međutim, pretvaranje te vrste podataka u čvrste dokaze je izuzetno dugotrajno. Često to uopšte nije izvodljivo. U previše slučajeva, društveni naučnici su prisiljeni odustati od važnih pravaca istraživanja, ne zato što podaci ne postoje, već zato što ih je nemoguće analizirati.
GABRIEL je napravljen da kvalitativne podatke učini mnogo pristupačnijima. Omogućava istraživačima da opišu ono što žele mjeriti svakodnevnim riječima - poput „koliko je ovaj oglas za posao pogodan za porodice?” - a zatim dosljedno primjenjuje isto pitanje na hiljade (ili milione) dokumenata, vraćajući rezultat za svaki od njih. Ovo omogućava istraživačima da provode manje vremena na ponavljajuće označavanje podataka, a više na zadacima koji zaista zahtijevaju stručnost: biranje šta mjeriti, validaciju rezultata i donošenje pažljivih zaključaka.
Na primjer, GABRIEL može analizirati veliku zbirku naučnih radova kako bi utvrdio koje se specifične metode koriste i kako se one razvijaju tokom vremena. Može pogledati nastavne planove i programe kurseva kako bi izmjerilo koliko se pažnje posvećuje različitim predmetima ili vještinama. Može izdvojiti strukturirane historijske detalje za svaki mali grad širom Europe ili ispitati riznicu korisničkih recenzija i otkriti obrasce u onome što ljudi najviše cijene. U našem radu(otvara se u novom prozoru), ocjenjujemo GPT u označavanju kvalitativnih podataka kroz mnoge slučajeve upotrebe i utvrđujemo da je izuzetno precizan.
Osim ove vrste mjerenja, GABRIEL također nudi praktične alate koji su istraživačima često potrebni. Ovo uključuje spajanje skupova podataka čak i kada se kolone ne podudaraju, pametnu deduplikaciju, kodiranje odlomaka, osmišljavanje novih naučnih teorija i deidentifikaciju ličnih podataka iz teksta radi očuvanja privatnosti.
GABRIEL je sada dostupan kao Python biblioteka otvorenog koda(otvara se u novom prozoru), uz uputstvo za početak rada(otvara se u novom prozoru). Dizajniran je tako da zahtijeva minimalno tehničko predznanje. Nastavit ćemo poboljšavati GABRIEL tokom vremena na osnovu povratnih informacija iz akademske zajednice. Nadamo se da će ovaj alat pomoći više istraživača da unesu bogatstvo kvalitativnih podataka i ljudskih priča u svoj rad.


