Škálovanie výskumu v spoločenských vedách
Nový nástroj, ktorý pomôže výskumníkom premeniť kvalitatívne údaje na čísla, ktoré môžu analyzovať.
Kľúčovou súčasťou našej práce v OpenAI je umožniť vedcom postupovať rýchlejšie a riešiť zložitejšie problémy. Náš tím pre ekonomický výskum dnes predstavuje GABRIEL: sadu nástrojov s otvoreným zdrojovým kódom, ktorá využíva GPT na premenu neštruktúrovaného textu a obrázkov na kvantitatívne merania. Je určený pre ekonómov, sociálnych vedcov a dátových vedcov na štúdium kvalitatívnych údajov vo veľkom meradle.
Kvalitatívne dáta rozprávajú tie najbohatšie príbehy o svete – o tom, čo ľudia hovoria, píšu, učia, argumentujú a zažívajú. Zahŕňa všetko od osnov a rozhovorov až po sociálne médiá a fotografie. Je toho obrovské množstvo. Transformácia tohto typu údajov na dôkladné dôkazy je však neuveriteľne časovo náročná. Často to vôbec nie je uskutočniteľné. V príliš mnohých prípadoch sú sociálni vedci nútení vzdať sa dôležitých oblastí výskumu nie preto, že by údaje neexistovali, ale preto, že ich nie je možné analyzovať.
GABRIEL je navrhnutý tak, aby kvalitatívne údaje boli oveľa prístupnejšie. Umožňuje výskumníkom opísať to, čo chcú merať, bežnými slovami, ako napríklad „ako priateľská k rodine je táto pracovná ponuka?“, a potom tú istú otázku konzistentne uplatňuje naprieč tisíckami (alebo miliónmi) dokumentov, pričom pre každý z nich vráti skóre. Vďaka tomu môžu výskumníci tráviť menej času opakovaným označovaním údajov a viac času prácou, ktorá si skutočne vyžaduje odborné znalosti: výberom toho, čo merať, overovaním výsledkov a vyvodzovaním starostlivých záverov.
GABRIEL napríklad dokáže analyzovať rozsiahlu zbierku vedeckých prác, aby zistil, aké konkrétne metódy sa používajú a ako sa v priebehu času vyvíjajú. Môže sa pozrieť na učebné osnovy, aby zmeral, koľko pozornosti sa venuje rôznym predmetom alebo zručnostiam. Dokáže extrahovať štruktúrované historické detaily pre každé malé mesto v Európe alebo preskúmať množstvo recenzií zákazníkov a objaviť vzorce v tom, čo si ľudia najviac cenia. V našom článku(otvorí sa v novom okne) porovnávame GPT pri označovaní kvalitatívnych údajov v rôznych prípadoch použitia a zistili sme, že je mimoriadne presný.
Okrem tohto typu merania poskytuje GABRIEL aj praktické nástroje, ktoré výskumníci často potrebujú. Patria sem zlučovanie súborov údajov, aj keď sa stĺpce nezhodujú, inteligentné odstraňovania duplikátov, kódovanie pasáží, vytváranie nových vedeckých teórií a oddeľovanie osobných údajov od textu s cieľom zachovať súkromie.
GABRIEL je teraz k dispozícii ako knižnica Pythonu s otvoreným zdrojovým kódom(otvorí sa v novom okne) s inštruktážou(otvorí sa v novom okne) pre začiatočníkov. Je navrhnutý tak, aby si vyžadoval minimálne technické znalosti. GABRIEL budeme priebežne vylepšovať na základe spätnej väzby od akademickej komunity. Dúfame, že tento nástroj pomôže väčšiemu počtu výskumníkov vniesť do svojej práce bohatstvo kvalitatívnych údajov a ľudských príbehov.


