Jäta vahele ja mine põhisisu juurde
OpenAI

Sotsiaalteaduslike uuringute skaleerimine

Uus tööriist, mis aitab teaduritel muuta kvalitatiivsed andmed numbriteks, mida nad analüüsida saavad.

Laadimine…

OpenAI-s on meie töö keskne osa võimaldada teadlastel kiiremini edasi liikuda ja keerukamaid probleeme lahendada. Täna avaldab meie majandusuuringute meeskond GABRIEL-i, see on avatud lähtekoodiga tööriistakomplekt, mis kasutab GPT‑d struktureerimata teksti ja piltide kvantitatiivseteks mõõtmisteks muutmiseks. See on loodud majandus-, sotsiaal- ja andmeteadlastele, et uurida kvalitatiivseid andmeid suures mahus.

Kvalitatiivsed andmed räägivad maailma kohta kõige rikkalikumaid lugusid—mida inimesed ütlevad, kirjutavad, õpetavad, mille üle vaidlevad ja mida kogevad. See hõlmab kõike alates õppekavadest ja intervjuudest kuni sotsiaalmeedia ja fotodeni. Seda on tohutult palju. Kuid selliste andmete muutmine rangeteks tõenditeks on uskumatult aeganõudev. Sageli ei ole see üldse võimalik. Liiga paljudel juhtudel on sotsiaalteadlased sunnitud loobuma olulistest uurimissuundadest, mitte seetõttu, et andmeid ei ole, vaid sellepärast, et neid on võimatu analüüsida.

GABRIEL on loodud selleks, et muuta kvalitatiivsed andmed palju kergemini kättesaadavaks. See võimaldab teadlastel kirjeldada igapäevaste sõnadega, mida nad mõõta soovivad—näiteks „kui peresõbralik on see töökuulutus?”—ja seejärel rakendada sama küsimust järjepidevalt tuhandetele (või miljonitele) dokumentidele, andes igaühele skoori. See võimaldab teadlastel kulutada vähem aega korduva andmete märgendamise peale ja rohkem aega tööle, mis tõesti nõuab asjatundlikkust: mõõdetavate andmete valimine, tulemuste valideerimine ja hoolikate järelduste tegemine.

Näiteks võib GABRIEL analüüsida suurt teadusartiklite kogumit, et näha, milliseid konkreetseid meetodeid kasutatakse ja kuidas need aja jooksul arenevad. See võib vaadelda kursuste õppekavasid, et hinnata, kui palju tähelepanu pööratakse erinevatele õppeainetele või oskustele. See suudab koguda struktureeritud ajaloolisi üksikasju iga väikelinna kohta Euroopas või analüüsida suurt hulka klientide arvustusi ja leida mustreid selles, mida inimesed kõige rohkem hindavad. Oma artiklis(avaneb uues aknas) hindame GPT‑d kvalitatiivsete andmete märgendamisel mitmetes kasutusjuhtudes ja leiame, et see on väga täpne.

Lisaks sellele mõõtmistüübile pakub GABRIEL ka praktilisi tööriistu, mida teadlased sageli vajavad. Nende hulka kuuluvad andmestike ühendamine isegi siis, kui veerud ei ühti, nutikas duplikaatide eemaldamine, lõikude kodeerimine, uute teaduslike teooriate väljamõtlemine ning isikuandmete deidentifitseerimine tekstist, et säilitada privaatsus.

GABRIEL on nüüd alustamiseks saadaval avatud lähtekoodiga Pythoni teegina(avaneb uues aknas), koos õpetusvihikuga(avaneb uues aknas). See on loodud vajama minimaalset tehnilist tausta. Me parandame GABRIEL-i aja jooksul, tuginedes seejuures akadeemilise kogukonna tagasisidele. Loodame, et see tööriist aitab rohkematel teadlastel tuua kvalitatiivsete andmete rikkuse ja inimlood oma töösse.