Siirry pääsisältöön
OpenAI

Yhteiskuntatieteellisen tutkimuksen skaalaaminen

Uusi työkalu, joka auttaa tutkijoita muuttamaan laadullisen tiedon numeroiksi, joita he voivat analysoida.

Ladataan...

Keskeinen osa työtämme OpenAI:ssa on auttaa tutkijoita etenemään nopeammin ja ratkaisemaan vaikeampia ongelmia. Tänään taloustutkimustiimimme julkaisee GABRIELin: avoimen lähdekoodin työkalupaketin, joka käyttää GPT:tä muuntaakseen jäsentämättömän tekstin ja kuvat kvantitatiivisiksi mittareiksi. Se on suunniteltu taloustieteilijöille, yhteiskuntatieteilijöille ja datatieteilijöille laadullisen datan laaja-alaiseen tutkimiseen.

Laadullinen data kertoo rikkaimmat tarinat maailmastamme—mitä ihmiset sanovat, kirjoittavat, opettavat, väittelevät ja kokevat. Se kattaa kaiken opetussuunnitelmista ja haastatteluista sosiaaliseen mediaan ja valokuviin. Sitä on valtava määrä. Mutta tällaisen datan muuttaminen luotettavaksi todisteeksi on erittäin aikaa vievää. Usein se ei ole lainkaan toteutettavissa. Liian monissa tapauksissa yhteiskuntatieteilijät joutuvat luopumaan tärkeistä tutkimusmahdollisuuksista, ei siksi, etteikö dataa olisi olemassa, vaan siksi, että sitä on mahdotonta analysoida.

GABRIEL on suunniteltu tekemään laadullisesta tiedosta huomattavasti helpommin saatavilla olevaa. Sen avulla tutkijat voivat kuvailla, mitä he haluavat mitata arkikielellä—esimerkiksi "kuinka perheystävällinen tämä työpaikkailmoitus on?"—ja sitten se soveltaa samaa kysymystä johdonmukaisesti tuhansiin (tai miljooniin) asiakirjoihin, palauttaen kullekin pistemäärän. Tämä mahdollistaa sen, että tutkijat voivat käyttää vähemmän aikaa toistuvaan datan merkitsemiseen ja enemmän aikaa työhön, joka todella vaatii asiantuntemusta: mitattavien kohteiden valintaan, tulosten validointiin ja huolellisten johtopäätösten tekemiseen.

GABRIEL voi esimerkiksi analysoida laajaa tieteellisten julkaisujen kokoelmaa ja selvittää, mitä erityisiä menetelmiä käytetään ja miten ne kehittyvät ajan myötä. Se voi tarkastella kurssien opetussuunnitelmia arvioidakseen, kuinka paljon eri aiheisiin tai taitoihin kiinnitetään huomiota. Se voi kerätä jäsenneltyjä historiallisia tietoja jokaisesta Euroopan pikkukaupungista tai analysoida suuren määrän asiakasarvosteluja ja löytää säännönmukaisuuksia siinä, mitä ihmiset arvostavat eniten. Artikkelissamme(avautuu uudessa ikkunassa) vertailemme GPT:n suorituskykyä laadullisen datan merkitsemisessä monissa käyttötapauksissa ja havaitsemme sen olevan erittäin tarkka.

Tämän tyyppisen mittauksen lisäksi GABRIEL tarjoaa käytännön työkaluja, joita tutkijat usein tarvitsevat. Näitä ovat tietojoukkojen yhdistäminen, vaikka sarakkeet eivät täsmäisi, älykäs duplikaattien poisto, tekstikatkelmien koodaus, uusien tieteellisten teorioiden ideointi sekä henkilötietojen anonymisointi yksityisyyden säilyttämiseksi.

GABRIEL on nyt saatavilla avoimen lähdekoodin Python-kirjastona(avautuu uudessa ikkunassa), ja mukana on opaskirja(avautuu uudessa ikkunassa), joka auttaa pääsemään alkuun. Se on suunniteltu vaatimaan vain vähän teknistä taustaa. Jatkamme GABRIELin kehittämistä ajan myötä akateemisen yhteisön palautteen perusteella. Toivomme, että tämä työkalu auttaa useampia tutkijoita tuomaan laadullisen datan ja ihmisten tarinoiden monimuotoisuuden osaksi työtään.