Lumaktaw sa pangunahing content
OpenAI

Pagpapalawak sa pananaliksik sa agham panlipunan

Isang bagong tool upang tulungan ang mga mananaliksik na gawing mga numero ang kwalitatibong data na maaari nilang suriin.

Naglo-load…

Isang pangunahing bahagi ng aming trabaho sa OpenAI ay ang pagbibigay-kakayahan sa mga siyentipiko na mas mabilis na makakilos at malutas ang mas mahihirap na problema. Ngayon, inilalabas ng aming Economic Research Team ang GABRIEL: isang open-source na toolkit na gumagamit ng GPT upang gawing kwantitatibong sukat ang hindi nakaayos na teksto at mga larawan. Dinisenyo ito para sa mga ekonomista, siyentipikong panlipunan, at siyentipiko ng data upang pag-aralan ang kwalitatibong data sa malakihang saklaw.

Ang kwalitatibong datos ay nagkukuwento ng pinakamayamang mga salaysay ng mundo—kung ano ang sinasabi, sinusulat, tinuturo, pinagtatalunan, at nararanasan ng mga tao. Sinasaklaw nito ang lahat mula sa mga syllabus at panayam hanggang sa social media at mga litrato. May napakalaking bilang nito. Ngunit ang pag-transform ng ganitong uri ng data upang maging mahigpit na ebidensya ay napakatagal at nakakaubos ng oras. Kadalasan, hindi talaga ito posible. Sa napakaraming pagkakataon, napipilitan ang mga siyentipikong panlipunan na isaisangtabi ang mahahalagang landas ng pananaliksik, hindi dahil wala ang data, kundi dahil imposibleng suriin ito.

Ang GABRIEL ay binuo upang gawing mas madaling ma-access ang kwalitatibong datos. Pinapayagan nito ang mga mananaliksik na ilarawan kung ano ang gusto nilang sukatin gamit ang pang-araw-araw na mga salita—tulad ng “gaano kaangkop sa pamilya ang listahang ito ng trabaho?”—at pagkatapos ay ilapat ang mismong tanong na iyon nang gayundin sa libo-libo (o milyon-milyong) dokumento, na nagbabalik ng iskor para sa bawat isa. Pinapahintulutan nito ang mga mananaliksik na gumugol ng mas kaunting oras sa paulit-ulit na paglalagay ng label sa data at mas maraming oras sa gawaing talagang nangangailangan ng kadalubhasaan: pagpili kung ano ang susukatin, pagpapatunay ng mga resulta, at pagbuo ng maingat na konklusyon.

Halimbawa, maaaring suriin ng GABRIEL ang isang malaking koleksyon ng mga siyentipikong papel upang makita kung anong mga partikular na pamamaraan ang ginagamit at kung paano nagbabago ang mga ito sa pagdaan ng panahon. Maaari nitong suriin ang mga kurikulum ng kurso upang masukat kung gaano karaming atensyon ang ibinibigay sa iba’t ibang paksa o kasanayan. Maaari itong kumuha ng mga nakaistraktura at makasaysayang detalye para sa bawat maliit na bayan sa buong Europa, o suriin ang koleksyon ng mga pagsusuri ng customer at tuklasin ang mga pattern sa kung ano ang pinahahalagahan ng mga tao. Sa aming papel(magbubukas sa bagong window), sinusuri namin ang GPT sa paglalagay ng label sa kwalitatibong data sa iba't ibang kaso ng paggamit at natuklasan naming napakataas ng katumpakan nito.

Bukod sa ganitong uri ng pagsukat, nagbibigay rin ang GABRIEL ng mga praktikal na tool na madalas kailanganin ng mga mananaliksik. Kabilang dito ang pagsasama ng mga dataset kahit hindi tugma ang mga column, matalinong pag-aalis ng mga duplicate, pag-code ng mga talata, pagbuo ng mga bagong siyentipikong teorya, at pag-aalis ng pagkakakilanlan ng personal na impormasyon mula sa teksto upang mapanatili ang pagkapribado.

Ang GABRIEL ay available na bilang open-source Python library(magbubukas sa bagong window), na may kasamang tutorial notebook(magbubukas sa bagong window) para makapagsimula. Dinisenyo ito upang mangailangan ng kaunting teknikal na kaalaman. Patuloy naming papaghusayin ang GABRIEL sa pagdaan ng panahon batay sa feedback ng akademikong komunidad. Umaasa kami na ang tool na ito ay makakatulong sa mas maraming mananaliksik na maipahayag ang yaman ng kwalitatibong datos at mga kuwento ng tao sa kanilang gawain.