跳至主要內容
OpenAI

擴大社會科學研究規模

能夠協助研究人員將定性資料轉換成可供分析之資料的全新工具。

載入中…

OpenAI 的核心宗旨之一便是協助科學家們加快研究進程並解決棘手的難題。我們的經濟研究團隊於今天推出了 GABRIEL:一套運用 GPT 來將非結構化文字/圖片轉換成量化指標的開源工具組。GABRIEL 是我們特別為經濟學家、社會科學家與資料科學家所設計打造的工具,可以在大規模的情境下幫助研究人員研究定性資料。

定性資料能夠鉅細靡遺地呈現出這個世界的樣貌——人們會說些什麼、會寫些什麼、會教導些什麼、會爭論些什麼以及各式各樣的獨特經歷。這些資料的量相當大,且會涵蓋舉凡課程大綱、訪談對話或是社群媒體/照片等等的多樣內容。然而,要把這一類的資料轉換成嚴謹的實證證據資料可是一件極為耗時的事情,很多時候甚至根本是完全做不到的事情。在太多數的情況下,社會科學家們不得不因此放棄重要的研究方向,而會決定放棄研究方向的原因並不是資料不足,而是我們無法有效地分析手邊的資料。

我們決定開發 GABRIEL 的宗旨,就是希望能夠幫助大家更輕鬆地運用定性資料。研究人員們可以利用日常語言來說明自己想要量化什麼樣的內容——例如:「這份職缺說明的家庭友善程度如何?」——接著,GABRIEL 就會把同一個問題一致地套用到成千上萬(甚至上百萬)份文件中,並為每一份文件產生一個分數。這讓研究人員們能夠省下重複標註資料的作業時間,並把心力放在真正需要專業判斷的工作上:決定要量化什麼內容、驗證結果並給出謹慎的結論。

舉例來說:GABRIEL 可以分析大量的科學論文,好瞭解論文中有實際採用了哪些研究方法以及各個時代的研究方法有何不同之處。GABRIEL 也可以檢視課程綱要,好衡量不同主題或是技能所占的比重。GABRIEL 還可以為歐洲境內的各個小鎮擷取出結構化的歷史細節資訊,或是分析大量的顧客評論以找出人們最在意的重點資訊。在我們的論文(在新視窗中開啟)中,我們有針對多種情境評估了 GPT 標註定性資料時的表現,根據結果看來,其準確度相當高。

除了這類量化量測事宜之外,GABRIEL 也能夠準備好研究人員們經常會需要使用到的實用工具,舉凡在欄位不完全相符時合併資料集、智慧刪除重複的內容、段落編碼、發想全新的科學理論並在文字段落中移除個人資訊以保障隱私。

現已有以開源 Python 程式庫(在新視窗中開啟)的形式推出 GABRIEL,並附有教學筆記本(在新視窗中開啟)好方便各位快速上手。我們是以「使用者只需要具備最低限度的技術背景即可開始使用」的願景來設計 GABRIEL 的。我們會根據學術社群的回饋來持續改善 GABRIEL 的功能,也期待這個工具能夠協助更多的研究人員們將定性資料與人類的豐富內涵帶入到他們的研究工作中。