跳到主要內容
OpenAI

2026年2月13日

全球事務發佈研究

擴展社會科學研究規模

一款新工具,協助研究人員將質性資料轉化為可分析的數字。

正在載入...

推動科學家取得更迅速的進展和解決更棘手的問題,是 OpenAI 工作的核心部分。今天,我們的經濟研究團隊發佈 GABRIEL:這是一個開源工具包,利用 GPT 將非結構化的文字與圖像轉化為量化測量。GABRIEL 旨在協助經濟學家、社會科學家及數據科學家大規模研究質性資料。

質性資料講述關於世界的最為豐富的故事——人們的所言、所寫、所教、所辯及所感。質性資料涵蓋範圍廣泛,從課程大綱、訪談到社交媒體與照片。這類資料數量龐大,但將其轉化為嚴謹的證據卻極其耗時,甚至往往完全不可行。在太多情況下,社會科學家被迫放棄重要的研究途徑,並非因為數據不存在,而是因為無法分析。

GABRIEL 的構建旨在讓質性資料更容易取得。GABRIEL 允許研究人員用日常語言描述他們想測量的內容——例如「這份招聘清單對家庭有多友好?」——然後將同一個問題一致地應用於數千(或數百萬)份文件,並為每份文件返回一個分數。這使得研究人員能減少花重複標註數據的時間,而將更多時間投入到真正需要專業知識的工作上:選擇測量目標、驗證結果以及得出審慎的結論。

例如,GABRIEL 可以分析大量科學論文,以了解使用了哪些具體方法,以及這些方法隨著時間推移如何演變。GABRIEL 可以檢視課程大綱,量度不同學科或技能所佔的比重。GABRIEL 可以為歐洲每個小鎮提取結構化的歷史細節,或者檢視大量的客戶評價,並發現人們最看重甚麼的模式。在我們的論文(在新視窗中開啟)中,我們對 GPT 在多個應用案例中標記質性資料的能力進行基準測試,發現準確度非常高。

除了這類測量功能,GABRIEL 還提供研究人員經常需要的實用工具。這些包括在數據欄位不匹配時合併數據集、智能去重、段落編碼、構思新的科學理論,以及從文本中去除個人識別資訊以保護私隱。

GABRIEL 現已作為開源 Python 程式庫(在新視窗中開啟)提供,並附有教學筆記本(在新視窗中開啟)供入門使用。其設計旨在僅需極少的技術背景。我們將根據學術界的回饋持續改進 GABRIEL。我們希望這個工具能幫助更多研究人員將質性資料和人類故事的豐富性融入他們的工作。

作者

OpenAI