在 OpenAI,我们工作的核心之一是帮助科学家们加快研究进度,并解决更为棘手的问题。今天,我们的经济研究团队发布了 GABRIEL:一个开源工具包,利用 GPT 将非结构化文本和图像转化为量化指标。它专为经济学家、社会科学家和数据科学家打造,用于对定性数据进行规模化的研究。
定性数据讲述着关于世界的最精彩纷呈的故事——人们都在说些什么、写些什么、教授些什么、争论些什么,还有他们正在经历的一切。它所涉及的内容包罗万象,从课程大纲、访谈、社媒帖文、照片应有尽有,而且数量极其庞大。但是,如要将此类数据转化为严谨的证据,往往需要耗费大量时间,很多时候甚至根本不可行。有太多的案例表明,社会科学家不得不放弃重要的研究方向,并不是因为没有数据,而是因为这些数据几乎无法分析。
GABRIEL 的目标是让定性数据变得更易获取。研究者可以用日常语言描述自己想要衡量的内容——比如“这则招聘信息面对家庭的友好程度是多少?”——然后 GABRIEL 会将同样的问题一致地应用于成千上万(甚至上百万)份文档,并为每一份文档返回一个评分。这样一来,研究者可以减少在重复性数据标注上的时间,把更多精力放在真正需要专业判断的工作上:选择要衡量的对象、对结果做出验证,并谨慎得出结论。
例如,GABRIEL 可以分析大量科学论文,查看其中具体应用了哪些方法,以及这些方法如何随着时间演变。它可以审阅课程设置,衡量不同学科或技能所占的比重。它可以为欧洲各个小镇提取结构化的历史细节,或者分析海量用户评价,发掘人们最看重的价值所呈现的模式。在我们的论文(在新窗口中打开)中,我们在多种使用场景下对 GPT 进行定性数据标注评测,发现其准确度很高。
除了这类测量功能之外,GABRIEL 还提供研究者常常需要的实用工具。其功能包括:在列名不完全匹配的情况下合并数据集、智能去重、段落编码、构思新的科学理论,以及从文本中去标识化个人信息以保护隐私。
GABRIEL 现已作为一个开源 Python 库(在新窗口中打开)发布,并配有一个教程笔记本(在新窗口中打开),方便你快速上手。它的设计目标是尽量降低技术门槛。我们会根据学术界的反馈不断改进 GABRIEL。我们希望这个工具能帮助更多研究者把定性数据和人类故事的丰富性融入他们的研究工作中。


