メインコンテンツにスキップ
OpenAI

社会科学研究の規模拡大

質的データを分析可能な数値データに変換するための新しいツール。

読み込んでいます...

OpenAI の活動の中核には、科学者がより速く動き、より難しい問題を解けるようにすることがあります。本日、当社の経済研究チームは、GABRIEL を公開します。これは、GPT を使って非構造化テキストや画像を定量的な指標に変換するオープンソースのツールキットです。経済学者、社会科学者、データサイエンティストが、大規模な質的データを研究できるように設計されています。

質的データは、世界について最も豊かな物語を語ります。人が話し、書き、教え、議論し、経験することすべてです。シラバスやインタビューから、ソーシャルメディアや写真に至るまで、あらゆるものを含みます。そして、その量は膨大です。しかし、そのようなデータを厳密なエビデンスに変換する作業は、非常に時間がかかります。そもそも実現が難しいこともよくあります。多くの場合、社会科学者は重要な研究の道をあきらめざるを得ません。データが存在しないからではなく、それを分析することが事実上不可能だからです。

GABRIEL は、質的データへのアクセスを容易にするために作られました。研究者は、「この求人情報はどれくらい子育て世帯に配慮しているか?」といった日常的な言葉で、測定したい内容を記述できます。そのうえで GABRIEL が、同じ問いを数千件(あるいは数百万件)の文書に一貫して適用し、それぞれにスコアを返します。これにより、研究者は反復的なデータラベリングに費やす時間を減らし、本当に専門性が必要な作業──何を測定するかの選択、結果の検証、慎重な結論づけ──により多くの時間を使えるようになります。

たとえば GABRIEL は、大量の学術論文を分析し、どのような具体的手法が使われているか、またそれが時間とともにどう変化しているかを調べることができます。授業のカリキュラムを見て、どの科目やスキルにどれだけの時間が割かれているかを測定することもできます。ヨーロッパ中の小さな町それぞれについて、構造化された歴史的情報を抽出したり、大量のカスタマーレビューを調べて、人々が何を最も重視しているのか、そのパターンを見つけたりすることもできます。論文(新しいウィンドウで開く)では、多様なユースケースにおいて GPT に質的データのラベリングを行わせ、その性能をベンチマークしたところ、高い精度が得られることが分かりました。

このような測定機能に加えて、GABRIEL は研究者がよく必要とする実用的なツールも提供します。列名が一致しないデータセット同士のマージ、スマートな重複排除、パッセージのコーディング、新しい科学理論のアイデア出し、テキストから個人情報を削除してプライバシーを保護する処理などが含まれます。

GABRIEL は現在、オープンソースの Python ライブラリ(新しいウィンドウで開く)として利用可能で、すぐに始められるようにチュートリアルノートブック(新しいウィンドウで開く)も用意しています。高度な技術的知識がなくても使えるように設計されています。今後も学術コミュニティからのフィードバックに基づいて、GABRIEL を継続的に改善していきます。このツールが、より多くの研究者の方々に、質的データと人間の物語の豊かさを研究に取り入れていただく一助となれば幸いです。

著者

OpenAI