Переход к основному контенту
OpenAI

Масштабирование исследований в социальных науках

Новый инструмент, который помогает исследователям превращать качественные данные в цифры для анализа.

Загрузка…

Важная часть нашей работы в OpenAI — помогать учёным двигаться быстрее и решать более сложные задачи. Сегодня наша команда экономических исследований выпускает GABRIEL: открытый инструментарий, который с помощью GPT превращает неструктурированные тексты и изображения в количественные измерения. Он создан для экономистов, социальных исследователей и дата-сайентистов, чтобы изучать качественные данные в больших масштабах.

Качественные данные рассказывают самые насыщенные истории о мире — о том, что люди говорят, пишут, чему учат, о чём спорят и что переживают. Это всё: от учебных программ и интервью до социальных сетей и фотографий. Таких данных огромное количество. Но превращать их в строгие доказательства невероятно трудозатратно. Часто это вообще нереально. Во многих случаях социальным учёным приходится отказываться от важных направлений исследований не потому, что нет данных, а потому что их невозможно проанализировать.

GABRIEL создан, чтобы сделать качественные данные гораздо более доступными. Он позволяет исследователям описывать, что именно нужно измерить, простыми словами — например: «насколько это объявление о вакансии удобно для семьи?» — а затем задаёт этот же вопрос последовательно для тысяч (или миллионов) документов и возвращает оценку для каждого. Это помогает исследователям меньше времени тратить на повторяющуюся разметку данных и больше — на работу, где действительно нужна экспертиза: выбор того, что измерять, проверку результатов и аккуратные выводы.

Например, GABRIEL может проанализировать большую коллекцию научных статей, чтобы увидеть, какие именно методы используются и как они меняются со временем. Он может изучать учебные планы курсов и измерять, сколько внимания уделяется разным темам и навыкам. Он может извлекать структурированные исторические сведения по каждому небольшому городу Европы или анализировать массив отзывов клиентов и находить закономерности в том, что люди ценят больше всего. В нашей статье(открывается в новом окне) мы оцениваем точность GPT при разметке качественных данных в разных сценариях и показываем, что модель работает очень точно.

Помимо таких измерений, GABRIEL также предоставляет практические инструменты, которые часто нужны исследователям. Среди них — объединение наборов данных, даже если столбцы не совпадают, умное удаление дубликатов, кодирование фрагментов текста, генерация новых научных гипотез и удаление персональных данных из текста для защиты конфиденциальности.

GABRIEL уже доступен как открытая библиотека на Python(открывается в новом окне) с обучающим ноутбуком(открывается в новом окне) для быстрого старта. Он спроектирован так, чтобы требовать минимальной технической подготовки. Со временем мы будем улучшать GABRIEL, опираясь на отзывы академического сообщества. Мы надеемся, что этот инструмент поможет большему числу исследователей включать богатство качественных данных и человеческих историй в свою работу.