Масштабування соціологічних досліджень
Новий інструмент, що допомагає дослідникам перетворювати якісні дані на числові значення для аналізу.
Основна частина нашої роботи в OpenAI полягає в тому, щоб надавати науковцям можливість працювати швидше та вирішувати складніші проблеми. Сьогодні наша команда з економічних досліджень випускає GABRIEL — набір інструментів із відкритим вихідним кодом, що використовує GPT для перетворення неструктурованого тексту та зображень на кількісні показники. Він призначений для економістів, соціологів та спеціалістів із аналізу даних для вивчення якісних даних у великому масштабі.
Якісні дані розповідають найзмістовніші історії про світ: що люди кажуть, пишуть, чого навчають, через що сперечаються та що переживають. Вони охоплюють усе: від навчальних програм і співбесід до соціальних мереж та фотографій. Усього й не перелічити. Але перетворення такого типу даних на достовірні докази займає неймовірно багато часу. Часто це взагалі є неможливим. У багатьох випадках соціологи змушені відмовлятися від важливих напрямів досліджень не тому, що потрібних даних не існує, а тому, що їх просто неможливо проаналізувати.
GABRIEL був створений для того, аби зробити якісні дані значно доступнішими. Він дозволяє дослідникам описувати те, що вони хочуть виміряти, повсякденними словами — наприклад, «наскільки це оголошення про вакансію орієнтоване на сімейні цінності?» — і потім послідовно застосовувати те саме запитання до тисяч (чи навіть мільйонів) документів, отримуючи оцінку для кожного з них. Це дозволяє дослідникам витрачати менше часу на повторне маркування даних та присвячувати більше часу роботі, яка дійсно вимагає експертизи: вибору вимірюваних параметрів, перевірці результатів, та формулюванню обґрунтованих висновків.
Наприклад, GABRIEL може проаналізувати велику колекцію наукових статей, щоб визначити, які конкретні методи використовуються та як вони змінюються з часом. Він може провести аналіз навчальної програми того чи іншого курсу, щоб оцінити, скільки уваги приділяється різним предметам або навичкам. Ця система може зібрати структуровані історичні дані про кожне маленьке містечко в Європі, або проаналізувати масив відгуків клієнтів, виявивши закономірності в тому, що люди цінують найбільше. У нашій статті(відкривається у новому вікні) описано, як ми провели тестування GPT на здатність маркувати якісні дані в різних сценаріях використання, підтвердивши його безпрецедентну точність.
Окрім цього типу вимірювань, GABRIEL також надає ряд практичних інструментів, які часто потрібні дослідникам. Він включає об'єднання наборів даних навіть тоді, коли стовпці не збігаються, розумне видалення дублікатів, кодування текстових фрагментів, розробку нових наукових теорій та видалення особистої інформації з тексту задля збереження конфіденційності.
GABRIEL доступний вже зараз як бібліотека Python із відкритим кодом(відкривається у новому вікні); також ви можете ознайомитися з навчальним посібником(відкривається у новому вікні) для початку роботи. Інструментарій розроблений таким чином, аби вимагати мінімальної технічної підготовки. Ми продовжуватимемо вдосконалювати GABRIEL на основі відгуків наукової спільноти. Сподіваємося, що цей інструмент допоможе більшій кількості дослідників інтегрувати багатство якісних даних та людських історій у свою роботу.


