Преминаване към основното съдържание
OpenAI

Мащабиране на изследванията в социалните науки

Нов инструмент, който ще помогне на изследователите да превърнат качествените данни в количествени, които могат да анализират.

Зареждане…

Основна част от нашата работа в OpenAI е да предоставяме възможност на учените да работят по-бързо и да решават по-сложни проблеми. Днес нашият екип за икономически изследвания пуска GABRIEL: набор от инструменти с отворен код, който използва GPT за превръщане на неструктуриран текст и изображения в количествени измервания. Той е предназначен за икономисти, социолози и специалисти по данни, за да изучават качествени данни в голям мащаб.

Качествените данни разказват най-богатите истории за света — какво казват, пишат, преподават, оспорват и преживяват хората. Това обхваща всичко - от учебни програми и интервюта до социални мрежи и фотографии. Има огромно количество от тях. Но превръщането на този вид данни в надеждни доказателства отнема изключително много време. Често това изобщо не е възможно. В твърде много случаи социолозите са принудени да се откажат от важни направления на изследване не защото данните не съществуват, а защото е невъзможно да бъдат анализирани.

GABRIEL е създаден, за да направи качествените данни значително по-достъпни. Той позволява на изследователите да опишат това, което искат да измерят, с думи от ежедневието — например „доколко тази обява за работа е подходяща за семейства?“ — и след това прилага същия въпрос последователно към хиляди (или милиони) документи, като дава оценка за всеки от тях. Това позволява на изследователите да отделят по-малко време за повтарящо се етикетиране на данни и повече време за работа, която наистина изисква експертни познания: избор какво да се измерва, валидиране на резултатите и направа на внимателни заключения.

Например GABRIEL може да анализира голяма колекция от научни статии, за да види какви конкретни методи се използват и как те се развиват с времето. Може да разглежда учебните програми на курсове, за да прецени колко внимание се отделя на различни предмети или умения. Той може да извлича структурирани исторически данни за всяко малко градче в Европа или да анализира множество отзиви на клиенти и да открива модели в това, което хората ценят най-много. В нашата статия(отваря се в нов прозорец) ние оценяваме GPT при етикетирането на качествени данни в различни случаи на употреба и установяваме, че е изключително точен.

Освен този тип измерване, GABRIEL предоставя и практически инструменти, от които изследователите често се нуждаят. Сред тях са обединяване на набори от данни, дори когато колоните не съвпадат, интелигентно премахване на дуплициране, кодиране на библиотеки за текстов анализ, генериране на идеи за нови научни теории и премахване на личната информация от текста с цел запазване на неприкосновеността на личния живот.

GABRIEL вече е наличен като библиотека с отворен код на Python(отваря се в нов прозорец) с наръчник(отваря се в нов прозорец), за да започнете. Той е проектиран да изисква минимални технически познания. С течение на времето ще продължим да подобряваме GABRIEL въз основа на обратната връзка от академичната общност. Надяваме се този инструмент да помогне на повече изследователи да внесат богатството на качествените данни и човешките истории в своята работа.