Przejdź do treści głównej
OpenAI

Skalowanie badań w naukach społecznych

Nowe narzędzie, które pomaga badaczom zamieniać dane jakościowe w liczby możliwe do analizy.

Ładowanie…

Kluczową częścią naszej pracy w OpenAI jest umożliwianie naukowcom szybszego działania i rozwiązywania trudniejszych problemów. Dziś nasz zespół Economic Research udostępnia GABRIEL: otwartoźródłowe narzędzie, które wykorzystuje GPT do przekształcania niestrukturyzowanych tekstów i obrazów w pomiary ilościowe. Zostało zaprojektowane z myślą o ekonomistach, badaczach nauk społecznych i specjalistach ds. analizy danych, aby mogli badać dane jakościowe na dużą skalę.

Dane jakościowe opowiadają najbogatsze historie o świecie — o tym, co ludzie mówią, piszą, czego uczą, o co się spierają i czego doświadczają. Obejmują wszystko: od sylabusów i wywiadów po media społecznościowe i fotografie. To ogromna ilość. Przekształcenie takiego typu danych w rzetelne dowody jest jednak niezwykle czasochłonne. Często w ogóle nie jest to wykonalne. W zbyt wielu przypadkach badacze nauk społecznych muszą rezygnować z ważnych kierunków badań nie dlatego, że dane nie istnieją, lecz dlatego, że nie da się ich przeanalizować.

GABRIEL powstał po to, by dane jakościowe stały się znacznie bardziej dostępne. Pozwala badaczom opisać to, co chcą mierzyć, zwykłymi słowami — na przykład „jak bardzo przyjazna rodzinie jest ta oferta pracy?” — a następnie zadaje to samo pytanie w spójny sposób w odniesieniu do tysięcy (lub milionów) dokumentów, zwracając wynik dla każdego z nich. Dzięki temu badacze mogą poświęcać mniej czasu na powtarzalne etykietowanie danych, a więcej na pracę, która faktycznie wymaga wiedzy eksperckiej: wybór tego, co mierzyć, weryfikację wyników i formułowanie przemyślanych wniosków.

Na przykład GABRIEL może przeanalizować dużą kolekcję artykułów naukowych, aby sprawdzić, jakie konkretne metody są stosowane i jak zmieniają się w czasie. Może przyjrzeć się programom kursów, by zmierzyć, ile uwagi poświęca się różnym tematom lub umiejętnościom. Może wydobywać ustrukturyzowane informacje historyczne dla każdej małej miejscowości w całej Europie albo przeanalizować zbiór opinii klientów i odkryć wzorce w tym, co ludzie cenią najbardziej. W naszym artykule(otwiera nowe okno) porównujemy skuteczność GPT w etykietowaniu danych jakościowych w wielu zastosowaniach i stwierdzamy, że jest ono bardzo dokładne.

Poza samym pomiarem GABRIEL oferuje też praktyczne narzędzia, których badacze często potrzebują. Obejmują one łączenie zbiorów danych nawet wtedy, gdy kolumny się nie pokrywają, inteligentne usuwanie duplikatów, kodowanie fragmentów tekstu, generowanie nowych teorii naukowych oraz usuwanie danych osobowych z tekstu w celu ochrony prywatności.

GABRIEL jest już dostępny jako otwartoźródłowa biblioteka w Pythonie(otwiera nowe okno) z notatnikiem z samouczkiem(otwiera nowe okno) ułatwiającym rozpoczęcie pracy. Został zaprojektowany tak, aby wymagał minimalnego przygotowania technicznego. Z czasem będziemy dalej rozwijać narzędzie GABRIEL na podstawie opinii środowiska akademickiego. Mamy nadzieję, że to narzędzie pomoże większej liczbie badaczy włączać bogactwo danych jakościowych i ludzkich historii do swoich prac.