Přeskoč na hlavní obsah
OpenAI

Škálování výzkumu společenských věd

Nový nástroj, který pomůže výzkumníkům převést kvalitativní data na čísla, která mohou analyzovat.

Načítání…

Klíčovou součástí naší práce v OpenAI je umožnit vědcům postupovat rychleji a řešit složitější problémy. Náš tým ekonomického výzkumu dnes vydává řešení GABRIEL: sadu opensourcových nástrojů, která využívá model GPT k převodu nestrukturovaného textu a obrázků na kvantitativní měření. Je určen pro ekonomy, sociální vědce a datové vědce ke studiu kvalitativních dat ve velkém měřítku.

Kvalitativní data vyprávějí nejbohatší příběhy o světě – o tom, co lidé říkají, píšou, učí, o čem argumentují a co prožívají. Zahrnuje vše od osnov a rozhovorů až po sociální sítě a fotografie. Je toho obrovské množství. Ale transformace tohoto typu dat na rigorózní důkazy je neuvěřitelně časově náročná. Často to vůbec není možné. V příliš mnoha případech jsou sociální vědci nuceni vzdát se důležitých oblastí výzkumu, ne proto, že by data neexistovala, ale proto, že je nelze analyzovat.

Sada GABRIEL je navržena tak, aby kvalitativní data výrazně zpřístupňovala. Umožňuje výzkumníkům popsat, co chtějí měřit běžnými slovy, například „jak vhodný je tento pracovní inzerát pro rodiny?“, a pak tuto stejnou otázku konzistentně aplikovat napříč tisíci (nebo miliony) dokumentů, přičemž pro každý z nich vrátí skóre. Díky tomu mohou výzkumníci trávit méně času opakujícím se značkováním dat a více času prací, která skutečně vyžaduje odborné znalosti: výběrem toho, co měřit, ověřováním výsledků a vyvozováním pečlivých závěrů.

GABRIEL dokáže například analyzovat velkou sbírku vědeckých prací, aby zjistil, jaké konkrétní metody se používají a jak se v průběhu času vyvíjejí. Může se podívat na učební osnovy kurzů, aby zjistil, kolik pozornosti je věnováno různým předmětům nebo dovednostem. Dokáže extrahovat strukturované historické údaje pro každé malé město v Evropě nebo prozkoumat množství zákaznických recenzí a objevit vzorce v tom, na čem lidem nejvíce záleží. V našem článku(otevře se v novém okně) testujeme model GPT při značkování kvalitativních dat v různých případech použití a zjišťujeme, že je velmi přesný.

Kromě tohoto typu měření poskytuje GABRIEL také praktické nástroje, které výzkumníci často potřebují. Patří mezi ně slučování datových sad, i když se sloupce neshodují, inteligentní odstraňování duplicit, kódování platnosti, vytváření nových vědeckých teorií a oddělování osobních údajů od textu pro zachování soukromí.

GABRIEL je nyní k dispozici jako opensourcová knihovna Python(otevře se v novém okně) s textovým návodem(otevře se v novém okně) pro začátek. Je navržen tak, aby vyžadoval minimální technické znalosti. Sadu GABRIEL budeme průběžně vylepšovat na základě zpětné vazby od akademické komunity. Doufáme, že tento nástroj pomůže více výzkumníkům začlenit do své práce bohatství kvalitativních dat a lidských příběhů.