Escalar la recerca en ciències socials
Una nova eina per ajudar els investigadors a convertir dades qualitatives en xifres que puguin analitzar.
Una part fonamental de la nostra feina a OpenAI és permetre que els científics avancin més de pressa i resolguin problemes més difícils. Avui, el nostre equip de recerca econòmica presenta GABRIEL: un conjunt d’eines de codi obert que fa servir GPT per convertir text no estructurat i imatges en mesuraments quantitatius. Està dissenyat perquè economistes, científics socials i científics de dades puguin estudiar dades qualitatives a escala.
Les dades qualitatives expliquen les històries més riques sobre el món: el que la gent diu, escriu, ensenya, debat i experimenta. Inclouen des de plans docents i entrevistes fins a xarxes socials i fotografies. N’hi ha una quantitat enorme. Però transformar aquest tipus de dades en evidència rigorosa requereix moltíssim temps. Sovint, ni tan sols és factible. En massa casos, els científics socials es veuen obligats a renunciar a línies de recerca importants, no perquè les dades no existeixin, sinó perquè és impossible analitzar-les.
GABRIEL s’ha creat per fer que les dades qualitatives siguin molt més accessibles. Permet als investigadors descriure allò que volen mesurar amb paraules quotidianes —com ara «fins a quin punt aquesta oferta de feina és favorable a la família?»— i després aplica aquesta mateixa pregunta de manera coherent a milers (o milions) de documents, retornant una puntuació per a cadascun. Això permet als investigadors dedicar menys temps a l’etiquetatge repetitiu de dades i més a la feina que realment requereix expertesa: triar què cal mesurar, validar resultats i extreure conclusions acurades.
Per exemple, GABRIEL pot analitzar una gran col·lecció d’articles científics per veure quins mètodes específics s’utilitzen i com evolucionen amb el temps. Pot examinar plans d’estudis per mesurar quanta atenció es presta a diferents matèries o competències. Pot extreure detalls històrics estructurats de cada petit poble d’Europa o examinar un gran conjunt de ressenyes de clients i descobrir patrons en allò que la gent valora més. Al nostre article(s'obre en una finestra nova), avaluem GPT en l’etiquetatge de dades qualitatives en molts casos d’ús i comprovem que és molt precís.
Més enllà d’aquest tipus de mesurament, GABRIEL també ofereix eines pràctiques que els investigadors solen necessitar. Entre aquestes hi ha la fusió de conjunts de dades fins i tot quan les columnes no coincideixen, la deduplicació intel·ligent, la codificació de passatges, la ideació de noves teories científiques i la desidentificació d’informació personal dels textos per preservar la privacitat.
GABRIEL ja està disponible com a biblioteca de Python de codi obert(s'obre en una finestra nova), amb un quadern tutorial(s'obre en una finestra nova) per començar. Està dissenyat perquè requereixi uns coneixements tècnics mínims. Continuarem millorant GABRIEL amb el temps a partir dels comentaris de la comunitat acadèmica. Esperem que aquesta eina ajudi més investigadors a incorporar a la seva feina la riquesa de les dades qualitatives i de les històries humanes.


