Ampliare la ricerca nelle scienze sociali
Un nuovo strumento che aiuta i ricercatori a trasformare i dati qualitativi in numeri da analizzare.
Una parte fondamentale del lavoro di OpenAI è permettere agli scienziati di lavorare più velocemente e di affrontare problemi più complessi. Oggi il nostro Economic Research Team presenta GABRIEL, un toolkit open source che utilizza GPT per trasformare testi e immagini non strutturati in misurazioni quantitative. È pensato per economisti, scienziati sociali e data scientist che vogliono studiare dati qualitativi su larga scala.
I dati qualitativi raccontano le storie più approfondite sul mondo: ciò che le persone dicono, scrivono, insegnano, discutono e vivono. Comprendono di tutto, dai programmi dei corsi e le interviste ai social media e le fotografie. Sono disponibili in quantità enormi. Tuttavia, trasformare questo tipo di dati in prove rigorose richiede un’enorme quantità di tempo e, spesso, non è proprio fattibile. In troppi casi, gli scienziati sociali sono costretti a rinunciare a filoni di ricerca importanti non perché i dati non esistano, ma perché è impossibile analizzarli.
GABRIEL è stato creato per rendere i dati qualitativi molto più accessibili. Permette ai ricercatori di descrivere ciò che vogliono misurare con parole di tutti i giorni, ad esempio “quanto è a misura di famiglia questa offerta di lavoro?” e poi applica la stessa domanda in modo coerente a migliaia (o milioni) di documenti, restituendo un punteggio per ciascuno. In questo modo i ricercatori possono dedicare meno tempo all’etichettatura ripetitiva dei dati e più tempo al lavoro che richiede davvero competenze, ovvero scegliere cosa misurare, convalidare i risultati e trarre conclusioni accurate.
Ad esempio, GABRIEL può analizzare una vasta raccolta di articoli scientifici per vedere quali metodi specifici vengono utilizzati e come evolvono nel tempo. Può esaminare i programmi dei corsi per misurare quanta attenzione viene dedicata a diverse materie o competenze. Può estrarre dettagli storici strutturati per ogni piccolo comune d’Europa, oppure analizzare un grande insieme di recensioni dei clienti e individuare pattern in ciò che le persone apprezzano di più. Nel nostro articolo(si apre in una nuova finestra) valutiamo le prestazioni di GPT nell’etichettare dati qualitativi in molti casi d’uso e riscontriamo che è altamente accurato.
Oltre a questo tipo di misurazione, GABRIEL offre anche strumenti pratici di cui i ricercatori spesso necessitano. Tra questi ci sono l’unione di set di dati anche quando le colonne non corrispondono, la deduplicazione intelligente, la codifica di passaggi di testo, la generazione di nuove teorie scientifiche e la rimozione di informazioni personali dai testi per tutelare la privacy.
GABRIEL è già disponibile come libreria Python open source(si apre in una nuova finestra), con un notebook di tutorial(si apre in una nuova finestra) per iniziare. Richiede una preparazione tecnica minima. Continueremo a migliorare GABRIEL nel tempo sulla base del feedback della comunità accademica. Speriamo che questo strumento aiuti sempre più ricercatori a portare la ricchezza dei dati qualitativi e delle storie umane nel proprio lavoro.


