Mise à l’échelle de la recherche en sciences sociales
Un nouvel outil pour aider les chercheurs à transformer des données qualitatives en chiffres pouvant être analysés.
Un élément central de notre travail chez OpenAI est de permettre aux scientifiques d’avancer plus vite et de s’attaquer à des problèmes plus complexes. Aujourd’hui, notre équipe de recherche en économie lance GABRIEL : une boîte à outils open source qui utilise GPT pour transformer du texte et des images non structurés en mesures quantitatives. Il est conçu pour les économistes, les chercheurs en sciences sociales et les data scientists qui étudient des données qualitatives à grande échelle.
C’est aux données qualitatives que l’on doit les histoires les plus riches sur le monde : ce que les gens disent, écrivent, enseignent, débattent et vivent. Elles englobent tout, depuis les programmes de cours et des entretiens jusqu’aux réseaux sociaux, en passant par les photographies. Il en existe une quantité considérable. Mais transformer ce type de données en preuves rigoureuses prend énormément de temps. Bien souvent, ce n’est tout simplement pas faisable. Dans trop de cas, les chercheurs en sciences sociales doivent renoncer à des pistes de recherche importantes, non pas parce que les données n’existent pas, mais parce qu’il est impossible de les analyser.
GABRIEL est conçu pour rendre les données qualitatives beaucoup plus accessibles. Il permet aux chercheurs de décrire ce qu’ils veulent mesurer avec des mots de tous les jours (par exemple « dans quelle mesure cette offre d’emploi est-elle adaptée à la vie de famille ? »), puis applique cette même question de manière cohérente à des milliers (voire des millions) de documents, en renvoyant un score pour chacun. Cela permet aux chercheurs de consacrer moins de temps à l’étiquetage répétitif des données et plus de temps au travail qui requiert réellement une expertise : choisir ce qu'il faut mesurer, valider les résultats et tirer des conclusions rigoureuses.
Par exemple, GABRIEL peut analyser un vaste ensemble d’articles scientifiques pour voir quelles méthodes spécifiques sont utilisées et comment elles évoluent dans le temps. Il peut examiner des programmes de cours pour mesurer l’importance accordée à différents sujets ou compétences. Il peut extraire des données historiques structurées pour chaque petite ville d’Europe, ou analyser un grand volume d’avis de clients et faire émerger des tendances dans ce que les gens apprécient le plus. Dans notre article(ouverture dans une nouvelle fenêtre), nous évaluons les performances de GPT pour l’étiquetage de données qualitatives dans de nombreux cas d’usage et constatons qu’il est très précis.
Au-delà de ce type de mesure, GABRIEL fournit aussi des outils pratiques dont les chercheurs ont souvent besoin. Citons notamment la fusion de jeux de données même lorsque les colonnes ne correspondent pas, la déduplication intelligente, le codage de passages, la génération de nouvelles hypothèses scientifiques et la dépersonnalisation des informations personnelles contenues dans un texte afin de préserver la confidentialité.
GABRIEL est dès maintenant disponible sous forme de bibliothèque Python open source(ouverture dans une nouvelle fenêtre), avec un tutoriel sous forme de bloc-notes(ouverture dans une nouvelle fenêtre) pour démarrer. Il est conçu pour ne nécessiter que des connaissances techniques minimales. Nous continuerons d’améliorer GABRIEL au fil du temps en fonction des retours de la communauté universitaire. Nous espérons que cet outil aidera davantage de chercheurs à intégrer la richesse des données qualitatives et des témoignages humains dans leurs travaux.


