Passer au contenu principal
OpenAI

Développer la recherche en sciences sociales

Un nouvel outil pour aider les chercheurs à transformer des données qualitatives en chiffres exploitables.

Chargement…

Une partie essentielle de notre travail chez OpenAI consiste à aider les chercheurs à avancer plus vite et à s’attaquer à des problèmes plus complexes. Aujourd’hui, notre équipe de recherche en économie lance GABRIEL : une boîte à outils libre d'accès qui utilise un GPT pour transformer des textes et des images non structurés en données quantitatives. Elle est conçue pour permettre aux économistes, aux chercheurs en sciences sociales et aux spécialistes des données d’étudier des données qualitatives à grande échelle.

Les données qualitatives contiennent les histoires les plus élaborées sur le monde : ce que les gens disent, écrivent, enseignent, débattent et vivent. Elles couvrent tout, des plans de cours aux entrevues sur les médias sociaux en passant par la photographie. Il y en a une quantité énorme. Mais transformer ce type de données en preuves irréfutables prend énormément de temps. Souvent, ce n’est tout simplement pas faisable. Dans bien des cas, des chercheurs en sciences sociales ont dû renoncer à des pistes de recherche importantes, non pas parce que les données n’existaient pas, mais parce qu’il était impossible de les traiter.

GABRIEL est conçu pour rendre les données qualitatives beaucoup plus accessibles. Il permet aux chercheurs de décrire ce qu’ils veulent mesurer avec des mots de tous les jours — par exemple « à quel point cette offre d’emploi est-elle adaptée à la vie de famille? » — puis applique cette même question de façon uniforme à des milliers (ou des millions) de documents, en renvoyant une note pour chacun. Les chercheurs passeront ainsi moins de temps sur l’étiquetage répétitif des données et plus de temps sur le travail qui exige réellement une expertise : choisir quoi mesurer, valider les résultats et tirer des conclusions rigoureuses.

Par exemple, GABRIEL peut analyser un vaste ensemble d’articles scientifiques pour voir quelles méthodes précises sont utilisées et comment elles évoluent dans le temps. Il peut examiner des plans de cours pour mesurer l’importance accordée à différents sujets ou compétences. Il peut extraire des détails historiques structurés pour chaque petite ville d’Europe, ou analyser un grand volume d’avis de clients et dégager des tendances dans ce que les gens valorisent le plus. Dans notre article(s'ouvre dans une nouvelle fenêtre), nous évaluons les performances de GPT pour l’étiquetage de données qualitatives dans de nombreux cas d’usage et constatons qu’il est très précis.

Au-delà de ce type de mesure, GABRIEL offre aussi des outils pratiques, dont les chercheurs ont souvent besoin. Il s’agit notamment de fusionner des ensembles de données même lorsque les colonnes ne correspondent pas, de dédupliquer intelligemment, de coder des passages, de proposer de nouvelles théories scientifiques et de retirer les renseignements personnels des textes pour protéger la vie privée.

GABRIEL est maintenant offert sous forme de bibliothèque Python open source(s'ouvre dans une nouvelle fenêtre), avec un notebook tutoriel(s'ouvre dans une nouvelle fenêtre) pour commencer. Il est conçu pour exiger un minimum de connaissances techniques. Nous continuerons d’améliorer GABRIEL au fil du temps en fonction des commentaires de la communauté universitaire. Nous espérons que cet outil aidera davantage de chercheurs à intégrer la richesse des données qualitatives et des histoires humaines dans leurs travaux.