Escalar la investigación en ciencias sociales
Una nueva herramienta para ayudar a las personas investigadoras a convertir datos cualitativos en números que puedan analizar.
Una parte central de nuestro trabajo en OpenAI es ayudar a la comunidad científica a avanzar más rápido y resolver problemas más complejos. Hoy, nuestro equipo de investigación económica presenta GABRIEL: un conjunto de herramientas de código abierto que usa GPT para convertir texto e imágenes no estructurados en mediciones cuantitativas. Está diseñado para que economistas, científicas y científicos sociales, y especialistas en datos estudien datos cualitativos a gran escala.
Los datos cualitativos cuentan las historias más ricas sobre el mundo: lo que la gente dice, escribe, enseña, discute y experimenta. Abarcan desde programas de estudio y entrevistas hasta redes sociales y fotografías. Hay una cantidad enorme de este tipo de datos. Pero transformar ese tipo de información en evidencia rigurosa consume muchísimo tiempo. A menudo ni siquiera es factible. En demasiados casos, las y los científicos sociales se ven obligados a dejar de lado líneas de investigación importantes, no porque los datos no existan, sino porque es imposible analizarlos.
GABRIEL está diseñado para hacer que los datos cualitativos sean mucho más accesibles. Permite que las personas investigadoras describan lo que quieren medir con palabras cotidianas, como “¿qué tan familiarmente amigable es esta oferta de trabajo?”, y luego aplica esa misma pregunta de forma consistente a miles (o millones) de documentos, y devuelve una puntuación para cada uno. Esto permite que las y los investigadores dediquen menos tiempo al etiquetado repetitivo de datos y más tiempo al trabajo que realmente requiere experiencia: elegir qué medir, validar los resultados y sacar conclusiones cuidadosas.
Por ejemplo, GABRIEL puede analizar una gran colección de artículos científicos para ver qué métodos específicos se usan y cómo evolucionan con el tiempo. Puede revisar programas de cursos para medir cuánta atención se da a distintas materias o habilidades. Puede extraer detalles históricos estructurados de cada pueblo pequeño de Europa, o examinar un gran conjunto de reseñas de clientes y descubrir patrones en lo que la gente valora más. En nuestro artículo(se abre en una nueva ventana), evaluamos el desempeño de GPT en el etiquetado de datos cualitativos en muchos casos de uso y encontramos que es altamente preciso.
Más allá de este tipo de medición, GABRIEL también ofrece herramientas prácticas que las personas investigadoras suelen necesitar. Entre ellas se incluyen combinar conjuntos de datos incluso cuando las columnas no coinciden, desduplicación inteligente, codificación de pasajes, generación de nuevas teorías científicas y eliminación de información personal de textos para preservar la privacidad.
GABRIEL ya está disponible como una biblioteca de Python de código abierto(se abre en una nueva ventana), con un notebook de tutorial(se abre en una nueva ventana) para comenzar. Está diseñado para requerir un conocimiento técnico mínimo. Seguiremos mejorando GABRIEL con el tiempo a partir de los comentarios de la comunidad académica. Esperamos que esta herramienta ayude a más personas investigadoras a incorporar la riqueza de los datos cualitativos y las historias humanas en su trabajo.


