Saltar para o conteúdo principal
OpenAI

Ampliar a investigação em ciências sociais

Uma nova ferramenta para ajudar investigadores a transformar dados qualitativos em números que podem analisar.

A carregar…

Uma parte central do nosso trabalho na OpenAI é permitir que cientistas avancem mais depressa e resolvam problemas mais difíceis. Hoje, a nossa Equipa de Investigação Económica lança o GABRIEL: um conjunto de ferramentas open-source que utiliza GPT para transformar texto e imagens não estruturados em medições quantitativas. Foi concebido para economistas, cientistas sociais e cientistas de dados estudarem dados qualitativos em grande escala.

Os dados qualitativos contam as histórias mais ricas sobre o mundo — o que as pessoas dizem, escrevem, ensinam, discutem e experienciam. Abrangem tudo, desde planos de estudo e entrevistas até redes sociais e fotografias. Há uma quantidade enorme destes dados. Mas transformar esse tipo de dados em evidência rigorosa é incrivelmente demorado. Muitas vezes, nem sequer é viável. Em demasiados casos, os cientistas sociais são obrigados a abdicar de vias importantes de investigação, não porque os dados não existam, mas porque é impossível analisá-los.

O GABRIEL foi criado para tornar os dados qualitativos muito mais acessíveis. Permite que os investigadores descrevam o que querem medir em linguagem do dia a dia — como “quão compatível com a família é este anúncio de emprego?” — e depois aplica essa mesma pergunta de forma consistente a milhares (ou milhões) de documentos, devolvendo uma pontuação para cada um. Isto permite que os investigadores passem menos tempo em tarefas repetitivas de rotulagem de dados e mais tempo no trabalho que realmente exige especialização: escolher o que medir, validar resultados e tirar conclusões cuidadas.

Por exemplo, o GABRIEL pode analisar uma grande coleção de artigos científicos para ver que métodos específicos são utilizados e como evoluem ao longo do tempo. Pode olhar para planos de estudo para medir quanta atenção é dada a diferentes temas ou competências. Pode extrair detalhes históricos estruturados para cada pequena cidade da Europa ou examinar um conjunto de avaliações de clientes e descobrir padrões no que as pessoas mais valorizam. No nosso artigo(abre numa nova janela), avaliamos o desempenho do GPT na rotulagem de dados qualitativos em muitos casos de uso e concluímos que é altamente preciso.

Para além deste tipo de medição, o GABRIEL também disponibiliza ferramentas práticas de que os investigadores frequentemente precisam. Estas incluem a junção de conjuntos de dados mesmo quando as colunas não coincidem, remoção inteligente de duplicados, codificação de passagens, geração de novas teorias científicas e remoção de informação pessoal identificável do texto para preservar a privacidade.

O GABRIEL já está disponível como uma biblioteca Python open-source(abre numa nova janela), com um notebook de tutorial(abre numa nova janela) para começar. Foi concebido para exigir um conhecimento técnico mínimo. Vamos continuar a melhorar o GABRIEL ao longo do tempo com base no feedback da comunidade académica. Esperamos que esta ferramenta ajude mais investigadores a trazer a riqueza dos dados qualitativos e das histórias humanas para o seu trabalho.