20 de fevereiro de 2026

Nossas primeiras submissões de provas

Estamos compartilhando nossas tentativas de demonstração para o First Proof, um desafio matemático que testa se a IA consegue produzir demonstrações verificáveis para problemas específicos de um domínio.

Veja nosso conjunto de tentativas de comprovação.

Carregando…

Executamos um modelo interno em todos os 10 problemas do First Proof⁠(abre em uma nova janela) , um desafio matemático de nível de pesquisa projetado para testar se os sistemas de IA podem produzir tentativas de prova corretas e verificáveis. Diferentemente dos problemas de matemática de resposta curta ou de competição, esses problemas exigem a construção de argumentos completos em domínios especializados, e a correção é difícil de estabelecer sem a revisão de especialistas. Os autores dos problemas da Primeira Prova são especialistas de renome em suas respectivas áreas, e pelo menos dois dos problemas permaneceram em aberto por anos antes que os autores encontrassem soluções. Um departamento acadêmico que tenha uma sobreposição substancial com as áreas temáticas poderia, em tese, resolver muitos dos problemas em uma semana.

Compartilhamos⁠(abre em uma nova janela) nossas tentativas de comprovação no sábado, 14 de fevereiro de 2026, às 00h00 (horário do Pacífico). Com base no feedback de especialistas, acreditamos que pelo menos cinco das tentativas de demonstração do modelo (problemas 4, 5, 6, 9 e 10) têm uma alta probabilidade de estarem corretas, e várias outras permanecem em análise. Inicialmente, acreditávamos que nossa tentativa para o problema 2 provavelmente estava correta. Com base nos comentários oficiais da First Proof e em análises adicionais da comunidade, agora acreditamos que está incorreto. Agradecemos o envolvimento e aguardamos com expectativa a continuação da avaliação. Nosso conjunto completo de tentativas de comprovação pode ser encontrado aqui⁠(abre em uma nova janela). O preprint inclui todas as dez tentativas de demonstração, além de um apêndice recém-adicionado com padrões de instruções e exemplos que visam simular nossas interações manuais com os modelos durante o processo.

Acreditamos que a pesquisa de ponta inovadora seja talvez a maneira mais importante de avaliar as capacidades dos modelos de IA de próxima geração. Benchmarks são úteis, mas podem deixar de lado algumas das partes mais difíceis da pesquisa: sustentar longas cadeias de raciocínio, escolher as abstrações corretas, lidar com ambiguidades em enunciados de problemas e produzir argumentos que sobrevivam ao escrutínio de especialistas. Desafios inovadores como o First Proof nos ajudam a testar essas capacidades em cenários onde a verificação da correção é complexa e os modos de falha são informativos.

“Atualmente, estamos treinando um novo modelo cujo foco principal é aumentar o nível de rigor em seu raciocínio, com o objetivo de que o modelo possa pensar continuamente por muitas horas e permanecer altamente confiante em suas conclusões. Quando os problemas da Primeira Prova foram anunciados, pareceu-me o ambiente de teste perfeito, então, durante o fim de semana, experimentei. Já foi capaz de resolver dois dos problemas (nº 9 e nº 10). À medida que treinava, tornou-se cada vez mais capaz, acabando por resolver – na nossa opinião – pelo menos mais três problemas. Ficamos particularmente satisfeitos quando resolveu o problema nº 6 e, dois dias depois, o nº 4, pois esses problemas eram de áreas familiares a muitos de nós. É incrível ver uma modelo ficar visivelmente mais inteligente a cada dia.”

– James R. Lee (Pesquisador da OpenAI, Raciocínio)

Rodamos o modelo com supervisão humana limitada. Ao gerar versões do modelo durante o treinamento, às vezes sugerimos repetir estratégias que se mostraram frutíferas em tentativas anteriores. Em algumas tentativas, solicitamos ao modelo que expandisse ou esclarecesse partes de uma demonstração após recebermos feedback de especialistas, para facilitar a verificação do raciocínio. Também facilitamos a troca de informações entre este modelo e o ChatGPT para verificação, formatação e estilo. Para alguns problemas, apresentamos a melhor de algumas tentativas, selecionadas por julgamento humano. Foi um sprint rápido, e nosso processo não foi tão preciso quanto gostaríamos em uma avaliação devidamente controlada. Aguardamos com expectativa as discussões com os organizadores do First Proof sobre uma estrutura de experimentação e avaliação mais rigorosa para as próximas edições.

Este trabalho baseia-se em resultados anteriores de modelos de raciocínio de vanguarda em matemática e ciências. Em julho de 2025, alcançamos um desempenho de nível medalha de ouro⁠(abre em uma nova janela) na Olimpíada Internacional de Matemática com um modelo de raciocínio de propósito geral (35/42 pontos). Em novembro de 2025, compartilhamos “Experimentos iniciais para acelerar a ciência com o GPT‑5”, um conjunto de estudos de caso em que o GPT‑5 ajudou pesquisadores a obterem progressos concretos em matemática, física, biologia e outras áreas, juntamente com as limitações que observamos. E, mais recentemente, relatamos uma colaboração na área da física, na qual o GPT‑5.2 propôs uma expressão candidata para uma fórmula de amplitude de glúon, que foi então formalmente comprovada por um modelo interno e verificada pelos autores.

Aguardamos com expectativa um envolvimento mais profundo com a comunidade sobre como avaliar o raciocínio de nível científico, incluindo o feedback de especialistas sobre essas tentativas, e estamos entusiasmados em disponibilizar essas novas funcionalidades em futuros modelos públicos.

2026

Autoria

OpenAI

Continuar lendo

Ver tudo

Como duas configurações triplicaram nossa pontuação no benchmark ARC-AGI-3

Pesquisa29 de jul. de 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Empresa29 de jul. de 2026

Scientific computing agentic AI card image (1x1)

Computação científica na era da IA agêntica

Publicação28 de jul. de 2026