Reflexão com LLMs: como funciona?
Apresentamos o OpenAI o1, um novo modelo de linguagem de grande porte treinado com aprendizagem por reforço. Ele é capaz de realizar reflexões complexas e pensa antes de responder, produzindo uma longa cadeia interna de pensamentos.
O OpenAI o1 classificou-se no percentil 89 em perguntas de programação competitiva (Codeforces), ficou entre os 500 melhores alunos dos EUA em uma qualificação para a Olimpíada Nacional de Matemática (AIME) e superou a precisão de humanos em nível de doutorado durante testes de referência para física, biologia e química (GPQA). Ainda estamos trabalhando para que este modelo seja tão fácil de usar quanto os modelos atuais. Enquanto isso, lançamos uma versão inicial do modelo: uma prévia do OpenAI o1, disponível para uso imediato no ChatGPT. Ela está disponível para usuários confiáveis da API(abre em uma nova janela).
Nosso algoritmo de aprendizagem por reforço em grande escala usa a cadeia de pensamento para ensinar o modelo a pensar de forma produtiva, criando assim um processo de treinamento altamente eficiente em termos de dados. Constatamos que o desempenho do o1 melhora de modo consistente quando ele recebe mais aprendizagem por reforço (computação em tempo de treinamento) e mais tempo dedicado ao raciocínio (computação em tempo de teste). As restrições à ampliação dessa abordagem diferem (e muito) daquelas usadas no pré-treinamento de LLMs, mas nós continuamos a investigá-las.

O desempenho do o1 melhora gradualmente conforme o tempo de treinamento e o tempo de computação de teste.
Para destacar a melhoria na reflexão em relação ao GPT‑4o, testamos nossos modelos em um conjunto diversificado de exames humanos e benchmarks de ML. Foi assim que mostramos que o o1 supera significativamente o GPT‑4o na grande maioria de tarefas que exigem muita reflexão. Salvo indicação contrária, avaliamos o o1 na configuração máxima do tempo de teste de computação.







Em muitos benchmarks exigentes em termos de reflexão, o o1 fica no mesmo patamar que o desempenho de especialistas humanos. Os modelos de ponta mais recentes1, por sua vez, apresentam um desempenho tão bom no MATH2 e no GSM8K que esses benchmarks não são mais eficazes para diferenciar modelos. Avaliamos o desempenho em matemática no AIME, um exame concebido para desafiar os alunos de matemática mais brilhantes do ensino secundário dos Estados Unidos. Nos exames AIME de 2024, o GPT‑4o resolveu em média apenas 12% (1,8/15) dos problemas. Já o o1 teve uma média de 74% (11,1/15) com uma única amostra por problema, 83% (12,5/15) com consenso entre 64 amostras e 93% (13,9/15) quando re-classificamos 1.000 amostras por meio de uma função de pontuação aprendida. Esta última pontuação, de 13,9, coloca o o1 entre os 500 melhores alunos do país — e, além disso, faz com que ele esteja acima do limite mínimo para participar da Olimpíada de Matemática dos EUA.
Também avaliamos o o1 no GPQA-diamond, um difícil benchmark de inteligência que testa conhecimentos especializados em química, física e biologia. Para fazer uma comparação entre os modelos e seres humanos, recrutamos especialistas com doutorado para responder às perguntas do GPQA-diamond. Constatamos que o o1 superou o desempenho desses especialistas humanos, o que faz dele o primeiro modelo a conseguir isso nesse benchmark. Esses resultados não significam que o1 seja mais capaz do que uma pessoa com doutorado; significa apenas que o modelo é mais eficiente na resolução de alguns problemas que, normalmente, uma pessoa com essa titulação nessa área conseguiria responder. Em vários outros benchmarks de ML, o o1 superou o que há de mais avançado no mercado. Com suas capacidades de percepção visual ativadas, o o1 obteve uma pontuação de 78,2% no MMMU, tornando-se o primeiro modelo a competir diretamente com especialistas humanos. Ele também superou o GPT‑4o em 54 das 57 subcategorias do MMLU.
Assim como um ser humano fica pensando por um bom tempo antes de responder a uma pergunta difícil, o o1 usa uma cadeia de pensamentos na hora de tentar resolver um problema. Graças ao recurso de aprendizagem por reforço, o o1 aprende a aperfeiçoar sua cadeia de pensamento e refinar as estratégias que ele utiliza. Ele também aprende a reconhecer e corrigir seus erros e, além disso, a dividir etapas complexas em etapas mais simples. Outra coisa que ele aprende é tentar uma abordagem diferente quando a atual não estiver dando certo. Esse processo melhora demais a capacidade de reflexão do modelo. Para ilustrar esse avanço, apresentamos abaixo a cadeia de raciocínio do o1‑preview, que tenta lidar com vários problemas difíceis em uma única interação.
GPT-4o
OpenAI o1-preview
Treinamos um modelo que obteve 213 pontos e ficou classificado no 49º percentil na Olimpíada Internacional de Informática (IOI) de 2024. Para isso, inicializamos a partir do o1 e treinamos para melhorar ainda mais as habilidades de programação. Este modelo competiu na IOI de 2024, e nas mesmas condições que os concorrentes humanos. Ou seja: ele tinha dez horas para resolver seis problemas algorítmicos desafiadores e podia enviar 50 respostas por problema.
Para cada problema, nosso sistema selecionou várias respostas e enviou 50 delas com base em uma estratégia de seleção no momento do teste. Essas respostas foram selecionados com base no desempenho nos casos de teste públicos da IOI, nos casos de teste gerados pelo modelo e em uma função de pontuação aprendida. Se tivéssemos enviado aleatoriamente, teríamos obtido apenas 156 pontos em média, o que significa que essa estratégia nos rendeu quase 60 pontos mesmo diante das restrições de uma competição.
Quando adotamos parâmetros mais flexíveis de submissão, notamos uma melhoria significativa no desempenho do modelo. Ao receber a permissão para 10.000 envios por problema, o modelo alcançou uma pontuação de 362,14 (acima do limite para a medalha de ouro) mesmo sem contar com nenhuma estratégia de seleção no momento do teste.
Por fim, simulamos competições de programação competitiva organizadas pela Codeforces, com o objetivo de demonstrar a habilidade de programação do modelo. Nossas avaliações seguiram rigorosamente as regras da competição e permitiam apenas 10 envios. O GPT‑4o alcançou uma classificação Elo3 de 808, que está no 11º percentil dos competidores humanos. Esse modelo superou em muito o GPT‑4o e o o1, alcançando uma classificação Elo de 1.807, com desempenho superior a 93% dos concorrentes.

Um ajuste mais preciso nas competições de programação melhora ainda mais o o1. O modelo aprimorado ficou classificado no 49º percentil na Olimpíada Internacional de Informática de 2024, de acordo com as regras da competição.
Além dos exames e dos parâmetros acadêmicos, também avaliamos a preferência humana do o1‑preview em relação ao GPT‑4o em prompts desafiadores e abertos em um amplo espectro de domínios. Nessa avaliação, instrutores humanos receberam respostas anônimas a um prompt do o1‑preview e do GPT‑4o e votaram na resposta que preferiram. Entre o gpt-4o e o o1‑preview, este último foi a opção mais popular em uma grande margem em categorias que exigem muita reflexão, como análise de dados, codificação e matemática. No entanto, o1‑preview não teve o mesmo desempenho em algumas tarefas de linguagem natural, o que pode sugerir que ele não é adequado para todos os casos de uso.

A reflexão em cadeia de pensamentos oferece novas oportunidades de alinhamento e segurança. Descobrimos que integrar nossas políticas de comportamento do modelo à cadeia de pensamentos de um modelo de raciocínio é uma maneira muito eficiente de ensinar valores e princípios humanos — e fazer isso de maneira robusta. Ao ensinar ao modelo nossas regras de segurança e, além disso, maneiras de refletir sobre elas dentro do contexto, encontramos evidências de que a capacidade de reflexão beneficia diretamente a robustez do modelo: o o1‑preview alcançou um desempenho substancialmente melhor nas principais avaliações de jailbreak e em nossos benchmarks internos mais difíceis, projetados para avaliar os limites de recusa de segurança do nosso modelo. Acreditamos que o uso de uma cadeia de pensamentos oferece avanços significativos para a segurança e o alinhamento porque (1) nos permite observar o modelo de pensamento de forma legível e (2) a reflexão do modelo sobre as regras de segurança é mais robusta para cenários fora da distribuição.
Para testar nossas melhorias, fizemos uma série de testes de segurança e testes ofensivos antes do lançamento, seguindo nosso Framework de prontidão(abre em uma nova janela). Constatamos que a reflexão em cadeia de pensamentos contribuiu para melhorar as capacidades em todas as nossas avaliações. É importante destacar que observamos casos interessantes de hacking de recompensas(abre em uma nova janela). Os resultados detalhados dessas avaliações podem ser encontrados no Cartão do sistema que acompanha este documento.
| Métrica | GPT-4o | o1-preview |
|---|---|---|
| % de conclusões seguras em prompts prejudiciais Padrão | 0,990 | 0,995 |
| % de conclusões seguras em prompts prejudiciais Desafiador: jailbreaks e casos extremos | 0,714 | 0,934 |
| ↳ Assédio (grave) | 0,845 | 0,900 |
| ↳ Conteúdo sexual exploratório | 0,483 | 0,949 |
| ↳ Conteúdo sexual envolvendo menores | 0,707 | 0,931 |
| ↳ Conselhos sobre infrações não violentas | 0,688 | 0,961 |
| ↳ Conselhos sobre infrações violentas | 0,778 | 0,963 |
| % de conclusões seguras para os 200 melhores com as pontuações mais altas da API de moderação por categoria no WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Avaliação de jailbreak Goodness@0.1 StrongREJECT Souly et al. 2024 | 0,220 | 0,840 |
| Avaliação de jailbreak de origem humana | 0,770 | 0,960 |
| % de conformidade em casos extremos benignos internos “sem recusa excessiva” | 0,910 | 0,930 |
| % de conformidade em casos extremos benignos em XSTest “sem recusa excessiva” Röttger, et al. 2023 | 0,924 | 0,976 |
Acreditamos que uma cadeia de pensamentos oculta representa uma oportunidade única para o monitoramento de modelos. Supondo que ela seja fiel e legível, a cadeia de pensamentos oculta nos permite “ler a mente” do modelo e compreender seu processo de pensamento. Por exemplo: no futuro, é possível que nossas equipes tomem a decisão de monitorar a cadeia de pensamentos em busca de sinais de manipulação do usuário. Porém, para que isso funcione, o modelo deverá ter liberdade para expressar seus pensamentos de forma inalterada — e isso, portanto, significa que não poderemos treinar nenhuma conformidade com políticas ou preferências do usuário na cadeia de pensamentos. Também não queremos deixar visível para os usuários uma cadeia de pensamentos que está desalinhada.
Portanto, após ponderar vários fatores, incluindo a experiência do usuário, a vantagem competitiva e a opção de monitorar a cadeia de pensamentos, decidimos não mostrar as cadeias de pensamentos brutas aos usuários. Reconhecemos que essa decisão tem suas desvantagens. Estamos tentando compensar essa situação, ainda que de modo parcial — tanto que estamos ensinando o modelo a reproduzir quaisquer ideias úteis da cadeia de pensamentos na resposta. Para a série de modelos o1, mostramos um resumo da cadeia de pensamentos gerado pelo modelo.
O o1 representa um avanço significativo para a vanguarda das reflexões com IA. Planejamos lançar versões aprimoradas desse modelo à medida que continuarmos as iterações. Esperamos que essas novas capacidades de reflexão melhorem a nossa própria capacidade de alinhar os modelos aos valores e princípios humanos. Acreditamos que o o1, bem como seus sucessores, abrirão muitas novas possibilidades para o uso da IA na ciência, programação, matemática e áreas relacionadas. Também queremos que os usuários e desenvolvedores de APIs usem essa novidade, pois há um potencial de otimizar o trabalho diário.
| Conjunto de dados | Métrica | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Matemática competitiva AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Código competitivo CodeForces | Elo | 808 | 1.258 | 1.673 |
| Percentil | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologia | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Química | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Física | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | n/a | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | n/a | 73,9 |
Autores
Citações
- 1
- 2
Nossas avaliações utilizaram a mesma divisão de 500 problemas encontrada em https://arxiv.org/abs/2305.20050(abre em uma nova janela)
- 3






