12 de setembro de 2024

Apresentação do OpenAI o1‑preview

Nova série de modelos de raciocínio para resolver problemas difíceis. Já disponível.

Carregando…

Atualizado em 17 de setembro de 2024: os limites hoje são de 50 consultas por semana no o1‑preview e 50 por dia no o1‑mini.

Desenvolvemos uma nova série de modelos de IA, feitos para passar mais tempo pensando antes de responder. Eles conseguem refletir em tarefas complexas e resolver problemas mais difíceis do que os modelos anteriores em ciência, programação em matemática.

Hoje, lançamos o primeiro desta série no ChatGPT e em nossa API. Trata-se de uma prévia que deverá receber atualizações e melhorias regularmente. Além deste lançamento, incluímos tambémavaliações para a próxima atualização, que está em desenvolvimento.

Como funciona

Treinamos esses modelos para passar mais tempo pensando nos problemas antes de responderem, como uma pessoa faria. Com o treinamento, eles aprendem a refinar o processo de pensamento, tentar estratégias diversas e reconhecer os próprios erros.

Nossos testes demonstram que a próxima atualização do modelo tem desempenho similar ao de doutorandos em tarefas complexas de referência em física, química e biologia. Também constatamos que o modelo tem desempenho excepcional em matemática e programação. Em um teste de qualificação para a Olimpíada Internacional de Matemática (IMO), o GPT‑4o resolveu somente 13% dos problemas, mas o modelo de raciocínio resolveu 83%. Suas habilidades de programação foram avaliadas em concursos e atingiram o percentil 89 em competições Codeforces. Leia mais sobre o assunto em nossa postagem sobre pesquisa técnica.

Como este modelo é inicial, não tem muitos recursos úteis do ChatGPT, como busca de informações na internet ou carregamento de arquivos e imagens. Para muitas situações comuns, o GPT‑4o ficará mais capaz no curto prazo.

Mas para tarefas complexas de raciocínio, é um avanço considerável que nos traz a uma nova era da capacidade da IA. Considerando isso, vamos reiniciar o contador e batizar esta série de OpenAI o1.

Segurança

No desenvolvimento destes novos modelos, criamos uma nova abordagem em segurança de treinamento que orienta a capacidade de reflexão deles, obrigando-os a seguir diretrizes de segurança e alinhamento. Como podem refletir sobre nossas regras de segurança de forma contextualizada, eles conseguem aplicá-las melhor.

Uma forma de medirmos a segurança é testar se o modelo continua seguindo as regras caso o usuário tente ignorá-las (uma operação chamada de "jailbreaking"). Em um dos testes mais difíceis de jailbreaking que aplicamos, o GPT‑4o pontuou 22 (em escala de 0 a 100), enquanto o modelo o1‑preview pontuou 84. Leia mais sobre isso no cartão do sistema e em nossa postagem sobre pesquisa.

Para acompanhar os novos recursos desses modelos, reforçamos o trabalho de segurança, governança interna e colaboração com o governo federal. Fazemos testes e avaliações rigorosas com nossa Estrutura de Preparo⁠(abre em uma nova janela), os melhores red teams disponíveis e processos de revisão pelo conselho e pelo nosso Comitê de Segurança.

Para promover nosso compromisso com a segurança da IA, formalizamos recentemente contratos com os Institutos de Segurança de IA dos EUA e do Reino Unido. Começamos a operacionalizar esses contratos, que incluem acesso antecipado para que os institutos analisem uma versão de pesquisa deste modelo. Foi importante dar esse primeiro passo em nossa parceria, que deve estabelecer um processo para pesquisa, avaliação e teste de modelos futuros antes e após os lançamentos ao público.

Para quem foi feito

Esses recursos avançados de reflexão podem ser particularmente úteis para quem precisa resolver problemas complexos de ciências, programação, matemática e áreas similares. Por exemplo, o o1 pode ser usado por pesquisadores de saúde para registrar dados de sequenciamento de células, por físicos para gerar fórmulas matemáticas complicadas que são necessárias para óptica quântica, e por desenvolvedores de todas as áreas para gerar e executar fluxos de trabalho em várias etapas.

OpenAI o1-mini

A série o1 tem desempenho excepcional na geração e depuração de códigos complexos. Para oferecer uma solução mais eficiente aos desenvolvedores, também vamos lançar o OpenAI o1‑mini, um modelo de raciocínio mais rápido e barato que é muito eficaz em programação. Por ser um modelo menor, o o1‑mini é 80% mais barato do que o o1‑preview, o que faz dele um modelo potente e econômico para aplicações que exigem raciocínio sem amplos conhecimentos gerais.

Como usar o OpenAI o1

Usuários do ChatGPT Plus e Team terão acesso aos modelos o1 no ChatGPT a partir de hoje. Tanto o o1‑preview quanto o o1‑mini estão disponíveis no seletor manual de modelos. Em um primeiro momento, os limites semanais serão de 30 mensagens no o1‑preview e 50 no o1‑mini. Planejamos aumentar esses limites e permitir que o ChatGPT escolha automaticamente o melhor modelo para cada prompt.

Imagem da nova lista suspensa do ChatGPT que mostra a opção do modelo o1-preview sobre um fundo abstrato brilhante em amarelo e azul

Usuários do ChatGPT Enterprise e do Edu terão acesso aos dois modelos no início da semana que vem.

Desenvolvedores qualificados ao nível 5 de uso da API⁠(abre em uma nova janela) podem começar a criar protótipos com os dois modelos hoje mesmo na API, com limite de 20 RPM. Planejamos aumentar esses limites após completarmos testes adicionais. A API desses modelos no momento não oferece chamada de função, streaming, suporte para mensagens do sistema e outros recursos. Para começar, leia a documentação da API⁠(abre em uma nova janela).

Também pretendemos oferecer o o1‑mini a todos os usuários do ChatGPT Free.

O que vem a seguir

Esta é uma prévia inicial desses modelos de raciocínio no ChatGPT e na API. Além das atualizações do modelo, pretendemos oferecer navegação, carregamento de arquivos e imagens e outros recursos para que eles fiquem mais úteis para todos.

Também devemos continuar a desenvolver e lançar modelos da série GPT, além da nova série OpenAI o1.

Autores

OpenAI