Criamos o GPT‑4, o mais recente marco nos esforços da OpenAI para ampliar a aprendizagem profunda. O GPT‑4 é um grande modelo multimodal (que aceita entradas de imagem e texto e emite resultados em texto) que, embora menos capaz do que os seres humanos em muitos cenários do mundo real, exibe um desempenho de nível humano em vários benchmarks profissionais e acadêmicos. Por exemplo, ele foi aprovado em um exame simulado da ordem dos advogados com uma pontuação entre os 10% melhores candidatos. Em contrapartida, a pontuação do GPT‑3.5 ficou entre os 10% piores. Passamos seis meses alinhando iterativamente o GPT‑4 usando as lições aprendidas com nosso programa de testes com desafios adversários e também com o ChatGPT, obtendo nossos melhores resultados até agora (embora ainda longe da perfeição) em termos de factualidade, orientabilidade e recusa em sair dos limites estabelecidos.
Nos últimos dois anos, reconstruímos toda a nossa pilha de aprendizagem profunda e, em conjunto com o Azure, concebemos um supercomputador do zero para a nossa carga de trabalho. Há um ano, treinamos o GPT‑3.5 como um primeiro “teste” do sistema. Encontramos e corrigimos alguns erros e melhoramos nossos fundamentos teóricos. Como resultado, nosso treinamento com o GPT‑4 foi (pelo menos para nós!) excepcionalmente estável, e ele se tornou nosso primeiro modelo de grande porte cujo desempenho em treinamento conseguimos prever com precisão. À medida que continuamos focados em uma expansão confiável, buscamos aprimorar nossa metodologia para prever e nos preparar para recursos futuros com cada vez mais antecedência — algo que consideramos fundamental para a segurança.
Estamos lançando o recurso de entrada de texto do GPT‑4 por meio do ChatGPT e da API (com uma lista de espera). Para preparar a capacidade de entrada de imagens para uma disponibilidade mais ampla, estamos colaborando estreitamente com um único parceiro(abre em uma nova janela) para começar. Também estamos disponibilizando em código aberto o OpenAI Evals(abre em uma nova janela), nossa estrutura para avaliação automatizada do desempenho de modelos de IA, para permitir que qualquer pessoa relate deficiências em nossos modelos e ajude a orientar melhorias futuras.
Em uma conversa informal, a diferença entre o GPT‑3.5 e o GPT‑4 pode ser sutil. A diferença maior aparece quando a complexidade da tarefa atinge um limite suficiente: o GPT‑4 é mais confiável, criativo e capaz de lidar com instruções muito mais sutis do que o GPT‑3.5.
Para entender a diferença entre os dois modelos, realizamos testes em diversos benchmarks, incluindo simulações de exames originalmente concebidos para seres humanos. Prosseguimos utilizando os testes mais recentes disponíveis ao público (como as Olimpíadas acadêmicas e as questões discursivas de AP), ou adquirindo as edições de exames simulados dos anos de 2022–2023. Não fizemos nenhum treinamento específico para esses exames. Uma minoria dos problemas nos exames foi identificada pelo modelo durante o treinamento, mas acreditamos que os resultados sejam representativos (confira nosso relatório técnico(abre em uma nova janela) para obter mais detalhes).
referência interna 1
Também avaliamos o GPT‑4 em benchmarks tradicionais projetados para modelos de aprendizado de máquina. O GPT‑4 supera consideravelmente os grandes modelos de linguagem existentes, juntamente com a maioria dos modelos de última geração (SOTA), que podem incluir protocolos de treinamento adicionais ou elaborados especificamente para benchmarks:
Muitos benchmarks de ML existentes estão escritos em inglês. Para se ter uma ideia inicial da capacidade em outros idiomas, traduzimos o benchmark MMLU (um conjunto de 14.000 problemas de múltipla escolha abrangendo 57 assuntos) para vários idiomas usando o Azure Translate (confira o Apêndice). Em 24 dos 26 idiomas testados, o GPT‑4 supera o desempenho em inglês do GPT‑3.5 e de outros LLMs (Chinchilla, PaLM), incluindo idiomas com poucos recursos, como letão, galês e suaíli:
Também temos usado o GPT‑4 internamente, com grande impacto em funções como suporte, vendas, moderação de conteúdo e programação. Também estamos usando isso para ajudar os seres humanos a avaliar os resultados da IA, iniciando a segunda fase da nossa estratégia de alinhamento.
O GPT‑4 pode aceitar um prompt de texto e imagens, o que, paralelamente à configuração somente texto, permite ao usuário especificar qualquer tarefa visual ou linguística. Especificamente, ele gera resultados em texto (linguagem natural, código, etc.) a partir de entradas que consistem em texto intercalado com imagens. Em diversos domínios, incluindo documentos com texto e fotografias, diagramas ou capturas de tela, o GPT‑4 exibe capacidades semelhantes às que apresenta em entradas somente texto. Além disso, ele pode ser complementado com técnicas de tempo de teste desenvolvidas para modelos de linguagem somente texto, incluindo prompts de poucos exemplos e cadeia de pensamentos(abre em uma nova janela). As entradas de imagem ainda estão em fase de investigação e não estão disponíveis ao público.
Nós antecipamos o desempenho do GPT‑4 avaliando-o em um conjunto restrito de benchmarks acadêmicos padrão de visão. No entanto, esses números não representam totalmente a extensão de suas capacidades, pois estamos constantemente descobrindo novas e empolgantes tarefas que o modelo é capaz de realizar. Planejamos divulgar em breve análises e números de avaliação adicionais, bem como uma investigação completa sobre o efeito das técnicas de teste.
nota de rodapé interna A
Temos trabalhado em cada aspecto do plano descrito em nossa publicação sobre a definição do comportamento das IAs, incluindo a orientabilidade. Em vez da personalidade clássica do ChatGPT, com nível fixo de detalhamento, tom e estilo, agora os desenvolvedores (e em breve os usuários do ChatGPT) podem definir o estilo e a tarefa da IA, descrevendo essas instruções na mensagem do “sistema”. As mensagens do sistema permitem que os usuários da API personalizem significativamente a experiência dos seus usuários dentro dos limites(abre em uma nova janela). Continuaremos fazendo melhorias aqui (e sabemos que as mensagens do sistema são a maneira mais fácil de “desbloquear” o modelo atual, ou seja, a adesão aos limites não é perfeita), mas incentivamos você a experimentar e nos contar o que achou.
Apesar de suas capacidades, o GPT‑4 tem limitações semelhantes às dos modelos GPT anteriores. O mais importante é que ainda não é totalmente confiável (tem “alucinações” sobre os fatos e comete erros de reflexão). Deve-se ter muito cuidado ao usar os resultados do modelo de linguagem, especialmente em contextos de alto risco, com o protocolo exato (como revisão humana, fundamentação com contexto adicional ou evitar completamente usos de alto risco) correspondendo às necessidades de um caso de uso específico.
Embora ainda seja um problema real, o GPT‑4 reduz significativamente as alucinações em relação aos modelos anteriores (que também têm melhorado a cada iteração). O GPT‑4 obteve uma pontuação 40% superior à do nosso GPT‑3.5 mais recente em nossas avaliações internas de factualidade frente a perguntas enganosas:
Fizemos progressos em benchmarks externos, como o TruthfulQA, que testa a capacidade do modelo de separar fatos de um conjunto de afirmações incorretas selecionadas de forma adversária. Essas perguntas são acompanhadas por respostas factualmente incorretas, mas estatisticamente atraentes.
O modelo básico do GPT‑4 é apenas ligeiramente melhor nessa tarefa do que o GPT‑3.5. No entanto, após o treinamento pós-RLHF (aplicando o mesmo processo que usamos com o GPT‑3.5), há uma grande diferença. Examinando alguns exemplos abaixo, o GPT‑4 resiste a selecionar ditados comuns (não se pode ensinar novos truques a um cão velho), mas ainda assim pode deixar passar detalhes sutis (Elvis Presley não era filho de um ator).
O modelo pode apresentar vários vieses nos resultados. Já tivemos progressos nesse sentido, mas ainda há muito a fazer. De acordo com nossa recente publicação no blog, nosso objetivo é fazer com que os sistemas de IA que criamos tenham comportamentos padrão razoáveis, que reflitam uma ampla gama de valores dos usuários, permitam que esses sistemas sejam personalizados dentro de limites amplos e obtenham opiniões públicas sobre quais devem ser esses limites.
O GPT‑4 geralmente não tem conhecimento dos eventos que ocorreram após o corte da grande maioria dos seus dados (setembro de 2021) e não aprende com sua experiência. Às vezes, ele pode cometer erros simples de reflexão, que não parecem condizentes com sua competência em tantos domínios, ou ser excessivamente crédulo ao aceitar afirmações obviamente falsas de um usuário. E, às vezes, pode falhar em problemas difíceis da mesma forma que os humanos, como introduzir vulnerabilidades de segurança no código que produz.
O GPT‑4 também pode estar errado em suas previsões, sem se preocupar em revisar o trabalho quando é provável que ele cometa um erro. Curiosamente, o modelo pré-treinado básico é altamente calibrado (sua confiança prevista em uma resposta geralmente corresponde à probabilidade de estar correta). No entanto, através do nosso atual processo pós-treinamento, a calibração é reduzida.
Temos iterado o GPT‑4 para torná-lo mais seguro e mais alinhado desde o início do treinamento, com esforços que incluem seleção e filtragem dos dados de pré-treinamento, avaliações e envolvimento de especialistas, melhorias na segurança do modelo e monitoramento e aplicação.
O GPT‑4 apresenta riscos semelhantes aos modelos anteriores, como gerar conselhos prejudiciais, códigos com erros ou informações imprecisas. No entanto, os recursos adicionais do GPT‑4 trazem novos riscos. Para compreender a extensão desses riscos, contratamos mais de 50 especialistas em áreas como riscos de alinhamento de IA, segurança cibernética, risco biológico, confiança e proteção e segurança internacional para testar o modelo de forma adversária. As descobertas nos permitiram testar especificamente o comportamento do modelo em áreas de alto risco, que exigem conhecimento especializado para avaliação. O feedback e os dados desses especialistas foram incorporados às nossas medidas de mitigação e melhorias no modelo. Por exemplo, coletamos dados adicionais para melhorar a capacidade do GPT‑4 de recusar solicitações sobre como sintetizar produtos químicos perigosos.
O GPT‑4 incorpora um sinal de recompensa de segurança adicional durante o treinamento de RLHF para reduzir resultados prejudiciais (conforme definido em nossas diretrizes de uso(abre em uma nova janela)), treinando o modelo para recusar solicitações de tal conteúdo. A recompensa é fornecida por um classificador GPT‑4 zero-shot que avalia os limites de segurança e o estilo de conclusão em prompts relacionados à segurança. Para evitar que o modelo recuse solicitações válidas, coletamos um conjunto de dados diversificado de várias fontes (por exemplo, dados de produção rotulados, red teaming humano, prompts gerados pelo modelo) e aplicamos o sinal de recompensa de segurança (com um valor positivo ou negativo) nas categorias permitidas e não permitidas.
Nossas medidas de mitigação melhoraram significativamente muitas das propriedades de segurança do GPT‑4 em comparação com o GPT‑3.5. Diminuímos em 82% a tendência do modelo de responder a solicitações de conteúdo não permitido em comparação com o GPT‑3.5, e o GPT‑4 responde com 29% mais frequência a solicitações confidenciais (por exemplo, aconselhamento médico e automutilação) de acordo com nossas políticas.
No geral, nossas intervenções no nível do modelo aumentam a dificuldade de provocar comportamentos inadequados, mas isso ainda é possível. Além disso, ainda existem “jailbreaks” para gerar conteúdo que viola nossas diretrizes de uso. À medida que o “risco por token” dos sistemas de IA aumenta, será fundamental alcançar níveis extremamente elevados de confiabilidade nessas intervenções. Por enquanto, é importante complementar essas limitações com técnicas de segurança no momento da implantação, como o monitoramento de abusos.
O GPT‑4 e os modelos que o sucederão têm o potencial de influenciar significativamente a sociedade, tanto de forma benéfica quanto prejudicial. Estamos colaborando com pesquisadores externos para melhorar nossa compreensão e avaliação dos impactos potenciais, bem como para desenvolver avaliações de recursos perigosos que possam surgir em sistemas futuros. Em breve, compartilharemos mais sobre nossas reflexões sobre os possíveis impactos sociais e econômicos do GPT‑4 e de outros sistemas de IA.
Assim como os modelos GPT anteriores, o modelo básico do GPT‑4 foi treinado para prever a próxima palavra em um documento e foi treinado usando dados disponíveis publicamente (como dados da internet), bem como dados que licenciamos. Os dados são um corpus em escala da web que inclui soluções corretas e incorretas para problemas matemáticos, reflexões fracas e fortes, afirmações contraditórias e consistentes, representando uma grande variedade de ideologias e ideias.
Assim, quando recebe uma pergunta, o modelo básico pode responder de várias maneiras que podem estar longe da intenção do usuário. Para alinhá-lo com a intenção do usuário dentro dos limites estabelecidos, ajustamos o comportamento do modelo usando aprendizagem por reforço com feedback humano (RLHF).
Observe que as capacidades do modelo parecem vir principalmente do processo de pré-treinamento: o RLHF não melhora o desempenho nos exames (sem esforço ativo, ele realmente o degrada). Mas a orientação do modelo vem do processo pós-treinamento: o modelo básico requer engenharia de prompt para saber que deve responder às perguntas.
Um grande foco do projeto GPT‑4 tem sido a construção de uma pilha de aprendizagem profunda que pode ser expandida de forma previsível. A principal razão é que, para treinamentos muito grandes como o GPT‑4, não é viável fazer um ajuste específico para cada modelo. Desenvolvemos infraestrutura e otimização com comportamento altamente previsível em várias escalas. Para verificar essa capacidade de expansão, previmos com precisão e antecedência a perda final do GPT‑4 em nossa base de código interna (que não faz parte do conjunto de treinamento), extrapolando a partir de modelos treinados com a mesma metodologia, mas com 10.000 vezes menos computação:
Agora que podemos prever com precisão a métrica que otimizamos durante o treinamento (perda), estamos começando a desenvolver uma metodologia para prever métricas mais interpretáveis. Por exemplo, previmos com sucesso a taxa de aprovação em um subconjunto do conjunto de dados HumanEval(abre em uma nova janela), extrapolando a partir de modelos com 1.000 vezes menos computação:
Algumas capacidades ainda são difíceis de prever. Por exemplo, o Prêmio Inverse Scaling foi uma competição para encontrar uma métrica que piorasse à medida que a computação do modelo aumentasse, e a negligência retrospectiva(abre em uma nova janela) foi uma das vencedoras. Assim como em outro resultado(abre em uma nova janela) recente, o GPT‑4 inverte a tendência:
Acreditamos que prever com precisão as capacidades futuras do aprendizado de máquina é uma parte importante da segurança que não recebe atenção suficiente em relação ao seu impacto potencial (embora tenhamos sido encorajados pelos esforços de várias instituições). Estamos ampliando nossos esforços para desenvolver métodos que forneçam à sociedade melhores orientações sobre o que esperar dos sistemas futuros, e esperamos que isso se torne um objetivo comum na área.
Estamos disponibilizando em código aberto o OpenAI Evals(abre em uma nova janela), nossa estrutura de software para criar e executar benchmarks para avaliar modelos como o GPT‑4, enquanto inspecionamos seu desempenho amostra por amostra. Utilizamos o Evals para orientar o desenvolvimento dos nossos modelos (identificando deficiências e evitando regressões), e os nossos usuários podem aplicá-lo para acompanhar o desempenho entre as diferentes versões do modelo (que agora serão lançadas regularmente) e as integrações de produtos em evolução. Por exemplo, a Stripe utilizou o Evals para complementar as avaliações humanas e medir a precisão da sua ferramenta de documentação baseada em GPT.
Como o código é totalmente aberto, o Evals oferece suporte à criação de novas classes para implementar lógica de avaliação personalizada(abre em uma nova janela). Em nossa própria experiência, no entanto, muitos benchmarks seguem um dos poucos “modelos” existentes, por isso também incluímos os modelos(abre em uma nova janela) que foram mais úteis internamente (incluindo um modelo para “avaliações classificadas por modelo”. Descobrimos que o GPT‑4 é surpreendentemente capaz de verificar seu próprio trabalho). Em geral, a maneira mais eficaz de criar uma nova avaliação(abre em uma nova janela) é instanciar um desses modelos e fornecer os dados. Estamos ansiosos para ver o que outras pessoas podem criar com esses modelos e com o Evals em geral.
Esperamos que o Evals se torne um veículo para compartilhar e coletar referências, representando um conjunto amplamente abrangente de modos de falha e tarefas difíceis. Como exemplo a seguir, criamos uma avaliação de quebra-cabeças lógicos(abre em uma nova janela) que contém dez prompts em que o GPT‑4 falha. O Evals também é compatível com a implementação de benchmarks existentes. Incluímos vários notebooks(abre em uma nova janela) que implementam benchmarks acadêmicos e algumas variações de integração (pequenos subconjuntos) do CoQA(abre em uma nova janela) como exemplo.
Convidamos todos a usar o Evals para testar nossos modelos e enviar os exemplos mais interessantes. Acreditamos que o Evals será parte integrante do processo de utilização e desenvolvimento dos nossos modelos e agradecemos todas as contribuições diretas, perguntas e feedback(abre em uma nova janela).
Os assinantes do ChatGPT Plus terão acesso ao GPT‑4 em chatgpt.com(abre em uma nova janela) com um limite de uso. Ajustaremos o limite de uso exato de acordo com a demanda e o desempenho do sistema na prática, mas esperamos ter sérias restrições de capacidade (embora tenhamos planos de ampliar e otimizar nos próximos meses).
Dependendo dos padrões de tráfego observados, poderemos introduzir um novo nível de assinatura para uso mais intenso do GPT‑4. Também esperamos, em algum momento, oferecer uma quantidade gratuita de consultas ao GPT‑4 para que aqueles que não têm assinatura também possam experimentá-lo.
Para obter acesso à API do GPT‑4 (que usa a mesma API ChatCompletions(abre em uma nova janela) que o gpt-3.5-turbo), cadastre-se em nossa lista de espera. Começaremos a convidar alguns desenvolvedores hoje e aumentaremos gradualmente para equilibrar a capacidade com a demanda. Se você é um pesquisador que estuda o impacto social da IA ou questões relacionadas ao alinhamento da IA, também pode se inscrever para obter acesso subsidiado por meio do nosso Programa de acesso para pesquisadores.
Depois de obter acesso, você poderá fazer solicitações somente texto ao modelo gpt-4 (as entradas de imagem ainda estão em fase alfa limitada), que atualizaremos automaticamente para o nosso modelo estável recomendado à medida que criarmos novas versões ao longo do tempo (você pode fixar a versão atual chamando gpt-4-0314, para a qual ofereceremos suporte até 14 de junho). O preço é de US$ 0,03 por 1.000 tokens de prompt e US$ 0,06 por 1.000 tokens de conclusão. Os limites padrão são 40 mil tokens por minuto e 200 solicitações por minuto.
O gpt-4 tem um comprimento de contexto de 8.192 tokens. Também estamos fornecendo acesso limitado à nossa versão com 32.768 contextos (cerca de 50 páginas de texto), gpt-4-32k, que também será atualizada automaticamente ao longo do tempo (versão atual gpt-4-32k-0314, também com suporte até 14 de junho). O preço é de US$ 0,06 por 1.000 tokens de prompt e US$ 0,12 por 1.000 tokens de conclusão. Ainda estamos melhorando a qualidade do modelo para contextos longos e adoraríamos receber feedback sobre seu desempenho no seu caso de uso. Estamos processando as solicitações para os mecanismos de 8K e 32K em diferentes velocidades com base na capacidade, portanto, você poderá receber acesso a eles em momentos diferentes.
Estamos ansiosos para que o GPT‑4 se torne uma ferramenta valiosa para melhorar a vida das pessoas, impulsionando muitas aplicações. Ainda há muito trabalho a ser feito, e esperamos melhorar o modelo por meio dos esforços coletivos da comunidade, que irá desenvolvê-lo, explorá-lo e contribuir para ele.
Para saber mais: Ler o artigo(abre em uma nova janela) / Ver cartão do sistema(abre em uma nova janela) / Testar no ChatGPT Plus(abre em uma nova janela) / Testar no Playground(abre em uma nova janela) / Rever transmissão ao vivo da demonstração(abre em uma nova janela) / Contribuir para o OpenAI Evals(abre em uma nova janela)
Exemplo de perguntas de MMLU, traduzidas para outros idiomas. Observe que usamos tokens de escolha consistentes (A–D):
Notas de rodapé
- A
Avaliamos este benchmark usando prompts de cadeia de pensamento, com quatro exemplos do treinamento definidos em contexto. O prompt específico foi ajustado no conjunto de validação.
Referências
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX) e S. Gao (Casetext). Há mais análises disponíveis no artigo(abre em uma nova janela).


