Criámos o GPT‑4, o mais recente marco no esforço da OpenAI para expandir a aprendizagem profunda. O GPT‑4 é um modelo multimodal de grande escala (que aceita entradas de imagem e texto e emite resultados em texto) que, embora menos capaz do que os humanos em muitos cenários do mundo real, apresenta um desempenho de nível humano em vários parâmetros profissionais e académicos. Por exemplo, passa num exame simulado da Ordem dos Advogados com uma pontuação que o coloca entre os 10% melhores candidatos. Em contraste, o GPT‑3.5 obtinha uma pontuação que estava entre os 10% mais baixos. Passámos 6 meses a alinhar iterativamente o GPT‑4 utilizando lições do nosso programa de testes adversários, bem como do ChatGPT, obtendo os nossos melhores resultados até ao momento (embora longe da perfeição) em termos de factualidade, capacidade de segmentação e recusa em sair dos limites estabelecidos.
Nos últimos dois anos, reconstruímos toda a nossa infraestrutura de aprendizagem profunda e, em conjunto com o Azure, concebemos um supercomputador de raiz para a nossa carga de trabalho. Há um ano, treinámos o GPT‑3.5 como um primeiro “teste” do sistema. Encontrámos e corrigimos alguns erros e melhorámos os nossos fundamentos teóricos. Como resultado, o nosso treino com o GPT‑4 foi (pelo menos para nós!) excecionalmente estável, tornando-se o nosso primeiro modelo de grande escala cujo desempenho de treino conseguimos prever com precisão antecipadamente. À medida que continuamos a focar-nos na expansão fiável, o nosso objetivo é melhorar a nossa metodologia para nos ajudar a prever e a preparar as capacidades futuras com cada vez mais antecedência—algo que consideramos fundamental para a segurança.
Estamos a lançar a funcionalidade de entrada de texto do GPT‑4 através do ChatGPT e da API (com lista de espera). Para preparar a funcionalidade de entrada de imagens para uma disponibilidade mais ampla, estamos a colaborar estreitamente com um único parceiro,(abre numa nova janela) para começar. Estamos também a disponibilizar em código aberto o OpenAI Evals(abre numa nova janela), a nossa estrutura para a avaliação automatizada do desempenho dos modelos de IA, para permitir que qualquer pessoa comunique deficiências nos nossos modelos e nos ajude a orientá-los em melhorias futuras.
Numa conversa casual, a distinção entre GPT‑3.5 e GPT‑4 pode ser subtil. A diferença torna-se evidente quando a complexidade da tarefa atinge um limiar suficiente—o GPT‑4 é mais fiável, criativo e capaz de lidar com instruções muito mais subtis do que o GPT‑3.5.
Para compreender a diferença entre os dois modelos, realizámos testes em diversos parâmetros, incluindo simulações de exames originalmente concebidos para humanos. Fizemo-lo através da utilização dos testes mais recentes disponíveis publicamente (no caso das Olimpíadas e das questões de resposta livre do AP) ou da compra das edições de 2022–2023 dos exames práticos. Não fizemos qualquer treino específico para estes exames. Uma minoria dos problemas nos exames foi detetada pelo modelo durante o treino, mas acreditamos que os resultados são representativos—consulte o nosso relatório técnico(abre numa nova janela) para obter detalhes.
referência interna 1
Também avaliámos o GPT‑4 em parâmetros tradicionais concebidos para modelos de aprendizagem automática. O GPT‑4 supera consideravelmente os grandes modelos de linguagem existentes, bem como a maioria dos modelos de última geração (SOTA), que podem incluir adaptações específicas para cada parâmetro ou protocolos de treino adicionais:
Muitos parâmetros de ML existentes estão escritos em inglês. Para termos uma noção inicial da capacidade noutras línguas, traduzimos o parâmetro MMLU — um conjunto de 14 mil problemas de escolha múltipla que abrange 57 disciplinas — para várias línguas, utilizando o Azure Translate (ver Anexo). Em 24 dos 26 idiomas testados, o GPT‑4 supera o desempenho em inglês do GPT‑3.5 e de outros LLM (Chinchilla, PaLM), incluindo em idiomas com poucas funcionalidades, como o letão, o galês e o suaíli:
Temos também utilizado o GPT‑4 internamente, com grande impacto em funções como suporte, vendas, moderação de conteúdos e programação. Também estamos a utilizá-lo para ajudar humanos a avaliar os resultados da IA, iniciando a segunda fase da nossa estratégia de alinhamento.
O GPT‑4 pode aceitar prompts de texto e imagens, o que — em paralelo com a configuração apenas de texto — permite ao utilizador especificar qualquer tarefa de visão ou linguagem. Especificamente, gera resultados de texto (linguagem natural, código, etc.) a partir de entradas compostas por texto e imagens intercaladas. Em vários domínios — incluindo documentos com texto e fotografias, diagramas ou capturas de ecrã —, o GPT‑4 demonstra capacidades semelhantes às que apresenta em entradas apenas de texto. Além disso, pode ser melhorado com técnicas de teste desenvolvidas para modelos de linguagem baseados apenas em texto, incluindo prompts few-shot e de cadeia de pensamento(abre numa nova janela) . As entradas de imagens ainda estão em fase de pesquisa e não estão disponíveis publicamente.
Avaliámos o desempenho do GPT‑4 através de um conjunto restrito de parâmetros de visão académica padrão. No entanto, estes números não representam totalmente a extensão das suas capacidades, uma vez que estamos constantemente a descobrir novas e interessantes tarefas que o modelo é capaz de realizar. Planeamos divulgar em breve análises e números de avaliação adicionais, bem como uma investigação aprofundada sobre o efeito das técnicas aplicadas durante os testes.
nota de rodapé internaA
Temos trabalhado em cada aspeto do plano descrito na nossa publicação sobre a definição do comportamento das IA, incluindo a capacidade de direcionamento. Em vez da personalidade clássica do ChatGPT, com verbosidade, tom e estilo fixos, os programadores (e em breve os utilizadores do ChatGPT) podem agora prescrever o estilo e a tarefa da sua IA, descrevendo estas instruções na mensagem do "sistema". As mensagens do sistema permitem que os utilizadores da API personalizem significativamente a experiência de utilização dentro de determinados limites(abre numa nova janela). Continuaremos a fazer melhorias neste ponto (e sabemos, em particular, que as mensagens do sistema são a forma mais fácil de "quebrar" o modelo atual, ou seja, a aderência aos limites não é perfeita), mas encorajamos-te a experimentar e a dizeres-nos o que achaste.
Apesar das suas capacidades, o GPT‑4 apresenta limitações semelhantes às dos modelos GPT anteriores. Essencialmente, ainda não é totalmente fiável (distorce factos e comete erros de raciocínio). É necessário ter muito cuidado ao utilizar os resultados dos modelos de linguagem, particularmente em contextos de alto risco, e o protocolo exato (como revisão humana, fundamentação com contexto adicional ou evitar a utilização em situações de alto risco) deve corresponder às necessidades de um caso de utilização específico.
Embora ainda seja um problema real, o GPT‑4 reduz significativamente as distorções em comparação com os modelos anteriores (que, por sua vez, têm vindo a melhorar a cada iteração). O GPT‑4 obteve pontuações 40% superiores às do nosso anterior GPT‑3.5 nas nossas avaliações internas de factualidade adversária:
Fizemos progressos em parâmetros externos, como o TruthfulQA, que testa a capacidade do modelo de separar factos de um conjunto de afirmações incorretas selecionadas de forma adversa. Estas questões são acompanhadas de respostas factualmente incorretas, mas estatisticamente convincentes.
O modelo base GPT‑4 é apenas ligeiramente melhor nesta tarefa do que o GPT‑3.5. No entanto, após o pós-treino RLHF (aplicando o mesmo processo que utilizámos com o GPT‑3.5) há uma grande diferença. Analisando alguns exemplos abaixo, o GPT‑4 resiste a selecionar ditados populares (burro velho não aprende línguas), mas pode, ainda assim, perder pormenores subtis (Elvis Presley não era filho de um ator).
O modelo pode apresentar diversos enviesamentos nos seus resultados — fizemos progressos nesse sentido, mas ainda há muito a fazer. De acordo com a nossa recente publicação no blogue, o nosso objetivo é fazer com que os sistemas de IA que desenvolvemos tenham comportamentos padrão razoáveis que reflitam uma vasta gama de valores dos utilizadores, permitam que estes sistemas sejam personalizados dentro de limites amplos e obtenham contributos do público sobre quais devem ser esses limites.
O GPT‑4 geralmente não tem conhecimento de eventos que ocorreram após a grande maioria do corte dos seus dados (setembro de 2021) e não aprende com a sua experiência. Por vezes, pode cometer erros de raciocínio simples que não parecem corresponder à competência em tantas áreas, ou ser excessivamente ingénuo ao aceitar afirmações obviamente falsas de um utilizador. E, por vezes, pode falhar em problemas difíceis da mesma forma que os humanos, como introduzir vulnerabilidades de segurança no código que produz.
O GPT‑4 também pode estar convictamente errado nas suas previsões, por não se preocupar em verificar novamente o trabalho quando é provável que cometa um erro. Curiosamente, o modelo base pré-treinado é altamente calibrado (a confiança prevista numa resposta corresponde, geralmente, à probabilidade de estar correta). No entanto, através do nosso processo atual de pós-treino, a calibração é reduzida.
Temos trabalhado em melhorias no GPT‑4 para o tornar mais seguro e alinhado desde o início do treino, com esforços que incluem a seleção e filtragem dos dados de pré-treino, avaliações e envolvimento de especialistas, melhorias na segurança do modelo, bem como monitorização e aplicação de políticas.
O GPT‑4 apresenta riscos semelhantes aos modelos anteriores, como gerar conselhos prejudiciais, código com erros ou informações imprecisas. No entanto, as capacidades adicionais do GPT‑4 levam a novas superfícies de risco. Para compreender a extensão destes riscos, contratámos mais de 50 especialistas de áreas como riscos de alinhamento da IA, cibersegurança, biorrisco, confiança e segurança, e segurança internacional para testar adversamente o modelo. As suas conclusões permitiram-nos especificamente testar o comportamento do modelo em áreas de alto risco, que requerem conhecimentos especializados para serem avaliadas. O feedback e os dados destes especialistas contribuíram para as nossas medidas de mitigação e melhorias no modelo. Por exemplo, recolhemos dados adicionais para melhorar a capacidade do GPT‑4 de recusar pedidos sobre como sintetizar substâncias químicas perigosas.
O GPT‑4 incorpora um sinal de recompensa de segurança adicional durante o treino RLHF para reduzir os resultados prejudiciais (conforme definido nas nossas diretrizes de utilização(abre numa nova janela)), treinando o modelo para recusar pedidos deste tipo de conteúdo. A recompensa é fornecida por um classificador zero-shot do GPT‑4, que avalia os limites de segurança e o estilo de conclusão em prompts relacionados com a segurança. Para evitar que o modelo rejeite pedidos válidos, recolhemos um conjunto de dados diversificado de várias fontes (por exemplo, dados de produção rotulados, testes de intrusão humanos, instruções geradas pelo modelo) e aplicamos o sinal de recompensa de segurança (com um valor positivo ou negativo) tanto nas categorias permitidas como nas proibidas.
As nossas medidas de mitigação melhoraram significativamente muitas das propriedades de segurança do GPT‑4 em comparação com o GPT‑3.5. Reduzimos em 82% a tendência do modelo para responder a pedidos de conteúdos proibidos em comparação com o GPT‑3.5, e o GPT‑4 responde a pedidos sensíveis (por exemplo, aconselhamento médico e automutilação) de acordo com as nossas políticas 29% mais frequentemente.
Em geral, as nossas intervenções ao nível do modelo aumentam a dificuldade de provocar comportamentos inadequados, mas isso ainda é possível. Além disso, ainda existem métodos alternativos para gerar conteúdo que viola as nossas diretrizes de utilização. À medida que o "risco por token" dos sistemas de IA aumenta, torna-se crucial alcançar níveis extremamente elevados de fiabilidade nestas intervenções. Por agora, é importante complementar estas limitações com técnicas de segurança no momento da implementação, como a monitorização de abusos.
O GPT‑4 e os seus modelos sucessores têm o potencial de influenciar significativamente a sociedade, tanto de formas benéficas como prejudiciais. Estamos a colaborar com investigadores externos para melhorar a nossa compreensão e avaliação dos potenciais impactos, bem como para desenvolver avaliações de capacidades perigosas que possam surgir em sistemas futuros. Em breve, partilharemos mais detalhes sobre as nossas ideias relativamente aos potenciais impactos sociais e económicos do GPT‑4 e de outros sistemas de IA.
Tal como os modelos GPT anteriores, o modelo base GPT‑4 foi treinado para prever a palavra seguinte num documento, utilizando dados disponíveis publicamente (como dados da internet), bem como dados que licenciámos. Os dados constituem um conjunto de informação à escala da web que inclui soluções corretas e incorretas para problemas matemáticos, raciocínio fraco e forte, afirmações autocontraditórias e consistentes, e representam uma grande variedade de ideologias e ideias.
Assim, quando questionado, o modelo base pode responder de diversas formas, que podem estar distantes da intenção do utilizador. Para o alinhar com a intenção do utilizador dentro de certos limites, ajustamos o comportamento do modelo utilizando a aprendizagem por reforço com feedback humano (RLHF).
Note-se que as capacidades do modelo parecem advir sobretudo do processo de pré-treino — o RLHF não melhora o desempenho nos exames (sem esforço ativo, na verdade, piora-o). Mas o direcionamento do modelo vem do processo pós-formação — o modelo base requer ajustes imediatos para sequer saber que deve responder às questões.
Um dos principais focos do projeto GPT‑4 tem sido a construção de uma estrutura de aprendizagem profunda que se expande de forma previsível. A principal razão é que, para grandes treinos como o GPT‑4, não é viável realizar ajustes extensivos específicos do modelo. Desenvolvemos infraestruturas e otimizações que apresentam um comportamento altamente previsível em múltiplas escalas. Para verificar esta escalabilidade, previmos com precisão a perda final do GPT‑4 na nossa base de código interna (que não faz parte do conjunto de treino), extrapolando a partir de modelos treinados que utilizam a mesma metodologia, mas com 10 mil vezes menos poder computacional:
Agora que conseguimos prever com precisão a métrica que otimizamos durante o treino (perda), estamos a começar a desenvolver uma metodologia para prever métricas mais interpretáveis. Por exemplo, previmos com sucesso a taxa de aprovação num subconjunto do conjunto de dados HumanEval(abre numa nova janela), extrapolando a partir de modelos com mil vezes menos poder computacional:
Algumas capacidades ainda são difíceis de prever. Por exemplo, o Inverse Scaling Prize foi uma competição para encontrar uma métrica que piora à medida que a computação do modelo aumenta, e a negligência retrospetiva(abre numa nova janela) foi uma das vencedoras. Tal como com outro resultado(abre numa nova janela) recente, o GPT‑4 inverte a tendência:
Acreditamos que prever com precisão as futuras capacidades de aprendizagem automática é uma parte importante da segurança que não recebe a atenção necessária em relação ao seu potencial impacto (embora tenhamos sido encorajados pelos esforços de diversas instituições). Estamos a intensificar os nossos esforços para desenvolver métodos que forneçam à sociedade uma melhor orientação sobre o que esperar dos sistemas futuros, e esperamos que este se torne um objetivo comum na área.
Estamos a disponibilizar em código aberto o OpenAI Evals(abre numa nova janela), a nossa estrutura de software para criar e executar parâmetros para avaliar modelos como o GPT‑4, enquanto inspecionamos o seu desempenho amostra a amostra. Usamos o Evals para orientar o desenvolvimento dos nossos modelos (tanto identificando deficiências como prevenindo regressões), e os nossos utilizadores podem aplicá-lo para acompanhar o desempenho em diferentes versões do modelo (que serão agora lançadas regularmente) e na evolução de integrações de produtos. Por exemplo, a Stripe utilizou o Evals para complementar as suas avaliações humanas e medir a precisão da sua ferramenta de documentação alimentada por GPT.
Como todo o código é de código aberto, o Evals permite escrever novas classes para implementar lógica de avaliação personalizada(abre numa nova janela). Na nossa própria experiência, no entanto, muitos parâmetros seguem um de alguns "modelos", pelo que também incluímos os modelos(abre numa nova janela) que foram mais úteis internamente (incluindo um modelo para "avaliações com classificação de modelos" — descobrimos que o GPT‑4 é surpreendentemente capaz de verificar o seu próprio trabalho). Geralmente, a maneira mais eficaz de criar uma nova avaliação(abre numa nova janela) será instanciar um destes modelos juntamente com o fornecimento de dados. Estamos ansiosos para ver o que outros conseguirão criar com estes modelos e com o Evals em geral.
Esperamos que o Evals se torne um veículo para partilhar e obter parâmetros colaborativos, representando o conjunto mais vasto possível de modos de falha e tarefas difíceis. Como exemplo a seguir, criámos um exercício de avaliação de puzzles lógicos(abre numa nova janela) que contém dez prompts em que o GPT‑4 falha. O Evals também é compatível com a implementação de parâmetros existentes; incluímos vários notebooks(abre numa nova janela) que implementam parâmetros académicos e algumas variações de integração (de pequenos subconjuntos de) CoQA(abre numa nova janela) como exemplo.
Convidamos todos a utilizar o Evals para testar os nossos modelos e a enviar os exemplos mais interessantes. Acreditamos que o Evals será uma parte integrante do processo de utilização e desenvolvimento dos nossos modelos, e agradecemos contributos diretos, perguntas e feedback(abre numa nova janela).
Os assinantes do ChatGPT Plus terão acesso ao GPT‑4 em chatgpt.com(abre numa nova janela) com um limite de uso. Ajustaremos o limite de utilização exato em função da procura e do desempenho do sistema na prática, mas esperamos ter restrições de capacidade severas (embora aumentemos a escala e e a otimização nos próximos meses).
Dependendo dos padrões de tráfego que observarmos, poderemos introduzir um novo nível de assinatura para a utilização do GPT‑4 em maior volume. Esperamos também, em algum momento, oferecer algumas consultas GPT‑4 gratuitas para que aqueles que não têm assinatura também possam experimentá-lo.
Para aceder à API GPT‑4 (que usa a mesma API de ChatCompletions(abre numa nova janela) que o gpt-3.5-turbo), por favor, inscreve-te na nossa lista de espera. Vamos começar a convidar alguns programadores hoje e aumentar gradualmente a escala para equilibrar a capacidade com a procura. Se és um investigador que estuda o impacto social da IA ou as questões de alinhamento da IA, também podes solicitar o acesso subsidiado através do nosso Programa de Acesso para Investigadores.
Assim que tiveres acesso, podes fazer pedidos apenas de texto ao modelo GPT‑4 (as entradas de imagem ainda estão em versão alfa limitada), que atualizaremos automaticamente para o nosso modelo estável recomendado à medida que formos lançando novas versões ao longo do tempo (podes fixar a versão atual chamando gpt-4-0314, que suportaremos até 14 de junho). Os preços são de 0,03$ por mil tokens de prompt e 0,06$ por mil tokens de conclusão. Os limites padrão são 40 mil tokens por minuto e 200 pedidos por minuto.
O gpt-4 tem um comprimento de contexto de 8192 tokens. Estamos também a disponibilizar um acesso limitado à nossa versão de 32.768–contextos (cerca de 50 páginas de texto), gpt-4-32k, que também será atualizada automaticamente ao longo do tempo (versão atual gpt-4-32k-0314, também suportada até 14 de junho). Os preços são de 0,06$ por mil tokens de prompt e 0,12 $ por mil tokens de conclusão. Ainda estamos a melhorar a qualidade do modelo para contextos longos e gostaríamos muito de receber feedback sobre o seu desempenho no teu caso de utilização. Estamos a processar pedidos para os motores 8K e 32K a diferentes velocidades com base na capacidade, por isso podes ter acesso a eles em momentos diferentes.
Esperamos que o GPT‑4 se torne uma ferramenta valiosa para melhorar a vida das pessoas, ao alimentar muitas aplicações. Ainda há muito trabalho a fazer, e esperamos melhorar este modelo através dos esforços coletivos da comunidade que o constrói, explora e que contribui para ele.
Para mais: Ler o artigo(abre numa nova janela) / Ver o cartão do sistema(abre numa nova janela) / Experimentar o ChatGPT Plus(abre numa nova janela) / Experimentar no Playground(abre numa nova janela) / Rever a demonstração em livestream(abre numa nova janela) / Contribuir para a OpenAI Evals(abre numa nova janela)
Exemplo de perguntas do MMLU, traduzidas para outras línguas. Nota: usamos tokens de escolha consistentes (A–D):
Notas de rodapé
- A
Avaliámos este parâmetro utilizando um prompt de cadeia de pensamento, com quatro exemplos do conjunto de treino em contexto. O prompt específico foi ajustado no conjunto de validação.
Referências
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Análise adicional disponível no artigo(abre numa nova janela).


