18 de julho de 2024

GPT‑4o mini: inteligência com bom custo-benefício

Apresentamos o modelo pequeno mais econômico que temos

Carregando…

A OpenAI tem o compromisso de tornar a inteligência artificial amplamente disponível. É por isso que hoje estamos anunciando o GPT‑4o mini, o modelo pequeno mais econômico que já criamos. Esperamos que esse modelo expanda consideravelmente a gama de aplicativos criados com IA, tornando a inteligência muito mais acessível. O GPT‑4o mini tem pontuação de 82% no MMLU e, no momento, é superior ao GPT‑4¹ nas preferências de chat no quadro de liderança LMSYS⁠(abre em uma nova janela). O preço é de 15 centavos por milhão de tokens de entrada e 60 centavos por milhão de tokens de saída, ou seja: muito mais barato que os modelos de vanguarda anteriores. Além disso, apresenta mais de 60% de economia em relação ao GPT‑3.5 Turbo.

O GPT‑4o mini permite diversas tarefas com baixo custo e latência, como aplicativos que encadeiam ou paralelizam diversas chamadas do modelo (ex.: chamadas para várias APIs), passagem de grandes volumes de contexto para o modelo (ex.: base de código completa ou histórico de conversas) ou até mesmo interação de clientes com respostas rápidas em texto em tempo real (ex.: chatbots de atendimento ao cliente).

Hoje, o GPT‑4o mini funciona com texto e visão na API. Além disso, o suporte para entradas e resultados em texto, imagem, vídeo e áudio devem ser lançados em breve. O modelo tem uma janela de contexto de 128 mil tokens, suporte para até 16 mil tokens de saída por solicitação e conhecimentos atualizados até outubro de 2023. Com a melhoria do tokenizador compartilhado com o GPT‑4o, a gestão de textos em outros idiomas ficou ainda mais econômica.

Um modelo pequeno, com inteligência textual superior e reflexão multimodal

O GPT‑4o mini ultrapassa o GPT‑3.5 Turbo e outros modelos pequenos quando o assunto são referências acadêmicas, tanto em inteligência textual quando em reflexão multimodal; além disso, conta com suporte para o mesmo número de idiomas que o GPT‑4o. Ele também demonstra bom desempenho em chamadas de função, de modo que os desenvolvedores podem criar aplicativos que buscam dados ou agem sobre sistemas externos. Fora isso, é importante destacar e melhoria no desempenho com contextos longos em relação ao GPT‑3.5 Turbo.

O GPT‑4o mini foi avaliado segundo diversos benchmarks fundamentais²;

Tarefas de reflexão: o GPT‑4o mini é melhor do que outros modelos pequenos em tarefas de reflexão que envolvem texto e também visão, com pontuação de 82,0% no MMLU — uma referência de inteligência textual e reflexão. O Gemini Flash, por sua vez, conseguiu 77,9% . Já o Claude Haiku pontuou 73,8%.

Proficiência em matemática e programação: o GPT‑4o mini é excepcional em tarefas de matemática e programação, superando pequenos modelos anteriores do mercado. No MGSM, ao medir a reflexão matemática, o GPT‑4o mini conseguiu 87,0%, enquanto o Gemini Flash chegou a 75,5% e o Claude Haiku alcançou 71,7%. O GPT‑4o mini pontuou 87,2% no HumanEval, que mede o desempenho em programação. O Gemini Flash alcançou apenas 71,5%, e o Claude Haiku ficou na casa dos 75,9%.

Reflexão multimodal: o GPT‑4o mini também teve bom desempenho no MMMU, uma avaliação de reflexão multimodal, pontuando 59,4%. A nível de comparação, o Gemini Flash alcançou 56,1% e o Claude Haiku ficou com 50,2%.

Pontuações da avaliação do modelo

Durante nosso processo de desenvolvimento do modelo, trabalhamos com vários parceiros reconhecidos para compreender melhor os casos de uso e as limitações do GPT‑4o mini. Empresas parceiras, como a Ramp⁠(abre em uma nova janela) e a Superhuman⁠(abre em uma nova janela), consideraram o GPT‑4o mini consideravelmente melhor do que o GPT‑3.5 Turbo em tarefas como extração de dados estruturados de recibos ou geração de respostas por e-mail com alta qualidade, desde que o modelo recebesse um bom histórico do tópico.

Medidas de segurança incorporadas

A segurança já vem integrada aos nossos modelos desde o princípio, e é reforçada ao longo de todas as etapas do processo de desenvolvimento. Na fase de pré-treinamento, filtramos⁠(abre em uma nova janela) e removemos dos resultados todas as informações que não queremos que nossos modelos aprendam — como discurso de ódio, conteúdo pornográfico, sites que agregam sobretudo dados pessoais e, claro, spam. No fase de pós treinamento, alinhamos o comportamento do modelo às nossas políticas, usando técnicas como aprendizagem por reforço com feedback humano (RLHF)⁠. Isso é feito para melhorar a precisão e a confiabilidade das respostas dos modelos.

O GPT‑4o mini tem as mesmas mitigações de segurança que já eram incorporadas ao GPT‑4o⁠ e foram cuidadosamente avaliadas em revisões automáticas e humanas, seguindo nosso Framework de prontidão⁠ e conforme nossos compromissos de voluntariado⁠. Mais de 70 especialistas externos de áreas como psicologia social e desinformação testaram o GPT‑4o para identificar possíveis riscos. Estes, por sua vez, foram gerenciados e serão detalhados no cartão de sistema do GPT‑4o, a ser publicado, e no cartão de pontuação de prontidão. Os insights desses especialistas ajudaram a melhorar a segurança do GPT‑4o e do GPT‑4o mini.

Aproveitando esses aprendizados, nossas equipes também trabalharam pra melhorar a segurança do GPT‑4o mini, usando novas técnicas baseadas em investigações internas. O GPT‑4o mini na API é o primeiro modelo a aplicar nosso método de hierarquia de instrução⁠(abre em uma nova janela), que ajuda a melhorar a resistência do modelo contra jailbreaks, injeções de prompts e extrações de prompts do sistema. Com isso, as respostas ficam mais confiáveis e o modelo fica mais seguro para uso em aplicações de grande porte.

Continuaremos a monitorar o uso do GPT‑4o mini e a melhorar a segurança do modelo conforme identificarmos novos riscos.

Disponibilidade e preços

O GPT‑4o mini já está disponível como modelo para texto e visão na API Assistants, API Chat Completions e API Batch. Desenvolvedores pagam 15 centavos por 1 mi de tokens de entrada e 60 centavos por 1 mi de tokens de saída (o equivalente a cerca de 2.500 páginas de um catálogo padrão). Pretendemos implementar ajustes finos para o GPT‑4o mini nos próximos dias.

Os usuários Free, Plus e Team do ChatGPT terão acesso ao GPT‑4o mini a partir de hoje, substituindo o GPT‑3.5. Usuários do Enterprise terão acesso a partir de semana que vem. Isso é só mais uma prova do nosso comprometimento em disponibilizar as vantagens da IA para todo mundo.

Próximos passos

Nos últimos anos, testemunhamos notáveis avanços na inteligência da IA, ao mesmo tempo que houve uma redução considerável do custo. Por exemplo: o custo por token do GPT‑4o mini caiu 99% desde o modelo inferior text-davinci-003, lançado em 2022. Queremos continuar essa trajetória de redução de custos e, claro, melhorar a capacidade dos modelos.

Nós queremos um futuro em que os modelos estão totalmente integrados a todos os aplicativos, e em todos os sites. O GPT‑4o mini abre caminho para que desenvolvedores criem e expandam poderosos aplicativos de IA com mais eficiência e economia. O futuro da IA gira em torno de acessibilidade, confiabilidade e integração com a nossa experiência digital cotidiana. Para nós, é um privilégio liderar essa jornada.

Autoria

OpenAI

Agradecimentos

Lideranças: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas e Felipe Petroski Such

Líder do programa: Mianna Chen

Colaborações destacadas em https://openai.com/gpt-4o-contributions/⁠

Notas de rodapé

1
Em 18 de julho de 2024, uma versão inicial do GPT-4o mini superou o desempenho do GPT-4T 01-25.
2
Os números da avaliação do GPT-4o mini são calculados usando o prompt de mensagem de sistema de assistente de API do repositório simple-evals⁠(abre em uma nova janela). Para modelos da concorrência, usamos o maior número relatado pelo fornecedor (se disponível), a classificação do HELM⁠(abre em uma nova janela) e os números que obtemos por conta própria usando simple-evals.