13 de maio de 2024

Olá, GPT‑4o

Conheça o GPT‑4o: nosso novo modelo de última geração, capaz de refletir em áudio, visão e texto. Tudo em tempo real.

Contribuições Experimente no ChatGPT Cartão do sistema GPT-4o

Todos os vídeos desta página são reproduzidos na velocidade normal.

Será que dá para adivinhar o anúncio do dia 13 de maio?

Mais recursos

Experimente no Playground Assista de novo aos vídeos da demonstração ao vivo

Carregando…

O GPT‑4o (“o” é uma abreviação para “omni”) é um passo em direção a uma interação muito mais natural entre humanos e computadores. Ele aceita como entrada qualquer combinação de texto, áudio, imagem e vídeo — e, para melhorar, gera tipos variados de combinação entre resultados em texto, áudio e imagem. Além disso, também é capaz de responder a entradas de áudio em apenas 232 milissegundos e média de 320 milissegundos, o que é semelhante ao tempo de resposta humana⁠(abre em uma nova janela) em uma conversa. Ele iguala o desempenho do GPT‑4 Turbo nos textos em inglês e em código, com melhorias significativas em textos em outros idiomas. Fora isso, é muito mais rápido e 50% mais barato na API. O GPT‑4o apresenta uma melhora significativa na compreensão visual e auditiva, sobretudo em comparação com os modelos existentes.

Funcionalidades do modelo

Dois GPT‑4o interagindo e cantando uma música.

Preparação para entrevista.

Pedra, papel, tesoura.

Sarcasmo.

Matemática com Sal e Imran Khan.

Dois GPT‑4os cantando juntos.

Prática visual de espanhol.

Reunião com IA.

Tradução em tempo real.

Canção de ninar.

Falar mais rápido.

Feliz aniversário.

Cachorro.

Piadas de tio do pavê.

GPT‑4o com Andy, da BeMyEyes, em Londres.

Prova de conceito para o atendimento ao cliente.

Antes do GPT‑4o, era possível usar o modo voz⁠ para falar com o ChatGPT dentro de latências de 2,8 segundos (GPT‑3.5) e 5,4 segundos (GPT‑4), em média. Para fazer isso acontecer, o modo voz usa um pipeline de três modelos separados: um modelo simples transcreve o áudio para texto, o GPT‑3.5 ou GPT‑4 recebe o texto e gera o resultado, e um terceiro modelo simples converte esse texto de volta para o formato de áudio. Esse processo significa que a principal fonte de inteligência, o GPT‑4, perde muitas informações — ele não consegue observar diretamente o tom, acompanhar vários interlocutores ou perceber ruídos de fundo e também não consegue produzir risadas, cantar ou expressar emoções.

Com o GPT‑4o, treinamos um único modelo novo de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e resultados são processados pela mesma rede neural. Como o GPT‑4o é nosso primeiro modelo a combinar todas essas funcionalidades, ainda estamos só começando a explorar o que ele pode fazer e quais são as suas limitações.

Exploração das funcionalidades

Selecione uma amostra:

Entrada

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Resultado

Entrada

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Resultado

Entrada

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Resultado

Avaliações do modelo

De acordo com as medições em benchmarks tradicionais, o GPT‑4o atinge o desempenho do GPT‑4 Turbo em inteligência de texto, reflexão e codificação. Ao mesmo tempo, também estabelece novos padrões em recursos multilíngues, de áudio e visão.

Avaliação de texto

Tokenização de linguagem

Os vinte idiomas abaixo foram escolhidos como representativos do nível de compressão do novo tokenizador em diferentes famílias linguísticas

Gujarati: 4,4 vezes menos tokens (de 145 para 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu: 3,5 vezes menos tokens (de 159 para 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamil: 3,3 vezes menos tokens (de 116 para 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi: 2,9 vezes menos tokens (de 96 para 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi: 2,9 vezes menos tokens (de 90 para 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu: 2,5 vezes menos tokens (de 82 to 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Árabe: 2 vezes menos tokens (de 53 para 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persa: 1,9 vezes menos tokens (de 61 para 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Russo: 1,7 vezes menos tokens (de 39 para 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Coreano: 1,7 vezes menos tokens (de 45 para 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamita: 1,5 vezes menos tokens (de 46 para 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Chinês: 1,4 vezes menos tokens (de 34 para 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japonês: 1,4 vezes menos tokens (de 37 para 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turco: 1,3 vezes menos tokens (de 39 para 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italiano: 1,2 vezes menos tokens (de 34 para 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Alemão: 1,2 vezes menos tokens (de 34 para 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Espanhol: 1,1 vezes menos tokens (de 29 para 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Português: 1,1 vezes menos tokens (de 30 para 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Francês: 1,1 vezes menos tokens (de 31 para 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Inglês: 1,1 vezes menos tokens (de 27 para 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Segurança e limitações do modelo

O GPT‑4o tem segurança integrada em todas as modalidades, por meio de técnicas variadas. Duas delas são a filtragem de dados de treinamento e o refinamento do comportamento do modelo após o treinamento. Também criamos novos sistemas de segurança para fornecer proteção nos resultados de voz.

Avaliamos o GPT‑4o de acordo com nossa estrutura de prontidão⁠ e em conformidade com nossos compromissos de voluntariado⁠. Nossas avaliações de segurança cibernética, CBRN, persuasão e autonomia do modelo mostram que o GPT‑4o não obtém pontuação acima do risco médio em nenhuma dessas categorias. Essa avaliação envolveu a execução de um conjunto de avaliações automatizadas e humanas ao longo do processo de treinamento do modelo. Testamos as versões pré-mitigação de segurança e pós-mitigação de segurança, usando ajustes personalizados e prompts, para melhor identificar as capacidades do modelo.

O GPT‑4o também foi submetido a uma extensa equipe externa de testes ofensivos com mais de 70 especialistas externos⁠ em áreas como psicologia social, preconceito, imparcialidade e desinformação para identificar riscos que são introduzidos ou amplificados pelas modalidades recém-adicionadas. Usamos esses aprendizados para desenvolver nossas intervenções de proteção, a fim de melhorar a segurança das interações com o GPT‑4o. Continuaremos a mitigar novos riscos à medida que forem descobertos.

Nós sabemos que as modalidades de áudio do GPT‑4o apresentam diversos novos riscos. Estamos divulgando hoje, para o público geral, entradas de texto e imagem — bem como resultados em texto. Nas próximas semanas e meses, trabalharemos na infraestrutura técnica, na usabilidade pós-treinamento e na segurança necessária para lançar as outras modalidades. Por exemplo: perto do lançamento, os resultados de áudio serão limitados a uma seleção de vozes predefinidas e estarão em conformidade com as nossas políticas existentes de segurança. Compartilharemos mais detalhes sobre todas as modalidades do GPT‑4o no próximo cartão do sistema.

Através dos nossos testes e iterações com o modelo, observamos várias limitações comuns a todas as modalidades do modelo. Algumas delas estão ilustradas abaixo.

Exemplos de limitações do modelo

Gostaríamos muito de receber feedback para ajudar a identificar tarefas nas quais o GPT‑4 Turbo ainda supera o GPT‑4o, para que possamos continuar a melhorar o modelo.

Scorecard de riscos do ChatGPT-4o

^{Atualizado em 8 de maio de 2024}

Categoria de risco monitorado

Nível de risco pré-mitigação

Use as melhores técnicas conhecidas de elicitação de capacidades para determinar o nível de risco pré-mitigação.

Nível de risco pós-mitigação

Use as melhores técnicas conhecidas de elicitação de capacidades para determinar o nível geral de risco após a implementação das medidas de mitigação.

Segurança cibernética

Baixa

CBRN

Baixa

Persuasão

Média

Autonomia do modelo

Baixa

Como parte da nossa estrutura de prontidão⁠, realizamos avaliações regulares para atualizar os scorecards dos nossos modelos. Apenas modelos com uma pontuação pós-mitigação “média” ou inferior são implementados. O nível de risco geral de um modelo é determinado pelo nível de risco mais alto em qualquer categoria. Atualmente, o GPT‑4o é avaliado como de risco médio, tanto antes quanto depois das medidas de mitigação.

Disponibilidade do modelo

O GPT‑4o é o nosso mais recente avanço na expansão dos limites da aprendizagem profunda, só que agora estamos focados na ideia de usabilidade prática. Nos últimos dois anos, trabalhamos muito para melhorar a eficiência em todas as camadas do stack. Um dos primeiros resultados da nossa investigação é que conseguimos disponibilizar um modelo de nível GPT‑4 de maneira muito mais ampla. Os recursos do GPT‑4o serão implementados de maneira iterativa (com acesso ampliado à equipe de testes ofensivos a partir de hoje).

Os recursos de texto e imagem do GPT‑4o estão começando a ser implementados hoje no ChatGPT. Estamos disponibilizando o GPT‑4o na versão gratuita e para usuários Plus (no caso, estes podem aproveitar limites de mensagens até 5 vezes maiores). Nas próximas semanas, lançaremos uma nova versão do modo voz com o GPT‑4o em fase alfa no ChatGPT Plus.

Os desenvolvedores agora também podem acessar o GPT‑4o na API como um modelo de texto e visão. O GPT‑4o é duas vezes mais rápido, custa metade do preço e tem limites de taxa cinco vezes maiores em comparação com o GPT‑4 Turbo. Planejamos lançar o suporte para os novos recursos de áudio e vídeo do GPT‑4o nas próximas semanas, mas só para um pequeno grupo de parceiros confiáveis na API.

Autoria

OpenAI

Ver colaboradores

Olá, GPT‑4o

Funcionalidades do modelo

Exploração das funcionalidades

Avaliações do modelo

Avaliação de texto

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tokenização de linguagem

Segurança e limitações do modelo

Scorecard de riscos do ChatGPT-4o

Disponibilidade do modelo

Autoria