13 de maio de 2024

Olá, GPT‑4o

Apresentamos o GPT‑4o, o nosso novo modelo de última geração, capaz de raciocinar em tempo real sobre áudio, visão e texto.

Contribuições Experimenta no ChatGPT Cartão do sistema GPT-4o

Todos os vídeos nesta página são reproduzidos em tempo real (1x).

Adivinhar o lançamento de 13 de maio.

Mais recursos

Experimentar no Playground Rever demonstrações ao vivo

A carregar…

O GPT‑4o (“o” de “omni”) é um passo em direção a uma interação mais natural entre humanos e computadores. Pode receber como entrada qualquer combinação de texto, áudio, imagem e vídeo, e produzir como resultado qualquer combinação de texto, áudio e imagem. O modelo responde a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humana⁠(abre numa nova janela) numa conversa. Iguala o desempenho do GPT‑4 Turbo nos textos em inglês e em código, com uma melhoria significativa em textos de outros idiomas que não o inglês. Além disso, é muito mais rápido e 50% mais barato na API. O GPT‑4o é especialmente superior na compreensão visual e auditiva, em comparação com os modelos existentes.

Recursos do modelo

Dois GPT‑4os a interagir e a cantar.

Preparação para entrevista.

Pedra, papel ou tesoura.

Sarcasmo.

Matemática com Sal e Imran Khan.

Dois GPT‑4os a cantar em conjunto.

Prática visual de espanhol.

Reunião com AI.

Tradução em tempo real.

Canção de embalar.

Falar mais depressa.

Feliz aniversário.

Cão.

Piadas secas.

GPT‑4o com Andy, da BeMyEyes, em Londres.

Prova de conceito de serviço ao cliente.

Antes do GPT‑4o, era possível utilizar o modo voz⁠ para conversar com o ChatGPT com latências de, em média, 2,8 segundos (GPT‑3.5) e 5,4 segundos (GPT‑4). Para alcançar isso, o modo voz usa um pipeline de três modelos separados: um modelo simples transcreve o áudio para texto, o GPT‑3.5 ou GPT‑4 processa o texto e gera um resultado, e um terceiro modelo simples converte esse texto de volta para o formato de áudio. Este processo significa que a principal fonte de inteligência, o GPT‑4, perde muitas informações — não consegue avaliar diretamente o tom, acompanhar vários interlocutores ou perceber ruídos de fundo. Também não consegue produzir gargalhadas, cantar ou expressar emoções.

Com o GPT‑4o, treinámos um único modelo novo de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e resultados são processados pela mesma rede neuronal. Como o GPT‑4o é o nosso primeiro modelo a combinar todas estas funcionalidades, estamos apenas a iniciar a exploração das suas capacidades e limitações.

Exploração das funcionalidades

Selecionar amostra:

Input

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Output

Input

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Output

Input

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Output

Avaliação do modelo

De acordo com as medições em testes de desempenho tradicionais, o GPT‑4o atinge um nível de desempenho equivalente ao do GPT‑4 Turbo em texto, raciocínio e programação, ao mesmo tempo que estabelece novos máximos em capacidades multilingues, de áudio e de visão.

Avaliação textual

Tokenização de linguagem

Estes 20 idiomas foram escolhidos por serem representativos do nível de compressão do novo tokenizador em diferentes famílias linguísticas

Gujarati com 4,4x menos tokens (de 145 para 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu com 3,5x menos tokens (de 159 para 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tâmil com 3,3 vezes menos tokens (de 116 para 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marata com 2,9x menos tokens (de 96 para 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi com 2,9x menos tokens (de 90 para 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu com 2,5 vezes menos tokens (de 82 para 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Árabe com 2,0x menos tokens (de 53 para 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persa com 1,9x menos tokens (de 61 para 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Russo com 1,7 vezes menos tokens (de 39 para 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Coreano com 1,7 vezes menos tokens (de 45 para 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamita com 1,5 vezes menos tokens (de 46 para 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Chinês com 1,4 vezes menos tokens (de 34 para 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japonês com 1,4 vezes menos tokens (de 37 para 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turco com 1,3 vezes menos tokens (de 39 para 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italiano com 1,2x menos tokens (de 34 para 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Alemão com 1,2 vezes menos tokens (de 34 para 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Espanhol com 1,1x menos tokens (de 29 para 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Português com 1,1x menos tokens (de 30 para 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Francês com 1,1x menos tokens (de 31 para 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Inglês com 1,1x menos tokens (de 27 para 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Segurança e limitações do modelo

O GPT‑4o possui segurança incorporada em todas as modalidades, através de técnicas como a filtragem de dados de treino e o refinamento do comportamento do modelo após o treino. Criámos também novos sistemas de segurança para fornecer proteção nos resultados de voz.

Avaliámos o GPT‑4o de acordo com a nossa estrutura de preparação⁠ e em conformidade com os nossos compromissos voluntários⁠. As nossas avaliações de cibersegurança, QBRN, persuasão e autonomia do modelo mostram que o GPT‑4o não obtém pontuação acima do risco médio em nenhuma dessas categorias. Esta avaliação envolveu a execução de um conjunto de avaliações automatizadas e humanas ao longo do processo de treino do modelo. Testámos versões do modelo anteriores e posteriores à implementação das medidas de mitigação de segurança, utilizando ajustes personalizados e prompts, para melhor avaliar as capacidades do modelo.

O GPT‑4o foi também submetido a intensos testes ofensivos externos, envolvendo mais de 70 especialistas⁠ em áreas como a psicologia social, o enviesamento, a imparcialidade e a desinformação, para identificar os riscos introduzidos ou amplificados pelas novas modalidades acrescentadas. Utilizámos estas aprendizagens para desenvolver as nossas intervenções de segurança, de forma a melhorar a segurança das interações com o GPT‑4o. Continuaremos a mitigar novos riscos à medida que forem descobertos.

Reconhecemos que as modalidades de áudio do GPT‑4o introduzem uma série de riscos inéditos. Hoje, estamos a disponibilizar para o público em geral as entradas de texto e de imagem, bem como os resultados em texto. Nas próximas semanas e meses, trabalharemos na infraestrutura técnica, na usabilidade pós-treino e na segurança necessária para lançar as outras modalidades. Por exemplo, na fase de lançamento, o áudio gerado estará confinado a vozes predefinidas e em conformidade com as nossas políticas de segurança vigentes. Mais detalhes sobre todas as modalidades do GPT‑4o serão divulgados na futura ficha técnica do sistema.

Durante os nossos testes e iterações com o modelo, observámos várias limitações comuns a todas as modalidades do modelo, algumas exemplificadas abaixo.

Exemplos de limitações do modelo

Gostaríamos de receber feedback para identificar tarefas em que o GPT‑4 Turbo ainda supera o GPT‑4o, para que possamos continuar a melhorar o modelo. Obrigado.

Avaliação de risco do ChatGPT-4o

^{Atualizado a 8 de maio de 2024}

Categoria de risco monitorizada

Nível de risco pré-mitigação

Determina o nível de risco pré-mitigação usando as melhores técnicas conhecidas de elicitação de capacidades

Nível de risco pós-mitigação

Determina o nível de risco global após a implementação das mitigações, usando as melhores técnicas conhecidas de elicitação de capacidades

Cibersegurança

Baixo

CBRN

Baixo

Persuasão

Médio

Autonomia do modelo

Baixo

Como parte da nossa estrutura de preparação⁠, realizamos avaliações regulares e atualizamos os indicadores de desempenho dos nossos modelos. Apenas modelos com uma pontuação pós-mitigação de “médio” ou inferior são implementados. O nível de risco global de um modelo é determinado pelo nível de risco mais elevado em qualquer categoria. Atualmente, o GPT‑4o é considerado de risco médio, tanto antes como depois da aplicação das medidas de mitigação.

Disponibilidade do modelo 1

O GPT‑4o representa o nosso mais recente avanço na expansão dos limites da aprendizagem profunda, desta vez rumo à usabilidade prática. Nos últimos dois anos, dedicámo-nos a melhorar a eficiência em todas as camadas da nossa estrutura. Um dos primeiros resultados da nossa investigação é que conseguimos disponibilizar um modelo de nível GPT‑4 de forma muito mais abrangente. As funcionalidades do GPT‑4o serão implementadas gradualmente (com acesso alargado à equipa de testes ofensivos a partir de hoje).

Os recursos de texto e imagem do GPT‑4o começam hoje a ser implementados no ChatGPT. Estamos a disponibilizar o GPT‑4o na versão gratuita e para utilizadores Plus, com limites de mensagens até 5 vezes superiores. Nas próximas semanas, vamos lançar uma nova versão do modo voz com o GPT‑4o em fase alfa no ChatGPT Plus.

Os programadores também podem agora aceder ao GPT‑4o na API como um modelo de texto e visão. O GPT‑4o é duas vezes mais rápido, custa metade do preço e tem limites de taxa cinco vezes superiores em comparação com o GPT‑4 Turbo. Está previsto o lançamento das capacidades de áudio e vídeo do GPT‑4o para um conjunto limitado de parceiros de confiança na API nas próximas semanas.

Autores

OpenAI

Ver colaboradores

Olá, GPT‑4o

Recursos do modelo

Exploração das funcionalidades

Avaliação do modelo

Avaliação textual

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tokenização de linguagem

Segurança e limitações do modelo

Avaliação de risco do ChatGPT-4o

Disponibilidade do modelo 1

Autores