13 de mayo de 2024

Hola, GPT‑4o

Presentamos GPT‑4o, nuestro nuevo modelo insignia que puede razonar a través de audio, imagen y texto en tiempo real.

Contribuciones Pruébalo en ChatGPT Tarjeta del sistema GPT-4o

Todos los vídeos de esta página están a velocidad normal (x1).

Adivina qué anunciaremos el 13 de mayo.

Más recursos

Pruébalo en Playground Vuelve a ver demos en directo

Cargando…

GPT‑4o («o» de «omni») supone un paso adelante hacia una interacción humano-ordenador más natural: acepta como input cualquier combinación de texto, audio, imagen y vídeo, y es capaz de generar cualquier combinación de texto, audio e imagen. Puede responder a inputs de audio en tan solo 232 milisegundos, con una media de 320 milisegundos, similar al tiempo de respuesta de los humanos⁠(se abre en una ventana nueva) en una conversación. Está a la altura de GPT‑4 Turbo en cuanto a rendimiento con textos en inglés y código, con una mejora significativa con textos en lenguas diferentes al inglés, además de ser mucho más rápido y un 50 % más económico en la API. GPT‑4o es considerablemente mejor a la hora de entender imágenes y audio en comparación con modelos existentes.

Funciones del modelo

Dos GPT‑4o interactúan y cantan.

Preparación para entrevistas.

Piedra, papel, tijera.

Sarcasmo.

Matemáticas con Sal e Imran Khan.

Dos GPT‑4o cantan en armonía.

Señala y aprende español.

Conociendo a la IA.

Interpretación simultánea.

Una nana.

Habla más rápido.

Feliz cumpleaños.

Un perro.

Chistes malos.

GPT‑4o con Andy, de BeMyEyes, en Londres.

Prueba de concepto de atención al cliente.

Antes de GPT‑4o, podías usar el modo de voz⁠ para hablar con ChatGPT con latencias de 2,8 segundos (GPT‑3.5) y 5,4 segundos (GPT‑4) de media. Para conseguirlo, el modo de voz usa tres modelos separados: un modelo sencillo trascribe el audio a texto; luego, GPT‑3.5 o GPT‑4 procesa el texto y produce otro; y un tercer modelo sencillo convierte este texto en audio de nuevo. Este proceso significa que la fuente de inteligencia principal, GPT‑4, pierde mucha información (no puede percibir directamente el tono, si hay múltiples hablantes o ruido de fondo, y no puede reírse, cantar o expresar una emoción).

Con GPT‑4o, hemos entrenado un modelo nuevo de forma integral con texto, imágenes y audio, lo que significa que todo input y output se procesa con la misma red neuronal. Como GPT‑4o es nuestro primer modelo que combina todas estas modalidades, aún nos queda mucho por explorar para saber de lo que realmente es capaz de hacer y de sus limitaciones.

Demostración de funciones

Selecciona una muestra:

Input

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Output

Input

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Output

Input

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Output

Evaluaciones del modelo

Tal como se mide en las pruebas comparativas tradicionales, GPT‑4o alcanza el nivel de rendimiento de GPT‑4 Turbo en cuanto a texto, razonamiento e inteligencia de programación, al mismo tiempo que sienta nuevos máximos en cuanto a su capacidad multilingüe, visual y auditiva.

Evaluación del texto

Tokenización del lenguaje

Se han seleccionado estos 20 idiomas para ilustrar la compresión del nuevo tokenizador en diferentes familias de idiomas

Gujarati 4,4 veces menos tókenes (de 145 a 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu 3,5 veces menos tókenes (de 159 a 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamil 3,3 veces menos tókenes (de 116 a 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Maratí 2,9 veces menos tókenes (de 96 a 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi 2,9 veces menos tókenes (de 90 a 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu 2,5 veces menos tókenes (de 82 a 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Árabe la mitad de los tókenes (de 53 a 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persa 1,9 veces menos tókenes (de 61 a 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Ruso 1,7 veces menos tókenes (de 39 a 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Coreano 1,7 veces menos tókenes (de 45 a 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamita 1,5 veces menos tókenes (de 46 a 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Chino 1,4 veces menos tókenes (de 34 a 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japonés 1,4 veces menos tókenes (de 37 a 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turco 1,3 veces menos tókenes (de 39 a 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italiano 1,2 veces menos tókenes (de 34 a 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Alemán 1,2 veces menos tókenes (de 34 a 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Español 1,1 veces menos tókenes (de 29 a 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portugués 1,1 veces menos tókenes (de 30 a 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Francés 1,1 veces menos tókenes (de 31 a 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Inglés 1,1 veces menos tókenes (de 27 a 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Modelo de seguridad y limitaciones

GPT‑4o integra la seguridad en su diseño en múltiples modalidades con técnicas como la filtración de datos de entrenamiento y la optimización del comportamiento del modelo con el posentrenamiento. También hemos creado unos nuevos sistemas para proporcionar barreras de seguridad en las respuestas de voz.

Por otro lado, hemos evaluado GPT‑4o según nuestro marco de preparación⁠ y nuestros compromisos voluntarios⁠. Las evaluaciones en ciberseguridad, QBRN, persuasión y autonomía del modelo muestran que GPT‑4o no supera la calificación de riesgo medio en ninguna de dichas categorías. Esta evaluación incluyó una serie de exámenes humanos y automáticos durante el proceso de entrenamiento del modelo. Probamos las versiones del modelo de mitigación de seguridad tanto previa como posterior, usando prompts y una optimización personalizada para entender mejor las capacidades del modelo.

GPT‑4o también se ha sometido a pruebas rigurosas de un equipo rojo externo con más de 70 expertos⁠ en campos como la psicología social, los sesgos, la imparcialidad y la desinformación para identificar riesgos que se introducen o aumentan con las nuevas modalidades añadidas. Hemos usado estos hallazgos para crear nuestro modelo de actuación de seguridad para reforzar la protección al interactuar con GPT‑4o. Seguiremos mitigando nuevos riesgos a medida que se vayan identificando.

Somos conscientes de que las modalidades de audio de GPT‑4o presentan una serie de riesgos nuevos. Hoy publicamos los inputs de texto e imágenes y los outputs de texto. En las próximas semanas y meses, trabajaremos en la infraestructura técnica, la usabilidad a través del posentrenamiento y la seguridad necesaria para estrenar otras modalidades. Por ejemplo, en el momento de su lanzamiento, los outputs de audio se limitarán a una selección de voces predeterminadas y se regirán por nuestras políticas de seguridad actuales. Compartiremos más información sobre todas las modalidades de GPT‑4o en la próxima tarjeta del sistema.

Gracias a las pruebas y las iteraciones del modelo, hemos observado varias limitaciones en todas sus modalidades, algunas de las cuales se muestran a continuación.

Ejemplos de las limitaciones del modelo

Nos encantaría recibir cualquier comentario que nos ayude a identificar las tareas en las que GPT‑4 Turbo aún supera a GPT‑4o, para que podamos seguir mejorando el modelo.

Sistema de evaluación de riesgos de ChatGPT-4o

^{Actualización: 8 de mayo de 2024}

Categoría de riesgo monitorizado

Nivel de riesgo previo a la mitigación

Determinar el nivel de riesgo previo a la mitigación utilizando técnicas conocidas de provocación de capacidades

Nivel de riesgo posterior a la mitigación

Determinar el nivel de riesgo general tras implementar las medidas de mitigación utilizando técnicas conocidas de provocación de capacidades

Ciberseguridad

Bajo

NRBQ

Bajo

Persuasión

Medio

Autonomía del modelo

Bajo

Como parte de nuestro marco de preparación⁠, llevamos a cabo evaluaciones y actualizamos los sistemas de evaluación de nuestros modelos con regularidad. Solo los modelos con una puntuación de posmitigación media o inferior se acaban implementando. El nivel de riesgo general de un modelo se determina con el valor máximo de riesgo de cualquier categoría. Actualmente, GPT‑4o se considera que supone un riesgo medio tanto antes como después de los esfuerzos de mitigación.

Disponibilidad del modelo

GPT‑4o es nuestro último avance en la expansión de límites del aprendizaje profundo, esta vez con un enfoque hacia la practicidad y la utilidad. Hemos puesto mucho empeño en los últimos dos años, trabajando en la mejora de la eficiencia en cada fase. El primer fruto de esta investigación es que podemos hacer un modelo al nivel de GPT‑4 que llegue a más gente. Las funciones de GPT‑4o se irán lanzando al mercado con regularidad (con acceso extendido a equipos rojos desde hoy).

En este contexto, las funciones de GPT‑4o de texto e imagen se están empezando a implementar hoy mismo en ChatGPT. Estamos haciendo que GPT‑4o esté disponible de forma gratuita, y los usuarios Plus disfrutarán de un límite de mensajes hasta cinco veces más elevado. También lanzaremos una nueva versión del modo de voz con GPT‑4o en fase alfa con ChatGPT Plus en las próximas semanas.

Los desarrolladores también pueden acceder a GPT‑4o en la API como un modelo de texto y de visión. GPT‑4o es el doble de rápido, está a mitad de precio y ofrece límites hasta cinco veces más altos en comparación con GPT‑4 Turbo. Asimismo, tenemos planeado ofrecer apoyo en la API para las nuevas funciones de audio y vídeo de GPT‑4o a un número reducido de socios de confianza en las próximas semanas.

Autores

OpenAI

Ver contribuciones

Hola, GPT‑4o

Funciones del modelo

Demostración de funciones

Evaluaciones del modelo

Evaluación del texto

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tokenización del lenguaje

Modelo de seguridad y limitaciones

Sistema de evaluación de riesgos de ChatGPT-4o

Disponibilidad del modelo

Autores