13 de mayo de 2024

Hola, GPT‑4o

Anunciamos GPT‑4o, nuestro nuevo modelo insignia con capacidad de razonamiento en tiempo real a través de audio, imágenes y texto.

Contribuciones Pruébalo en ChatGPT Tarjeta del sistema GPT-4o

Todos los videos de esta página van a velocidad normal (x1).

Adivina el anuncio del 13 de mayo.

Más información

Pruébalo en Playground Ve nuevamente las demostraciones en vivo

Cargando...

GPT‑4o (“o” por “omni”) es un paso hacia una interacción entre humano y computadora mucho más natural; acepta como entrada cualquier combinación de texto, imagen y video y genera como salida cualquier combinación de texto, audio e imagen. Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo cual es similar al tiempo de respuesta humano⁠(se abre en una nueva ventana) en una conversación. Tiene un rendimiento similar a GPT‑4 Turbo en texto en inglés y código, con una mejora significativa en textos en idiomas diferentes al inglés, al mismo tiempo que es mucho más rápido y 50 % más económico en la API. GPT‑4o es especialmente mejor en la comprensión de imágenes y audio en comparación con los modelos existentes.

Capacidades del modelo

Dos GPT‑4os interactuando y cantando.

Preparación para las entrevistas.

Piedra, papel o tijeras.

Sarcasmo.

Matemáticas con Sal e Imran Khan.

Dos GPT‑4os armonizando.

Señala y aprende español.

Conociendo la IA.

Traducción en tiempo real.

Canción de cuna.

Hablando más rápido.

Feliz cumpleaños.

Perro.

Chistes de papá.

GPT‑4o con Andy, de BeMyEyes en Londres.

Prueba de concepto de servicio al cliente.

Antes de GPT‑4o, podías utilizar el Modo de voz⁠ para hablar con ChatGPT con latencias de 2,8 segundos (GPT‑3.5) y 5,4 segundos (GPT‑4), en promedio. Para lograr esto, el Modo de voz es un proceso de tres modelos separados: un modelo simple traduce el audio a texto, GPT‑3.5 o GPT‑4 procesa el texto y produce texto y un tercer modelo simple convierte dicho texto en audio. Este proceso significa que la fuente principal de inteligencia, GPT‑4, pierde mucha información; no puede observar directamente el tono si hay varios hablantes o ruidos de fondo, y no puede producir risa, canto ni expresar emociones.

Con GPT‑4o, entrenamos un solo modelo nuevo de extremo a extremo en texto, imagen y audio, lo que significa que todas las entradas y salidas se procesan por la misma red neural. Debido a que GPT‑4o es nuestro primer modelo que combina todas estas modalidades, estamos apenas arañando la superficie de lo que el modelo puede hacer y sus límites.

Demostración de funciones

Seleccionar muestra:

Entrada

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Salida

Entrada

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Salida

Entrada

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Salida

Evaluaciones del modelo

En mediciones con comparativos tradicionales, GPT‑4o alcanza un nivel similar de rendimiento al de GPT‑4 Turbo en texto, razonamiento e inteligencia de programación, al mismo tiempo que establece nuevos máximos en capacidades multilingües, de audio y de visión.

Evaluación de texto

Tokenización de idiomas

Se eligieron estos 20 idiomas como representativos de la compresión del nuevo tokenizador en diferentes familias de idiomas

Guyaratí 4.4 veces menos tokens (de 145 a 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Télugu 3.5 veces menos tokens (de 159 a 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamil 3.3 veces menos tokens (de 116 a 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marati 2.9 veces menos tokens (de 96 a 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi 2.9 veces menos tokens (de 90 a 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu 2.5 veces menos tokens (de 82 a 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Árabe 2.0 veces menos tokens (de 53 a 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persa 1.9 veces menos tokens (de 61 a 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Ruso 1.7 veces menos tokens (de 39 a 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Coreano 1.7 veces menos tokens (de 45 a 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamita 1.5 veces menos tokens (de 46 a 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Chino 1.4 veces menos tokens (de 34 a 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japonés 1.4 veces menos tokens (de 37 a 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turco 1.3 veces menos tokens (de 39 a 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italiano 1.2 veces menos tokens (de 34 a 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Alemán 1.2 veces menos tokens (de 34 a 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Español 1.1 veces menos tokens (de 29 a 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portugués 1.1 veces menos tokens (de 30 a 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Francés 1.1 veces menos tokens (de 31 a 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Inglés 1.1 veces menos tokens (de 27 a 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Seguridad y límites del modelo

GPT‑4o tiene seguridad integrada por diseño en todas las modalidades, a través de técnicas como filtrado de datos de entrenamiento y afinación del comportamiento del modelo mediante entrenamiento posterior. También hemos creado nuevos sistemas de seguridad para proporcionar salvaguardas en respuestas de audio.

Hemos evaluado GPT‑4o de acuerdo con nuestro marco de preparación⁠ y de acuerdo con nuestros compromisos voluntarios⁠. Nuestras evaluaciones de ciberseguridad, NRBQ, persuasión y autonomía del modelo muestran que GPT‑4o no supera una calificación de riesgo medio en ninguna de estas categorías. Esta evaluación implicó la ejecución de un conjunto de evaluaciones automáticas y humanas a lo largo del proceso de entrenamiento del modelo. Probamos tanto las versiones previas a la mitigación de riesgos como las posteriores a la mitigación de riesgos del modelo, utilizando ajustes finos e instrucciones personalizadas, para obtener una mejor comprensión de las capacidades del modelo.

GPT‑4o también se ha sometido a procesos de equipo rojo externos exhaustivos, con más de 70 expertos externos⁠ en ámbitos como psicología social, sesgo e imparcialidad y desinformación, para identificar los riesgos introducidos o amplificados por las modalidades recién añadidas. Utilizamos estos aprendizajes para desarrollar nuestras intervenciones de seguridad para mejorar la seguridad al interactuar con GPT‑4o. Seguiremos mitigando nuevos riesgos conforme se vayan descubriendo.

Reconocemos que las modalidades de audio de GPT‑4o plantean una variedad de nuevos riegos. Hoy estamos lanzando públicamente entradas de texto e imágenes y salidas de texto. En las próximas semanas y meses, estaremos trabajando en la infraestructura técnica, usabilidad a través del entrenamiento posterior y la seguridad necesaria para lanzar las otras modalidades. Por ejemplo, al momento de su lanzamiento, las salidas de audio estarán limitadas a una selección de voces predeterminadas y cumplirán nuestras políticas de seguridad existentes. Compartiremos detalles adicionales que abordan el rango completo de las modalidades de GPT‑4o en la próxima tarjeta de sistema.

A través de nuestras pruebas e iteraciones con el modelo hemos observado muchas limitantes que existen dentro de las modalidades del modelo, algunas de las cuales se ilustran a continuación.

Ejemplos de las limitaciones del modelo

Nos encantaría recibir opiniones que nos ayuden a identificar las tareas en las que GPT‑4 Turbo sigue superando a GPT‑4o, para que podamos seguir mejorando el modelo.

Tarjeta de puntuación de riesgo de ChatGPT-4o

^{Actualizado el 8 de mayo de 2024}

Categoría de riesgo monitoreado

Nivel de riesgo previo a la mitigación

Determina el nivel de riesgo previo a la mitigación utilizando las técnicas más conocidas para la obtención de capacidades

Nivel de riesgo posterior a la mitigación

Determina el nivel de riesgo general después de implementar las mitigaciones utilizando las técnicas más conocidas para la obtención de capacidades

Ciberseguridad

Bajo

NRBQ

Bajo

Persuasión

Medio

Autonomía del modelo

Bajo

Como parte de nuestro marco de preparación⁠, realizamos evaluaciones regulares y actualizamos las tarjetas de puntuación de nuestros modelos. Únicamente se despliegan los modelos con una puntuación posterior a la mitigación de “medio” o más baja. El nivel de riesgo general de un modelo se determina por el nivel de riesgo más alto en cualquier categoría. Actualmente, GPT‑4o está evaluado con un riesgo medio tanto antes como después de los esfuerzos de mitigación.

Disponibilidad del modelo

GPT‑4o es nuestro paso más reciente para ampliar los límites del aprendizaje profundo, esta vez en la dirección de la usabilidad práctica. Dedicamos muchos esfuerzos en los últimos dos años trabajando en mejoras de eficiencia en cada capa de la pila. Como uno de los primeros frutos de esta investigación, logramos hacer que un modelo de nivel GPT‑4 esté disponible de manera mucho más generalizada. Las capacidades de GPT‑4o se implementarán de forma iterativa (con acceso extendido a equipos rojos empezando hoy mismo).

Las capacidades de texto e imagen de GPT‑4o se estarán implementando en ChatGPT hoy mismo. Estamos dando acceso a GPT‑4o en el nivel gratuito y a los usuarios Plus con límites de mensajes de hasta 5 veces más. En las próximas semanas lanzaremos una nueva versión del Modo de voz con GPT‑4o en fase alfa dentro de ChatGPT Plus.

Los desarrolladores también pueden acceder ahora a GPT‑4o en la API como un modelo de texto y visión. GPT‑4o es dos veces más rápido, cuesta la mitad y tiene límites de tasa 5 veces más altos en comparación con GPT‑4 Turbo. En las próximas semanas, tenemos previsto lanzar en la API el soporte para las nuevas capacidades de audio y video de GPT‑4o para un pequeño grupo de socios de confianza.

Autores

OpenAI

Conoce a los contribuidores

Hola, GPT‑4o

Capacidades del modelo

Demostración de funciones

Evaluaciones del modelo

Evaluación de texto

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tokenización de idiomas

Seguridad y límites del modelo

Tarjeta de puntuación de riesgo de ChatGPT-4o

Disponibilidad del modelo

Autores