Знакомьтесь — GPT‑4o
Мы объявляем о выпуске GPT‑4o, нашей новой флагманской модели, способной давать аргументацию на основе аудио, визуальных и текстовых материалов в режиме реального времени.
Предположение анонса 13 мая.
GPT‑4o («o» от «omni») — это шаг к более естественному взаимодействию человека с компьютером: он принимает на ввод любую комбинацию текста, аудио, изображений и видео и генерирует любую комбинацию текста, аудио и результатов. Он может реагировать на голосовой ввод всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично времени ответа человека(открывается в новом окне) в разговоре. Он обладает аналогичной с GPT‑4 Turbo производительностью при работе с текстом на английском языке и кодом, оказываясь значительно эффективнее при работе с текстом на других языках, при этом он работает гораздо быстрее и на 50% дешевле в плане API. По сравнению с существующими моделями, GPT‑4o особенно хорошо справляется с восприятием зрительных образов и пониманием звуков.
Возможности модели
Два GPT‑4o взаимодействуют и поют.
Подготовка к собеседованию.
Камень-ножницы-бумага.
Сарказм.
Математика с Салом и Имраном Ханом.
Согласованная работа двух GPT‑4o.
Изучение испанского языка.
Встреча с ИИ.
Перевод в реальном времени.
Колыбельная.
Быстрая речь.
С днём рождения!
Собака.
«Батины» шутки.
GPT‑4o с Энди из BeMyEyes в Лондоне.
Подтверждение концепции службы поддержки клиентов.
До появления GPT‑4o вы могли использовать голосовой режим для общения с ChatGPT со средней задержкой в 2,8 секунды (GPT‑3.5) и 5,4 секунды (GPT‑4). Созданный для этого голосовой режим представлял собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT‑3.5 или GPT‑4 принимает текст и выдает текст, а третья простая модель преобразует текст назад в аудио. Этот процесс означает, что основной источник интеллекта, GPT‑4, теряет много информации — он не может непосредственно наблюдать за тоном, несколькими говорящими или фоновыми шумами и не может выдать смех, пение или выражение эмоций.
В разработке GPT‑4o мы обучили единую новую модель, которая сама работает с текстом, изображениями и звуком от начала и до конца процесса, что означает, что все вводы и выводы обрабатываются одной и той же нейронной сетью. GPT‑4o — наша первая модель, объединяющая все эти модальности, и мы только начинаем изучать все ее возможности и ограничения.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Согласно результатам стандартных тестов, GPT‑4o достигает уровня производительности GPT‑4 Turbo в обработке текста, рассуждениях и программировании, устанавливая новые высокие стандарты в многоязычных, аудио- и визуальных возможностях.
Оценка текста
These 20 languages were chosen as representative of the new tokenizer's compression across different language families
Гуджарати: в 4,4 раза меньше токенов (с 145 до 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Телугу: в 3,5 раза меньше токенов (с 159 до 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Тамильский: в 3,3 раза меньше токенов (с 116 до 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Маратхи: в 2,9 раза меньше токенов (с 96 до 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Хинди: в 2,9 раза меньше токенов (с 90 до 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Урду: в 2,5 раза меньше токенов (с 82 до 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Арабский: в 2,0 раза меньше токенов (с 53 до 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Персидский: в 1,9 раза меньше токенов (с 61 до 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Русский: в 1,7 раза меньше токенов (с 39 до 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Корейский: в 1,7 раза меньше токенов (с 45 до 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Вьетнамский: в 1,5 раза меньше токенов (с 46 до 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Китайский: в 1,4 раза меньше токенов (с 34 до 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Японский: в 1,4 раза меньше токенов (с 37 до 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Турецкий: в 1,3 раза меньше токенов (с 39 до 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Итальянский: в 1,2 раза меньше токенов (с 34 до 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Немецкий: в 1,2 раза меньше токенов (с 34 до 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Испанский: в 1,1 раза меньше токенов (с 29 до 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Португальский: в 1,1 раза меньше токенов (с 30 до 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Французский: в 1,1 раза меньше токенов (с 31 до 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Английский: в 1,1 раза меньше токенов (с 27 до 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o has safety built-in by design across modalities, through techniques such as filtering training data and refining the model’s behavior through post-training. We have also created new safety systems to provide guardrails on voice outputs.
We’ve evaluated GPT‑4o according to our Preparedness Framework and in line with our voluntary commitments. Our evaluations of cybersecurity, CBRN, persuasion, and model autonomy show that GPT‑4o does not score above Medium risk in any of these categories. This assessment involved running a suite of automated and human evaluations throughout the model training process. We tested both pre-safety-mitigation and post-safety-mitigation versions of the model, using custom fine-tuning and prompts, to better elicit model capabilities.
GPT‑4o has also undergone extensive external red teaming with 70+ external experts in domains such as social psychology, bias and fairness, and misinformation to identify risks that are introduced or amplified by the newly added modalities. We used these learnings to build out our safety interventions in order to improve the safety of interacting with GPT‑4o. We will continue to mitigate new risks as they’re discovered.
We recognize that GPT‑4o’s audio modalities present a variety of novel risks. Today we are publicly releasing text and image inputs and text outputs. Over the upcoming weeks and months, we’ll be working on the technical infrastructure, usability via post-training, and safety necessary to release the other modalities. For example, at launch, audio outputs will be limited to a selection of preset voices and will abide by our existing safety policies. We will share further details addressing the full range of GPT‑4o’s modalities in the forthcoming system card.
Through our testing and iteration with the model, we have observed several limitations that exist across all of the model’s modalities, a few of which are illustrated below.
Примеры ограничений модели
Мы будем рады получить отзывы, которые помогут нам выявить те задачи, в которых GPT‑4 Turbo все еще превосходит GPT‑4o, чтобы мы могли продолжить совершенствовать эту модель. Спасибо!
Обновлено 8 мая 2024 г.
В рамках нашей системы готовности мы регулярно проводим оценки и обновляем оценочные листы для наших моделей. Внедряются только модели, получившие оценку «средне» или ниже после принятия мер. Общий уровень риска для модели определяется самым высоким уровнем риска в любой категории. В настоящее время риск GPT‑4o оценивается как средний как до, так и после проведения мероприятий по снижению риска.
GPT‑4o — наш последний шаг в расширении границ глубокого обучения, на этот раз в направлении практического применения. За последние два года мы приложили много усилий для повышения эффективности на каждом уровне стека. В качестве первого результата этого исследования мы смогли сделать модель уровня GPT‑4 доступной для более широкой аудитории. Возможности GPT‑4o будут внедряться итеративно (с расширенным доступом для «красных команд», начиная с сегодняшнего дня).
Возможности GPT‑4o по работе с текстом и изображениями начинают внедряться сегодня в ChatGPT. Мы предоставляем GPT‑4o в бесплатном тарифе и для пользователей Plus с увеличением лимита сообщений до 5 раз. В ближайшие недели мы выпустим новую версию голосового режима с GPT‑4o в альфа-версии в составе ChatGPT Plus.
Разработчики теперь также могут получить доступ к GPT‑4o в API как к текстовой и визуальной модели. GPT‑4o в 2 раза быстрее, стоит вдвое дешевле и имеет в 5 раз более высокие лимиты запросов по сравнению с GPT‑4 Turbo. Мы планируем запустить поддержку новых аудио- и видеовозможностей GPT‑4o для небольшой группы надежных партнёров в API в ближайшие недели.