13 травня 2024 р.

Знайомтесь — GPT‑4o

Ми оголошуємо про випуск GPT‑4o, нашої нової флагманської моделі, здатної надавати аргументацію на основі аудіо, візуальних та текстових матеріалів у режимі реального часу.

Внесок користувачів Спробуйте в ChatGPT Системна карта GPT-4o

Усі відео на цій сторінці відтворюються на швидкості 1x.

Припущення анонсу 13 травня.

Більше ресурсів

Протестувати у Playground Переглянути демонстрації в прямому ефірі

Завантаження…

GPT‑4o (“o” від “omni”) — це крок до більш природної взаємодії людини з комп'ютером: він приймає на введення будь-яку комбінацію тексту, аудіо, зображень та відео та генерує будь-яку комбінацію тексту, аудіо та результатів. Він може реагувати на голосове введення всього за 232 мілісекунди, а в середньому за 320 мілісекунд, що аналогічно часу відповіді людини⁠(відкривається у новому вікні) у розмові. Він має аналогічну з GPT‑4 Turbo продуктивність при роботі з текстом англійською мовою і кодом, є значно ефективнішим при роботі з текстом іншими мовами, при цьому він працює набагато швидше і на 50% дешевше в плані API. Порівняно з існуючими моделями, GPT‑4o особливо добре справляється зі сприйняттям візуальних образів та розумінням звуків.

Можливості моделі

Два GPT‑4o взаємодіють і співають.

Підготовка до співбесіди.

Камінь-ножиці-папір.

Сарказм.

Математика з Салом та Імраном Ханом.

Узгоджена робота двох GPT‑4o.

Вивчення іспанської мови.

Зустріч із ШІ.

Переклад у режимі реального часу.

Колискова.

Швидка розмова.

З днем народження!

Собака.

«Татові» жарти.

GPT‑4o з Енді з BeMyEyes у Лондоні.

Доказ концепції підтримки клієнтів.

До появи GPT‑4o ви могли використовувати голосовий режим⁠ для спілкування з ChatGPT із середньою затримкою в 2,8 секунди (GPT‑3.5) і 5,4 секунди (GPT‑4). Створений для цього голосовий режим був конвеєром з трьох окремих моделей: одна проста модель транскрибує аудіо в текст, GPT‑3.5 або GPT‑4 приймає текст і видає текст, а третя проста модель перетворює текст назад на аудіо. Цей процес означає, що основне джерело інтелекту, GPT‑4, втрачає багато інформації — він не може безпосередньо спостерігати за тоном, кількома шумами, що говорять або фоном, і не може видати сміх, спів або виразити емоції.

У процесі розробки GPT‑4o ми навчили єдину нову модель, яка сама працює з текстом, зображеннями та звуком від початку і до кінця процесу, що означає, що всі вводи та виводи обробляються однією і тією ж нейронною мережею. GPT‑4o — наша перша модель, що поєднує всі ці модальності, і ми тільки починаємо вивчати всі її можливості та обмеження.

Дослідження можливостей

Виберіть зразок:

Введення

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Вихідні дані

Введення

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Вихідні дані

Введення

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Вихідні дані

Оцінювання моделей

Згідно з результатами стандартних тестів, GPT‑4o досягає рівня продуктивності GPT‑4 Turbo в обробці тексту, міркуваннях та програмуванні, встановлюючи нові високі стандарти у багатомовних, аудіо- та візуальних можливостях.

Оцінювання тексту

Токенізація мови

Ці 20 мов були обрані як репрезентативні для компресії нового токенізатора в різних мовних сім'ях

Гуджараті на 4,4x менше токенів (з 145 до 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Телугу на 3,5x менше токенів (з 159 до 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Тамільською на 3,3x менше токенів (з 116 до 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Маратхі на 2,9x менше токенів (з 96 до 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Гінді на 2,9x менше токенів (з 90 до 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Урду на 2,5x менше токенів (з 82 до 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Арабською на 2,0x менше токенів (з 53 до 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Перською на 1,9x менше токенів (з 61 до 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Російською на 1,7x менше токенів (з 39 до 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Корейською на 1,7x менше токенів (з 45 до 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
В'єтнамською на 1,5x менше токенів (з 46 до 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Китайською на 1,4x менше токенів (з 34 до 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Японською на 1,4x менше токенів (з 37 до 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Турецькою на 1,3x менше токенів (з 39 до 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Італійською на 1,2x менше токенів (з 34 до 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Німецькою на 1,2x менше токенів (з 34 до 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Іспанською на 1,1x менше токенів (з 29 до 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Португальською на 1,1x менше токенів (з 30 до 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Французькою на 1,1x менше токенів (з 31 до 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Англійською на 1,1x менше токенів (з 27 до 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Безпека та обмеження моделі

GPT‑4o має вбудовані механізми безпеки для всіх модальностей завдяки таким методам, як фільтрування навчальних даних та уточнення поведінки моделі після навчання. Ми також створили нові системи безпеки для забезпечення обмежувачів для голосового виводу.

Ми оцінили GPT‑4o відповідно до нашої програми готовності⁠ та наших добровільних зобов'язань⁠. Наші оцінки кібербезпеки, CBRN, переконливості та автономності моделі показують, що GPT‑4o не перевищує середнього рівня ризику в жодній із цих категорій. Ця оцінка включала проведення комплексу автоматизованих та людських перевірок протягом усього процесу навчання моделі. Ми протестували версії моделі до та після вжиття заходів щодо безпеки, використовуючи індивідуальне донавчання та підказки, щоб краще розкрити можливості моделі.

GPT‑4o також пройшов обширну зовнішню перевірку за участю понад 70 зовнішніх експертів⁠ у таких сферах, як соціальна психологія, упередженість і справедливість, а також дезінформація, щоб виявити ризики, які можуть бути введені або посилені новими модальностями. Ми використовували ці знання для створення наших заходів безпеки для посилення безпеки взаємодії з GPT‑4o. Ми продовжимо знижувати нові ризики в міру їхнього виявлення.

Ми визнаємо, що аудіомодальності GPT‑4o є різноманітністю нових ризиків. Сьогодні ми публічно представляємо вхідні текстові та графічні дані та вихідні текстові дані. У найближчі тижні та місяці ми працюватимемо над технічною інфраструктурою, зручністю використання після навчання та безпекою, необхідними для випуску інших модальностей. Наприклад, на етапі запуску результати аудіо будуть обмежені набором попередньо встановлених голосів і відповідатимуть нашим існуючим правилам безпеки. Ми надамо додаткову інформацію, що охоплює весь спектр модальностей GPT‑4o, у майбутній системній карті.

У процесі тестування та ітерації з моделлю ми виявили кілька обмежень, присутніх у всіх її модальностях, деякі з яких показані нижче.

Приклади обмежень моделі

Будемо раді отримати відгуки, які допоможуть нам виявити завдання, в яких GPT‑4 Turbo все ще перевершує GPT‑4o, щоб ми могли продовжити вдосконалювати цю модель. Дякуємо!

Оцінка ризиків ChatGPT-4o

^{Оновлено 8 травня 2024 р.}

Відстежувана категорія ризику

Рівень ризику до вжиття заходів

Визначте рівень ризику до вжиття заходів, використовуючи найкращі відомі методи виявлення спроможностей

Рівень ризику після вжиття заходів

Визначте загальний рівень ризику після впровадження заходів з використанням найкращих відомих методів виявлення можливостей.

Кібербезпека

Низький рівень

CBRN

Низький рівень

Переконання

Середній рівень

Автономність моделі

Низький рівень

У рамках нашої програми готовності⁠ ми регулярно проводимо оцінки та оновлюємо оціночні листи для наших моделей. Впроваджуються лише моделі, які отримали оцінку «середньо» або нижче після вжиття заходів. Загальний рівень ризику для моделі визначається найвищим рівнем ризику у будь-якій категорії. Наразі ризик GPT‑4o оцінюється як середній як до, так і після проведення заходів щодо зниження ризику.

Доступність моделі 1

GPT‑4o — наш останній крок у розширенні меж глибокого навчання, цього разу у напрямі практичного застосування. За останні два роки ми доклали чимало зусиль для підвищення ефективності кожного рівня стека. Як перший результат цього дослідження, ми змогли зробити модель рівня GPT‑4 доступною для більш широкої аудиторії. Можливості GPT‑4o впроваджуватимуться ітеративно (з розширеним доступом для «червоних команд», починаючи з сьогоднішнього дня).

Можливості GPT‑4o по роботі з текстом та зображеннями починають впроваджуватись сьогодні у ChatGPT. Ми надаємо GPT‑4o у безкоштовному тарифі та для користувачів Plus зі збільшенням ліміту повідомлень до 5 разів. Найближчими тижнями випустимо нову версію голосового режиму з GPT‑4o в альфа-версії у складі ChatGPT Plus.

Розробники тепер також можуть отримати доступ до GPT‑4o в API як до текстової та візуальної моделі. GPT‑4o вдвічі швидше, коштує вдвічі дешевше і має в 5 разів вищі ліміти запитів порівняно з GPT‑4 Turbo. Ми плануємо запустити підтримку нових аудіо- та відеоможливостей GPT‑4o для невеликої групи надійних партнерів в API у найближчі тижні.

Автори

OpenAI

Переглянути внесок користувачів

Знайомтесь — GPT‑4o

Можливості моделі

Дослідження можливостей

Оцінювання моделей

Оцінювання тексту

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Токенізація мови

Безпека та обмеження моделі

Оцінка ризиків ChatGPT-4o

Доступність моделі 1

Автори