13 май 2024 г.

Здравейте GPT‑4o

Обявяваме GPT‑4o, новият ни водещ модел, който може да разсъждава върху аудио, визия и текст в реално време.

Приноси Опитайте в ChatGPT Карта на системата на GPT-4o

Всички видеоклипове на тази страница са в 1x реално време.

Гадаене за съобщението на 13-ти май.

Още ресурси

Опитайте в Playground Гледайте отново демото на живо

Зареждане…

GPT‑4o („o“ от „omni“) е стъпка към много по-естествено взаимодействие между човек и компютър – приема като вход всяка комбинация от текст, аудио, изображение и видео и генерира всяка комбинация от текст, аудио и изображение като изход. Той може да реагира на аудио въвеждания само за 232 милисекунди, със средно време от 320 милисекунди, което е подобно на времето за отговор на човек⁠(отваря се в нов прозорец) в разговор. Този модел съответства на производителността на GPT‑4 Turbo при текст на английски език и код, като има значително подобрение при текст на езици, различни от английския, и същевременно е много по-бърз и с 50% по-евтин в API. GPT‑4o е особено добър в разбирането на визията и аудиото в сравнение със съществуващите модели.

Възможности на модела

Два GPT‑4o си взаимодействат и пеят.

Подготовка за интервю.

Камък, хартия, ножица.

Сарказъм.

Математика със Сал и Имран Хан.

Хармонизиране на два GPT‑4o.

Посочете и научете испански език.

Среща с ИИ.

Превод в реално време.

Приспивна песен.

Говорете по-бързо.

Честит рожден ден.

Куче.

Вицове за бащи.

GPT‑4o с Анди, от BeMyEyes в Лондон.

Доказателство за концепция за обслужване на клиенти.

Преди GPT‑4o можехте да използвате гласов режим⁠ да говорите с ChatGPT със забавяне от 2,8 секунди (GPT‑3.5) и средно 5,4 секунди (GPT‑4). За да се постигне това, гласов режим е конвейер от три отделни модела: един прост модел транскрибира аудио в текст, GPT‑3.5 или GPT‑4 приема текст и дава изход, а трети прост модел преобразува този текст назад в аудио. Този процес означава, че основният източник на интелигентност, GPT‑4, губи много информация – той не може директно да наблюдава тон, множество говорители или фонови шумове и не може да издава изход, като смях, пеене или да изразява емоции.

С GPT‑4o обучихме един нов модел от край до край за текст, зрение и аудио, което означава, че всички входове и изходи се обработват от една и съща невронна мрежа. Тъй като GPT‑4o е първият ни модел, който съчетава всички тези модалности, все още само се опитваме да изследваме възможностите на модела и неговите ограничения.

Изследване на възможностите

Изберете проба:

Въвеждане

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Изход

Въвеждане

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Изход

Въвеждане

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Изход

Оценки на модела

При измерването на традиционните еталони GPT‑4o постига производителност на нивото на GPT‑4 Turbo в областта на текста, разсъжденията и интелигентността при кодиране, като същевременно поставя нови високи цели за многоезични, аудио и визуални възможности.

Оценка на текст

Токенизация на езика

Тези 20 езика бяха избрани като представителни за компресията на новия токенизатор в различни езикови семейства

Гуджарати 4,4 пъти по-малко токени (от 145 на 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Телугу 3,5 пъти по-малко токени (от 159 на 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Тамил 3,3 пъти по-малко токени (от 116 до 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Маратхи 2,9 пъти по-малко токени (от 96 на 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Хинди 2,9x по-малко токени (от 90 на 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Урду 2,5 пъти по-малко токени (от 82 на 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Арабски 2,0 пъти по-малко токени (от 53 на 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Персийски 1,9 пъти по-малко токени (от 61 на 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Руски 1,7 пъти по-малко токени (от 39 до 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Корейски 1,7 пъти по-малко токени (от 45 до 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Виетнамски 1,5 пъти по-малко токени (от 46 до 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Китайски 1,4 пъти по-малко токени (от 34 на 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Японски 1,4 пъти по-малко токени (от 37 на 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Турски 1,3 пъти по-малко токени (от 39 на 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Италиански 1,2 пъти по-малко токени (от 34 до 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Немски 1,2 пъти по-малко токени (от 34 на 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Испански 1,1 пъти по-малко токени (от 29 на 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Португалски 1,1 пъти по-малко токени (от 30 на 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Френски 1,1 пъти по-малко токени (от 31 на 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Английски 1.1x по-малко токени (от 27 на 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Ограничения и безопасност на модела

GPT‑4o има вградена безопасност при всички модалности чрез техники като филтриране на данните за обучение и усъвършенстване на поведението на модела чрез последващо обучение. Създадохме и нови системи за безопасност, които осигуряват ограничения на гласовите изходи.

Оценихме GPT‑4o според нашата рамка за готовност⁠ и в съответствие с нашите доброволни ангажименти⁠. Нашите оценки на киберсигурността, CBRN, убеждаването и автономността на модела показват, че GPT‑4o не се отличава със среден риск в нито една от тези категории. Тази оценка включваше изпълнение на набор от автоматизирани и човешки оценки през целия процес на обучение на модела. Тествахме версиите на модела преди и след смекчаване на безопасността, като използвахме прецизни настройки и подкани, за да изясним по-добре възможностите на модела.

GPT‑4o също така е преминал през обширна външна проверка с „червен екип“ от над 70 външни експерти⁠ в домейни като социална психология, пристрастност и справедливост, както и дезинформация, за да се идентифицират рисковете, които се въвеждат или усилват от новодобавените модалности. Използвахме тези знания, за да изградим нашите интервенции за безопасност с цел подобряване на безопасността при взаимодействие с GPT‑4o. Ще продължим да смекчаваме новите рискове, когато бъдат открити.

Ние признаваме, че аудио модалностите на GPT‑4o крият различни нови рискове. Днес публично оповестяваме входните данни и изходните данни за текст и изображение. През следващите седмици и месеци ще работим върху техническата инфраструктура, използваемостта след обучението и безопасността, необходими за пускането на другите модалности. Например, при стартирането аудио изходите ще бъдат ограничени до избор от предварително зададени гласове и ще се съобразяват с нашите съществуващи политики за безопасност. Ще споделим допълнителни подробности, обхващащи пълния набор от модалности на GPT‑4o в предстоящата карта на системата.

По време на тестването и итерациите с модела забелязахме няколко ограничения, които съществуват във всички модалности на модела, като някои от тях са илюстрирани по-долу.

Примери за ограничения на модела

Бихме се радвали да получим обратна връзка, за да идентифицираме задачите, при които GPT‑4 Turbo все още превъзхожда GPT‑4o, така че да можем да продължим да подобряваме модела. Благодарим ви.

Карта за оценка на риска на ChatGPT-4o

^{Актуализирано на 8 май 2024 г.}

Категория на проследяван риск

Ниво на риск преди смекчаващи мерки

Определете нивото на риск преди смекчаване, използвайки най-добрите известни техники за извличане на способности

Ниво на риск след смекчаващи мерки

Определете общото ниво на риск след прилагане на мерките за смекчаване, използвайки най-добрите известни техники за извличане на възможности

Киберсигурност

Ниска

CBRN

Ниска

Убеждаване

Средно

Автономност на модела

Ниска

Като част от нашата рамка за готовност⁠ извършваме редовни оценки и актуализираме картите за оценка на нашите модели. Внедряват се само модели с оценка „среден“ или по-ниска след смекчаване. Общото ниво на риск за даден модел се определя от най-високото ниво на риск във всяка категория. Понастоящем GPT‑4o се оценява като средно рисков както преди, така и след усилията за смекчаване.

Наличност на модел 1

GPT‑4o е нашата последна стъпка в разширяването на границите на дълбоко обучение, този път в посока на практическата използваемост. През последните две години положихме много усилия за подобряване на ефективността на всяко ниво на стека. Като първи плод на това изследване можем да направим модела на ниво GPT‑4 много по-широко достъпен. Възможностите на GPT‑4o ще бъдат въвеждани итеративно (с разширен достъп на „червен екип“ от днес).

Възможностите за текст и изображения на GPT‑4o започват да се използват от днес в ChatGPT. Ние правим GPT‑4o достъпен в безплатното ниво и за потребителите на Plus с до 5 пъти по-високи лимити за съобщения. Ще пуснем нова версия на Гласов режим с GPT‑4o в алфа в рамките на ChatGPT Plus през следващите седмици.

Разработчиците вече могат да получат достъп до GPT‑4o и чрез API като модел на текст и визия. GPT‑4o е два пъти по-бърз, наполовина по-евтин и има пет пъти по-високи лимити на скоростта в сравнение с GPT‑4 Turbo. Планираме да пуснем поддръжка за новите аудио и видео възможности на GPT‑4o за малка група от доверени партньори в API през следващите седмици.

Автори

OpenAI

Преглед на сътрудниците

Здравейте GPT‑4o

Възможности на модела

Изследване на възможностите

Оценки на модела

Оценка на текст

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Токенизация на езика

Ограничения и безопасност на модела

Карта за оценка на риска на ChatGPT-4o

Наличност на модел 1

Автори