2024 ж. 13 мамыр

Сәлем, GPT‑4o

Біз аудио, көру және мәтін арасында нақты уақытта ой қорыта алатын жаңа негізгі моделіміз GPT‑4o‑ны таныстырамыз.

Үлестер ChatGPT-те көріңіз GPT-4o жүйе картасы

Бұл беттегі барлық бейнелер 1x нақты уақытта.

13 мамырдағы хабарландыруды болжау.

Көбірек ресурстар

Сынақ алаңында көріңіз Тікелей демоларды қайта қарау

Жүктелуде…

GPT‑4o («omni» сөзіндегі «o») — адам мен компьютердің әлдеқайда табиғи өзара әрекеттесуіне жасалған қадам: ол мәтін, аудио, сурет және бейненің кез келген комбинациясын кіріс ретінде қабылдап, мәтін, аудио және сурет шығыстарының кез келген комбинациясын жасайды. Ол аудио кірістерге небәрі 232 миллисекундта, орта есеппен 320 миллисекундта жауап бере алады, бұл әңгімедегі адамның жауап беру уақытына⁠(жаңа терезеде ашылады) ұқсас. Ол ағылшын тіліндегі мәтін мен код бойынша GPT‑4 Turbo өнімділігіне тең, ағылшын емес тілдердегі мәтінде айтарлықтай жақсарған, сонымен қатар API-де әлдеқайда жылдамырақ және 50% арзанырақ. GPT‑4o әсіресе қолданыстағы модельдермен салыстырғанда көру мен аудионы түсінуде жақсырақ.

Модель мүмкіндіктері

Two GPT‑4os interacting and singing.

Interview prep.

Rock Paper Scissors.

Sarcasm.

Math with Sal and Imran Khan.

Two GPT‑4os harmonizing.

Point and learn Spanish.

Meeting AI.

Real-time translation.

Lullaby.

Talking faster.

Happy Birthday.

Dog.

Dad jokes.

GPT‑4o with Andy, from BeMyEyes in London.

Customer service proof of concept.

GPT‑4o‑ға дейін сіз ChatGPT‑пен орташа кідіріспен 2.8 секунд (GPT‑3.5) және 5.4 секунд (GPT‑4) сөйлесу үшін Дауыс режимін⁠ пайдалана алатын едіңіз. Бұған қол жеткізу үшін Дауыс режимі үш бөлек модельден тұратын құбыр болып табылады: бір қарапайым модель аудионы мәтінге транскрипциялайды, GPT‑3.5 немесе GPT‑4 мәтінді қабылдап, мәтін шығарады, ал үшінші қарапайым модель сол мәтінді қайтадан аудиоға айналдырады. Бұл процесс интеллектінің негізгі көзі GPT‑4 көп ақпаратты жоғалтатынын білдіреді — ол интонацияны, бірнеше сөйлеушіні немесе фондық шуды тікелей бақылай алмайды, сондай-ақ күлкі, ән айту не эмоцияны білдіре алмайды.

GPT‑4o көмегімен біз мәтін, көру және аудио бойынша басынан аяғына дейін бір жаңа модельді үйреттік, яғни барлық кірістер мен шығыстарды бір нейрондық желі өңдейді. GPT‑4o осы модальдықтардың бәрін біріктіретін алғашқы моделіміз болғандықтан, біз модель не істей алатынын және оның шектеулерін зерттеудің әлі бастапқы кезеңіндеміз.

Мүмкіндіктерді зерттеу

Үлгіні таңдаңыз:

Енгізу

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Нәтиже

Енгізу

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Нәтиже

Енгізу

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Нәтиже

Модель бағалаулары

Дәстүрлі бенчмарктер бойынша өлшенгенде, GPT‑4o мәтін, ой қорыту және код жазу интеллекті бойынша GPT‑4 Turbo деңгейіндегі нәтижеге жетеді, сонымен бірге көптілділік, аудио және көру мүмкіндіктері бойынша жаңа жоғары көрсеткіштер орнатады.

Мәтінді бағалау

Тілдік токенизация

Бұл 20 тіл жаңа токенизатордың әртүрлі тіл отбасыларындағы сығуын көрсету үшін таңдалды

Гуджарати тілінде токен 4.4 есе аз (145-тен 33-ке дейін)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Телугу тілінде токен 3.5x аз (159-дан 45-ке дейін)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Тамил тілінде токен саны 3.3 есе азайды (116-дан 35-ке дейін)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Маратхи тілінде токендер саны 2.9 есе аз (96-дан 33-ке дейін)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Хинди тілінде токендер саны 2.9 есе аз (90-нан 31-ге дейін).	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Урду тілінде токен 2.5x аз (82-ден 33-ке дейін)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Араб тілі 2.0x аз токен (53-тен 26-ға дейін)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Парсы тілі 1.9 есе аз токендер (61-ден 32-ге дейін)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Орыс тілі 1.7x аз токен (39-дан 23-ке дейін)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Корей тілі 1.7 есе аз токендер (45-тен 27-ге дейін)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Вьетнам тілі 1.5x аз токен (46-дан 30-ға дейін)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Қытай тілі 1.4x аз токен (34-тен 24-ке дейін)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Жапон тілінде 1.4x аз токендер (37-ден 26-ға дейін)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Түрік тілі 1.3x аз токен (39-дан 30-ға дейін)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Итальян тілі 1.2 есе аз токен (34-тен 28-ге дейін)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Неміс тілі 1.2x аз токен (34-тен 29-ға дейін)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Испан тілінде токен саны 1.1 есе азайды (29-дан 26-ға дейін)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Португал тілі 1,1 есе аз токендер (30-дан 27-ге дейін)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Француз тілінде 1.1x аз токен (31-ден 28-ге дейін)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Ағылшын 1.1x аз токен (27-ден 24-ке)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Модель қауіпсіздігі мен шектеулері

GPT‑4o‑да қауіпсіздік модальдықтар бойынша жобалау сәтінен бастап енгізілген; бұл оқыту деректерін сүзгілеу және модель мінез-құлқын посттренинг арқылы жетілдіру сияқты тәсілдер арқылы іске асады. Сондай-ақ біз дауыс шығыстары үшін қорғаныс шектеулерін қамтамасыз ететін жаңа қауіпсіздік жүйелерін жасадық.

Біз GPT‑4o‑ны Дайындық шеңберіне⁠ және біздің ерікті міндеттемелерімізге⁠ сәйкес бағаладық. Киберқауіпсіздік, CBRN, иландыру және модель автономиясы бойынша бағалауларымыз GPT‑4o‑ның осы санаттардың ешқайсысында Орташа тәуекелден жоғары бағаланбайтынын көрсетті. Бұл бағалау модельді оқыту процесі бойы автоматтандырылған және адам жүргізетін бағалаулар жиынтығын орындауды қамтыды. Модель мүмкіндіктерін жақсырақ анықтау үшін біз қауіпсіздік шараларына дейінгі де, кейінгі де нұсқаларын, арнайы fine-tuning пен көмексөздарды пайдаланып сынадық.

GPT‑4o сондай-ақ жаңадан қосылған модальдықтар енгізетін немесе күшейтетін тәуекелдерді анықтау үшін әлеуметтік психология, біржақтылық пен әділдік, сондай-ақ жалған ақпарат сияқты салалардағы 70-тен астам сыртқы сарапшымен⁠ кең ауқымды сыртқы редтимингтен өтті. Біз бұл сабақтарды GPT‑4o‑мен өзара әрекеттесудің қауіпсіздігін арттыру үшін қауіпсіздік араласуларымызды құруда пайдаландық. Жаңа тәуекелдер анықталған сайын, оларды азайтуды жалғастырамыз.

GPT‑4o‑ның аудио модальдықтары бірқатар жаңа тәуекелдер тудыратынын мойындаймыз. Бүгін біз мәтін және сурет кірістерін, сондай-ақ мәтін шығыстарын жария түрде шығарып отырмыз. Алдағы апталар мен айларда басқа модальдықтарды шығару үшін қажетті техникалық инфрақұрылым, посттренинг арқылы қолайлылық және қауіпсіздік бағытында жұмыс істейміз. Мысалы, іске қосылған сәтте аудио шығыстары алдын ала орнатылған дауыстардың белгілі бір таңдауымен шектеледі және қолданыстағы қауіпсіздік саясаттарымызға бағынады. GPT‑4o модальдықтарының толық ауқымын қамтитын қосымша мәліметтерді алдағы жүйе картасында бөлісеміз.

Модельмен тестілеу және итерация барысында біз модельдің барлық модальдықтарында кездесетін бірнеше шектеуді байқадық, олардың бірқатары төменде көрсетілген.

Examples of model limitations

We would love feedback to help identify tasks where GPT‑4 Turbo still outperforms GPT‑4o, so we can continue to improve the model.

ChatGPT-4o Risk Scorecard

^{2024 жылғы 8 мамырда жаңартылды}

Қадағаланатын тәуекел санаты

Тәуекелді азайтуға дейінгі тәуекел деңгейі

Ең жақсы белгілі мүмкіндіктерді айқындау тәсілдерін пайдаланып, қорғаныс шаралары енгізілгенге дейінгі тәуекел деңгейін анықтаңыз.

Тәуекелді азайтудан кейінгі тәуекел деңгейі

Ең жақсы белгілі қабілеттерді айқындау тәсілдерін пайдаланып, қорғаныс шаралары енгізілгеннен кейін жалпы тәуекел деңгейін анықтаңыз

Киберқауіпсіздік

Төмен

CBRN

Төмен

Иландыру

Орташа

Модельдің дербестігі

Төмен

Дайындық шеңберінің⁠ бір бөлігі ретінде біз тұрақты бағалаулар жүргізіп, модельдеріміз үшін бағалау карталарын жаңартып отырамыз. Тек қауіпсіздік шараларынан кейінгі бағасы «орташа» немесе одан төмен модельдер ғана енгізіледі. Модель үшін жалпы тәуекел деңгейі кез келген санаттағы ең жоғары тәуекел деңгейімен анықталады. Қазіргі уақытта GPT‑4o қауіпсіздік шараларына дейін де, кейін де орташа тәуекел ретінде бағаланған.

Model availability

GPT‑4o — терең оқытудың шекараларын кеңейтудегі ең соңғы қадамымыз, бұл жолы практикалық қолдануға ыңғайлылық бағытына қарай. Соңғы екі жылда біз стектің әр қабатында тиімділікті арттыруға көп күш жұмсадық. Осы зерттеудің алғашқы жемісі ретінде біз GPT‑4 деңгейіндегі модельді әлдеқайда кеңірек қолжетімді ете алдық. GPT‑4o мүмкіндіктері кезең-кезеңімен енгізіледі (бүгіннен бастап кеңейтілген редтиминг қолжетімділігімен).

GPT‑4o‑ның мәтін және сурет мүмкіндіктері бүгіннен бастап ChatGPT‑те кезең-кезеңімен қолжетімді бола бастайды. Біз GPT‑4o‑ны тегін деңгейде, ал Plus пайдаланушыларына 5 есе жоғары хабарлама шектерімен ұсынамыз. Алдағы апталарда ChatGPT Plus ішінде GPT‑4o бар Дауыс режимінің жаңа нұсқасын alpha ретінде енгіземіз.

Әзірлеушілер енді GPT‑4o‑ға API арқылы мәтін және көру моделі ретінде де қол жеткізе алады. GPT‑4 Turbo-мен салыстырғанда GPT‑4o 2 есе жылдамырақ, бағасы жарты, ал rate limit-тері 5 есе жоғары. Алдағы апталарда API ішінде GPT‑4o‑ның жаңа аудио және бейне мүмкіндіктерін сенімді серіктестердің шағын тобына іске қосуды жоспарлап отырмыз.

Authors

OpenAI

Үлес қосушыларды көру

Сәлем, GPT‑4o

Модель мүмкіндіктері

Мүмкіндіктерді зерттеу

Модель бағалаулары

Мәтінді бағалау

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Тілдік токенизация

Модель қауіпсіздігі мен шектеулері

ChatGPT-4o Risk Scorecard

Model availability

Authors