13. maj 2024.

Hello GPT‑4o

Najavljujemo GPT‑4o, naš novi vodeći model koji može rezonovati kroz zvuk, viziju i tekst u stvarnom vremenu.

Doprinosi Isprobajte ChatGPT GPT-4o sistemska kartica

Svi videozapisi na ovoj stranici su u 1x realnom vremenu.

Pogađanje najave od 13. maja.

Više resursa

Isprobajte u Playground Ponovo pogledajte demonstracije uživo

Učitavanje…

GPT‑4o („o“ za „omni“) je korak ka mnogo prirodnijoj interakciji čovjeka i računara—prihvata kao unos bilo koju kombinaciju teksta, zvuka, slike i videa i generiše bilo koju kombinaciju teksta, zvuka i slike kao izlaza. Može odgovoriti na audio unose za samo 232 milisekunde, u prosjeku 320 milisekundi, što je slično vremenu ljudskog odgovora⁠(otvara se u novom prozoru) u razgovoru. Odgovara performansama GPT‑4 Turbo na tekstu na engleskom jeziku i kodu, uz značajno poboljšanje na tekstu na jezicima koji nisu engleski, dok je istovremeno mnogo brži i 50% jeftiniji u API-ju. GPT‑4o je posebno bolji u razumijevanju vizualnih i audio sadržaja u odnosu na postojeće modele.

Mogućnosti modela

Dva modela GPT‑4o u interakciji i pjevanju.

Priprema za intervju.

Kamen, papir, makaze.

Sarkazam.

Matematika sa Salom i Imranom Khanom.

Dva modela GPT‑4o u harmoniji.

Pokažite i naučite španski.

Susret sa vještačkom inteligencijom.

Prevođenje u realnom vremenu.

Uspavanka.

Brže pričanje.

Sretan rođendan.

Pas.

Šale za tate.

GPT‑4o s Andyjem, iz BeMyEyes u Londonu.

Dokaz koncepta korisničke podrške.

Prije GPT‑4o, mogli ste koristiti glasovni način rada⁠ za razgovor s ChatGPT‑om s latentnostima od 2,8 sekundi (GPT‑3.5) i 5,4 sekunde (GPT‑4) u prosjeku. Da bi se to postiglo, Glasovni način rada je pipeline od tri odvojena modela: jedan jednostavan model pretvara zvuk u tekst, GPT‑3.5 ili GPT‑4 obrađuje tekst i vraća tekst, a treći jednostavan model pretvara taj tekst natrag u zvuk. Ovaj proces znači da glavni izvor inteligencije, GPT‑4, gubi mnogo informacija—ne može direktno promatrati ton, više govornika ili pozadinske zvukove, niti može izlaziti smijeh, pjevanje ili izraziti emocije.

S GPT‑4o trenirali smo jedan novi model od početka do kraja koji obrađuje tekst, vizualne podatke i zvuk, što znači da svi ulazi i izlazi prolaze kroz istu neuronsku mrežu. Budući da je GPT‑4o naš prvi model koji kombinira sve ove modalitete, još uvijek samo grebemo površinu istražujući što model može učiniti i koja su njegova ograničenja.

Istraživanja mogućnosti

Odaberite uzorak:

Unos

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Izlazne informacije

Unos

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Izlazne informacije

Unos

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Izlazne informacije

Evaluacije modela

Mjereno tradicionalnim testovima, GPT‑4o postiže performanse GPT‑4 Turbo nivoa u oblasti teksta, rezonovanja i inteligencije kodiranja, dok istovremeno postavlja nove visoke standarde u oblasti višejezičnih, audio i vizualnih mogućnosti.

Evaluacija teksta

Tokenizacija jezika

Ovih dvadeset jezika odabrano je kao reprezentativno za kompresiju novog tokenizatora u različitim jezičnim porodicama

Gujarati 4,4 puta manje tokena (sa 145 na 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu 3,5 puta manje tokena (sa 159 na 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamil 3,3 puta manje tokena (sa 116 na 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi 2,9 puta manje tokena (sa 96 na 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi 2,9 puta manje tokena (sa 90 na 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu 2,5 puta manje tokena (sa 82 na 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Arapski 2,0 puta manje tokena (od 53 do 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Perzijski 1,9 puta manje tokena (od 61 do 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Ruski 1,7 puta manje tokena (s 39 na 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Korejski ima 1,7 puta manje tokena (sa 45 na 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vijetnamski 1,5 puta manje tokena (od 46 do 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Kineski ima 1,4x manje tokena (sa 34 na 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japanski ima 1,4x manje tokena (sa 37 na 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turski 1,3 puta manje tokena (od 39 do 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italijanski 1,2 puta manje tokena (od 34 do 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Njemački 1,2 puta manje tokena (sa 34 na 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Španski 1,1 puta manje tokena (sa 29 na 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portugalski ima 1,1 puta manje tokena (od 30 do 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Francuski 1,1 puta manje tokena (s 31 na 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Engleski 1,1 puta manje tokena (s 27 na 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Sigurnost modela i ograničenja

GPT‑4o ima sigurnost ugrađenu u dizajn kroz različite modalitete, koristeći tehnike kao što su filter podataka za obuku i usavršavanje ponašanja modela nakon obuke. Također smo kreirali nove sigurnosne sisteme kako bismo osigurali zaštitne mjere za glasovne izlaze.

Procijenili smo GPT‑4o prema našem Okviru spremnosti⁠ i u skladu s našim dobrovoljnim obavezama⁠. Naše evaluacije u oblastima kibernetičke sigurnosti, CBRN-a, ubeđivanja i autonomije modela pokazuju da GPT‑4o ne dobija ocjenu iznad Srednjeg rizika ni u jednoj od ovih kategorija. Ova procjena uključivala je provođenje niza automatiziranih i ljudskih evaluacija tokom procesa obuke modela. Testirali smo i verzije modela prije i poslije ublažavanja sigurnosnih mjera, koristeći prilagođeno fino podešavanje i upite, kako bismo bolje iskoristili mogućnosti modela.

GPT‑4o je također prošao kroz opsežno vanjsko “red teaming” testiranje sa više od 70 vanjskih stručnjaka⁠ u domenama kao što su socijalna psihologija, pristranost i pravičnost, te dezinformacije, kako bi se identificirali rizici koje uvode ili pojačavaju novo dodane modalitete. Iskoristili smo ova saznanja za razvoj naših sigurnosnih intervencija kako bismo poboljšali sigurnost interakcije s GPT‑4o. Nastavit ćemo ublažavati nove rizike kako budu otkriveni.

Prepoznajemo da audio modaliteti GPT‑4o predstavljaju razne nove rizike. Danas javno objavljujemo unose teksta i slika te tekstualne izlaze. Tokom narednih tjedana i mjeseci, radit ćemo na tehničkoj infrastrukturi, upotrebljivosti putem post-obuke i sigurnosti potrebnoj za puštanje u rad ostalih modaliteta. Na primjer, pri lansiranju, audio izlazi bit će ograničeni na izbor unaprijed postavljenih glasova i pridržavat će se naših postojećih sigurnosnih politika. Podijelit ćemo daljnje detalje koji se odnose na cijeli raspon modaliteta GPT‑4o u nadolazećoj sistemskoj kartici.

Kroz naše testiranje i iteraciju s modelom, primijetili smo nekoliko ograničenja koja postoje u svim modalitetima modela, od kojih su neka prikazana u nastavku.

Primjeri ograničenja modela

Bili bismo zahvalni na povratnom odgovoru koji će nam pomoći identificirati zadatke u kojima GPT‑4 Turbo još uvijek nadmašuje GPT‑4o, kako bismo mogli nastaviti poboljšavati model. Hvala vam.

ChatGPT-4o kartica ocjene rizika

^{Ažurirano 8. svibnja 2024.}

Praćena kategorija rizika

Nivo rizika prije ublažavanja

Odredite nivo rizika prije ublažavanja koristeći najbolje poznate tehnike za elicitaciju sposobnosti.

Nivo rizika nakon ublažavanja

Odredite ukupni nivo rizika nakon što su mjere ublažavanja na snazi koristeći najbolje poznate tehnike za elicitaciju sposobnosti.

Kibernetička sigurnost

Nisko

CBRN

Nisko

Uvjeravanje

Medium

Autonomija modela

Nisko

Kao dio našeg Okvira spremnosti⁠, provodimo redovne evaluacije i ažuriramo tablice rezultata za naše modele. Samo modeli sa ocjenom „srednje“ ili nižom nakon ublažavanja rizika se implementiraju. Ukupni nivo rizika za model određuje se prema najvišem nivou rizika u bilo kojoj kategoriji. Trenutno se GPT‑4o procjenjuje kao srednji rizik, kako prije, tako i nakon napora za ublažavanje.

Dostupnost modela 1

GPT‑4o je naš najnoviji korak u pomicanju granica dubokog učenja, ovaj put u pravcu praktične upotrebljivosti. U protekle dvije godine uložili smo mnogo truda radeći na poboljšanju efikasnosti na svakom sloju sistema. Kao prvi rezultat ovog istraživanja, u mogućnosti smo učiniti model na nivou GPT‑4 dostupnim mnogo šire. Mogućnosti GPT‑4o će se iterativno uvoditi (sa proširenim pristupom crvenog tima počevši od danas).

Tekstualne i slikovne mogućnosti GPT‑4o počinju se uvoditi danas u ChatGPT‑u. GPT‑4o činimo dostupnim u besplatnom nivou, a Plus korisnicima s do 5x većim ograničenjima poruka. U narednim sedmicama ćemo predstaviti novu verziju glasovnog načina rada s GPT‑4o u alfa fazi unutar ChatGPT Plus.

Programeri također sada mogu pristupiti GPT‑4o u API-ju kao tekstualnom i vizijskom modelu. GPT‑4o je 2x brži, upola jeftiniji i ima 5x veće ograničenje stope u odnosu na GPT‑4 Turbo. Planiramo pokrenuti podršku za nove audio i video mogućnosti GPT‑4o za malu grupu pouzdanih partnera u API-ju u narednim sedmicama.

Autori

OpenAI

Pogledajte saradnike

Hello GPT‑4o

Mogućnosti modela

Istraživanja mogućnosti

Evaluacije modela

Evaluacija teksta

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tokenizacija jezika

Sigurnost modela i ograničenja

ChatGPT-4o kartica ocjene rizika

Dostupnost modela 1

Autori