Upoznajte GPT‑4o
Predstavljamo GPT‑4o, naš novi vodeći model koji može zaključivati u stvarnom vremenu na temelju zvuka, slike i teksta.
Pogađam što će biti najavljeno 13. svibnja.
GPT‑4o („o” kao „omni”) predstavlja korak prema mnogo prirodnijoj interakciji između čovjeka i računala – prihvaća bilo koju kombinaciju teksta, zvuka, slike i videa kao ulaz i generira bilo koju kombinaciju teksta, zvuka i slike kao izlaz. Može odgovoriti na zvučni ulaz za samo 232 milisekunde, u prosjeku za 320 milisekundi, što je usporedivo s brzinom ljudskog odgovora(otvara se u novom prozoru) u razgovoru. Po performansama u tekstu na engleskom i kodiranju doseže razinu modela GPT‑4 Turbo, uz znatno bolje rezultate u tekstu na neengleskim jezicima, a pritom je znatno brži i 50 % jeftiniji u API-ju. GPT‑4o je naročito bolji u vizualnim i zvučnim sposobnostima u odnosu na postojeće modele.
Mogućnosti modela
Dva modela GPT‑4o koji međusobno komuniciraju i pjevaju.
Priprema za razgovor za posao.
Kamen, papir, škare.
Sarkazam.
Matematika sa Salom i Imranom Khanom.
Dva modela GPT‑4o u međusobnoj harmoniji.
Usmjerite i naučite španjolski.
Upoznavanje AI-ja.
Prijevod u stvarnom vremenu.
Uspavanka.
Brži govor.
Sretan rođendan.
Pas.
Tata se šali.
GPT‑4o s Andyjem iz tvrtke BeMyEyes u Londonu.
Pilot-projekt korisničke podrške.
Prije modela GPT‑4o, mogli ste koristiti glasovni način rada za razgovor s ChatGPT‑om uz prosječna kašnjenja od 2,8 sekundi (GPT‑3.5) i 5,4 sekunde (GPT‑4) u prosjeku. Kako bi se to postiglo, glasovni način rada koristi od tri odvojena modela: jedan jednostavniji model pretvara zvuk u tekst, GPT‑3.5 ili GPT‑4 preuzimaju tekst i vraćaju ga, a treći jednostavniji model taj tekst ponovno pretvara u zvuk. Zbog takvog procesa glavni izvor inteligencije – GPT‑4 – gubi mnogo informacija: ne može izravno uočiti ton, više govornika ili pozadinske zvukove, niti može reproducirati smijeh, pjevanje ili izražavati emocije.
Uz GPT‑4o trenirali smo jedan potpuno novi model end-to-end za tekst, vizualne informacije i zvuk, što znači da isti neuronski model obrađuje sve ulaze i sve izlaze. Budući da je GPT‑4o naš prvi model koji objedinjuje sve te modalitete, tek započinjemo istraživati što sve može i koja su mu ograničenja.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Prema mjerenjima na tradicionalnim referentnim testovima, GPT‑4o postiže razinu performansi usporedivu s GPT‑4 Turbo u tekstu, zaključivanju i kodiranju, dok postavlja nove rekorde u višejezičnim, zvučnim i vizualnim sposobnostima.
Evaluacija teksta
Ovih 20 jezika odabrano je kao reprezentativni za kompresiju novog tokenizatora u različitim jezičnim obiteljima
Gujarati 4,4 puta manje tokena (s 145 na 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu 3,5 puta manje tokena (s 159 na 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamil 3,3 puta manje tokena (od 116 do 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2,9 puta manje tokena (s 96 na 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2,9 puta manje tokena (s 90 na 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdu ima 2,5 puta manje tokena (s 82 na 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arapski 2,0 puta manje tokena (od 53 do 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Perzijski 1,9 puta manje tokena (od 61 do 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Ruski 1,7 puta manje tokena (s 39 na 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Korejski ima 1,7 puta manje tokena (s 45 na 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vijetnamski 1,5 puta manje tokena (od 46 do 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Kineski ima 1,4 puta manje tokena (s 34 na 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japanski ima 1,4 puta manje tokena (s 37 na 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Turski 1,3 puta manje tokena (od 39 do 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Talijanski 1,2 puta manje tokena (s 34 na 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Njemački 1,2 puta manje tokena (s 34 na 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Španjolski 1,1 puta manje tokena (s 29 na 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portugalski 1,1 puta manje tokena (s 30 na 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Francuski 1,1 puta manje tokena (s 31 na 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Engleski 1,1 puta manje tokena (s 27 na 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o ima ugrađene sigurnosne mehanizme u svim modalitetima, koristeći tehnike poput filtriranja podataka za treniranje i usavršavanja ponašanja modela nakon treniranja. Također smo izradili nove sigurnosne sustave koji postavljaju zaštitne mehanizme za zvučne izlaze.
GPT‑4o smo evaluirali u skladu s našim Okvirom pripravnosti i dobrovoljnim obvezama. Naše evaluacije područja kibernetičke sigurnosti, rizika CBRN (kemijski, biološki, radiološki i nuklearni rizici), uvjeravanja te autonomije modela pokazuju da GPT‑4o ni u jednoj kategoriji ne prelazi razinu rizika „srednji”. Procjena je obuhvatila niz automatiziranih i ljudskih evaluacija provedenih tijekom cijelog procesa treniranja modela. Testirali smo verzije modela prije i nakon sigurnosnih mjera ublažavanja, koristeći prilagođeno precizno podešavanje i upite kako bismo bolje ispitali sposobnosti modela.
GPT‑4o je također prošao opsežno vanjsko red-team testiranje s više od 70 stručnjaka iz područja poput socijalne psihologije, pristranosti i pravednosti te dezinformacija, kako bismo otkrili rizike koji se javljaju ili pojačavaju uvođenjem novih modaliteta. Te smo spoznaje iskoristili za izgradnju sigurnosnih intervencija kako bismo povećali sigurnost interakcije s modelom GPT‑4o. Nastavit ćemo ublažavati nove rizike kako budu otkriveni.
Svjesni smo da audio modaliteti modela GPT‑4 nose niz novih, drugačijih rizika. Danas javno objavljujemo tekstualne i slikovne ulaze te tekstualne izlaze. U nadolazećim tjednima i mjesecima radit ćemo na tehničkoj infrastrukturi, korisničkoj upotrebljivosti putem naknadnog treniranja i sigurnosnim zahtjevima potrebnima za objavu ostalih modaliteta. Primjerice, u početnoj fazi zvučni izlazi bit će ograničeni na skup unaprijed definiranih glasova i u skladu s postojećim sigurnosnim pravilima. U nadolazećem dokumentu o sustavu podijelit ćemo dodatne pojedinosti o svim modalitetima modela GPT‑4o.
Tijekom testiranja i iteracija u radu s modelom uočili smo više ograničenja koja se pojavljuju u svim modalitetima, a neka od njih prikazana su u nastavku.
Primjeri ograničenja modela
Bili bismo zahvalni na povratnim informacijama koje će nam pomoći identificirati zadatke u kojima GPT‑4 Turbo još uvijek nadmašuje GPT‑4o, kako bismo mogli nastavi poboljšavati model. Hvala vam.
Ažurirano 8. svibnja 2024.
U sklopu našeg Okvira pripravnosti, redovno provodimo evaluacije i ažuriramo tablice rezultata za naše modele. Samo se modeli s ocjenom rizika „srednji” ili niže nakon provedenih mjera ublažavanja puštaju u primjenu. Trenutačno je GPT‑4o procijenjen kao model srednjeg rizika, i prije i nakon mjera ublažavanja rizika.
GPT‑4o je naš najnoviji korak u pomicanju granica dubokog učenja, ovaj put u smjeru praktične primjene. U posljednje dvije godine uložili smo mnogo truda u poboljšanje učinkovitosti na svakoj razini sustava. Kao prvi rezultat tog istraživanja, možemo učiniti model na razini GPT‑4 mnogo dostupnijim većem broju korisnika. GPT‑4o će se postupno uvoditi – uz prošireni pristup red-teamingu koji počinje danas.
Tekstualne i slikovne sposobnosti modela GPT‑4o počinju se uvoditi u ChatGPT već danas. Model GPT‑4o stavljamo na raspolaganje u besplatnom planu, a korisnicima plana Plus omogućujemo do pet puta veće limite za poruke. U nadolazećim tjednima predstavit ćemo novu verziju glasovnog načina rada s modelom GPT‑4o u alfa fazi unutar plana ChatGPT Plus.
Razvojni inženjeri sada mogu pristupiti modelu GPT‑4o u API-ju kao modelu za tekst i vizualne informacije. GPT‑4o je dvostruko brži, upola jeftiniji i ima 5 puta više API limita u odnosu na GPT‑4 Turbo. U narednim tjednima planiramo uvođenje podrške za nove zvučne i video mogućnosti modela GPT‑4o kroz API, i to najprije maloj skupini pouzdanih partnera.