Пређите на главни садржај
OpenAI

13. мај 2024.

Прекретница

Zdravo GPT‑4o

Najavljujemo GPT‑4o, naš novi najpoznatiji model koji može da rezonuje kroz audio, vid i tekst u realnom vremenu.

Svi video snimci na ovoj stranici su u 1x realnom vremenu.

Pogađanje najave za 13. maj.

Учитавање…

GPT‑4o („o” za „omni”) je korak ka mnogo prirodnijoj interakciji čoveka i računara — prihvata kao ulaz bilo koju kombinaciju teksta, zvuka, slike i videa i generiše bilo koju kombinaciju izlaza u tekstu, zvuku i slici. Može da odgovori na audio ulaze za samo 232 milisekunde, sa prosekom od 320 milisekundi, što je slično vremenu ljudskog odgovora(отвара се у новом прозору) u razgovoru. Odgovara performansama GPT‑4 Turbo na engleskom tekstu i kodu, uz značajno poboljšanje teksta na jezicima koji nisu engleski, a istovremeno je mnogo brži i 50% jeftiniji u API-ju. GPT‑4o je posebno bolji u razumevanju slike i zvuka u poređenju sa postojećim modelima.

Mogućnosti modela

Pre GPT‑4o, mogli ste da koristite režim glasa da razgovarate sa ChatGPT uz prosečno kašnjenje od 2,8 sekundi (GPT‑3.5) i 5,4 sekunde (GPT‑4). Da bi se to postiglo, režim glasa je niz od tri odvojena modela: jedan jednostavan model transkribuje audio u tekst, GPT‑3.5 ili GPT‑4 prima tekst i daje tekstualni izlaz, a treći jednostavan model taj tekst pretvara nazad u audio. Ovaj proces znači da glavni izvor inteligencije, GPT‑4, gubi mnogo informacija — ne može direktno da uoči ton, više govornika ili pozadinske zvuke, i ne može da proizvodi smeh, pevanje niti da izrazi emocije.

Sa GPT‑4o, obučili smo jedan novi model od početka do kraja za tekst, vid i audio, što znači da iste neuronske mreže obrađuju sve ulaze i izlaze. Pošto je GPT‑4o naš prvi model koji objedinjuje sve ove modalitete, još uvek tek zagrebavamo površinu istraživanja onoga što model može da uradi i njegovih ograničenja.

Istraživanja mogućnosti

Изаберите узорак:
1
Унос

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Излаз
Robot on typewriter
3
Унос

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Излаз
Robot on typewriter with more text
5
Унос

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Излаз
Robot ripping sheet

Evaluacije modela

Mereno tradicionalnim benchmark testovima, GPT‑4o postiže nivo performansi GPT‑4 Turbo na polju teksta, rezonovanja i programerske inteligencije, dok postavlja nove najviše standarde u višejezičnim, audio i vizuelnim mogućnostima.

Процена текста

Tokenizacija jezika

Ovih 20 jezika izabrano je kao reprezentativno za kompresiju novog tokenizatora u različitim jezičkim porodicama

Гуџарати 4,4 x мање токена (са 145 на 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Телугу: 3,5 x мање токена (са 159 на 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Тамилски 3,3 x мање токена (од 116 до 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2,9 x мање токена (од 96 до 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Хинди 2,9 x мање токена (са 90 на 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Урду 2,5 x мање токена (са 82 на 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Арапски 2,0 x мање токена (са 53 на 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Персијски 1,9 x мање токена (са 61 на 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Руски 1,7 x мање токена (од 39 до 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Корејски 1,7 x мање токена (са 45 на 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Вијетнамски 1,5 x мање токена (са 46 на 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Кинески 1,4 x мање токена (са 34 на 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Јапански 1,4 x мање токена (од 37 до 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Турски 1,3 x мање токена (са 39 на 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Италијански 1,2 x мање токена (са 34 на 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Немачки 1,2 x мање токена (од 34 до 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Шпански 1,1 x мање токена (са 29 на 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Португалски 1,1 x мање токена (од 30 до 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Француски 1,1 x мање токена (са 31 на 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Енглески 1,1 x мање токена (са 27 на 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Bezbednost modela i ograničenja

GPT‑4o ima ugrađenu bezbednost po dizajnu kroz modalitete, pomoću tehnika kao što su filtriranje podataka za obuku i usavršavanje ponašanja modela kroz post-obuku. Takođe smo kreirali nove bezbednosne sisteme da obezbedimo zaštitne mere za glasovne izlaze.

Evaluirali smo GPT‑4o prema našem
Okviru spremenosti i u skladu sa našim dobrovoljnim obavezama. Naše evaluacije sajber bezbednosti, CBRN-a, ubeđivanja i autonomije modela pokazuju da GPT‑4o ni u jednoj od ovih kategorija ne dobija ocenu iznad srednjeg rizika. Ova procena obuhvatala je sprovođenje niza automatizovanih i ljudskih evaluacija tokom procesa obuke modela. Testirali smo i verzije modela pre i posle ublažavanja bezbednosnih rizika, koristeći prilagođeno fino podešavanje i instrukcije, da bismo bolje otkrili mogućnosti modela.

GPT‑4o je takođe prošao opsežno eksterno testiranje od strane crvene komande sa više od 70
spoljnih stručnjaka iz oblasti kao što su socijalna psihologija, pristrasnost i pravičnost, i dezinformacije, kako bismo identifikovali rizike koje novi modaliteti uvode ili pojačavaju. Ta saznanja smo iskoristili za izgradnju naših bezbednosnih intervencija kako bismo poboljšali bezbednost interakcije sa GPT‑4o. Nastavićemo da ublažavamo nove rizike kako budu otkrivani.

Prepoznajemo da audio modaliteti GPT‑4o nose razne nove rizike. Danas javno objavljujemo tekstualne i slikovne ulaze i tekstualne izlaze. Tokom narednih nedelja i meseci radićemo na tehničkoj infrastrukturi, upotrebljivosti kroz post-obuku i bezbednosti potrebnoj za objavljivanje drugih modaliteta. Na primer, pri lansiranju će audio izlazi biti ograničeni na izbor unapred podešenih glasova i poštovaće naše postojeće bezbednosne politike. Dodatne detalje o punom opsegu modaliteta GPT‑4o podelićemo u predstojećoj sistemskoj kartici.

Kroz naše testiranje i iteraciju sa modelom, uočili smo nekoliko ograničenja koja postoje u svim modalitetima modela, a neka od njih su prikazana u nastavku.

Examples of model limitations

We would love feedback to help identify tasks where GPT‑4 Turbo still outperforms GPT‑4o, so we can continue to improve the model. 

ChatGPT-4o Risk Scorecard

Ažurirano 8. maja 2024.

Праћена категорија ризика
Ниво ризика пре ублажавања
Одредите ниво ризика пре ублажавања користећи најбоље познате технике процене способности
Ниво ризика након ублажавања
Утврдите укупан ниво ризика након што су мере ублажавања успостављене, користећи најпознатије технике за прикупљање информација о способностима.
Сајбер безбедност
Ниско
Ниско
CBRN
Ниско
Ниско
Убеђивање
Средње
Средње
Аутономија модела
Ниско
Ниско

U okviru našeg Okvira spremnosti, redovno sprovodimo evaluacije i ažuriramo kartone sa ocenama za naše modele. Raspoređuju se samo modeli sa ocenom nakon ublažavanja od „medium” ili nižom. Ukupan nivo rizika za model određuje se najvišim nivoom rizika u bilo kojoj kategoriji. Trenutno se GPT‑4o procenjuje kao model srednjeg rizika i pre i posle mera ublažavanja.

Model availability

GPT‑4o je naš najnoviji korak u pomeranju granica dubokog učenja, ovog puta u pravcu praktične upotrebljivosti. Uložili smo mnogo truda tokom poslednje dve godine radeći na poboljšanju efikasnosti na svakom sloju steka. Kao prvi plod ovog istraživanja, možemo da učinimo model nivoa GPT‑4 mnogo šire dostupnim. Mogućnosti GPT‑4o biće uvodene postepeno (uz prošireni pristup za crvenu komandu koji počinje danas). 

Tekstualne i vizuelne mogućnosti GPT‑4o počinju da se uvode danas u ChatGPT. GPT‑4o činimo dostupnim u besplatnom nivou, a korisnicima Plus paketa sa do 5x većim ograničenjima poruka. U narednim nedeljama uvodimo novu verziju režima glasa sa GPT‑4o u alfa verziji u okviru ChatGPT Plus.

Programeri sada takođe mogu da pristupe GPT‑4o u API-ju kao tekstualnom i vizuelnom modelu. GPT‑4o je 2x brži, upola je jeftiniji i ima 5x viša ograničenja učestalosti u poređenju sa GPT‑4 Turbo. Planiramo da u narednim nedeljama pokrenemo podršku za nove audio i video mogućnosti GPT‑4o za malu grupu pouzdanih partnera u API-ju.