Preskočiť na hlavný obsah
OpenAI

13. mája 2024

Míľnik

Ahoj, GPT‑4o

Oznamujeme GPT‑4o, náš nový vlajkový model, ktorý dokáže myslieť prostredníctvom zvuku, obrazu a textu v reálnom čase.

Všetky videá na tejto stránke sú v reálnom čase pri rýchlosti 1x.

Tipujem oznámenie z 13. mája.

Načítava sa…

GPT‑4o („o“ pre „omni“) je krokom k oveľa prirodzenejšej interakcii medzi človekom a počítačom – prijíma ako vstup akúkoľvek kombináciu textu, zvuku, obrázka a videa a vygeneruje akúkoľvek kombináciu textových, zvukových a obrazových výstupov. Môže reagovať na zvukové vstupy už za 232 milisekúnd, s priemerom 320 milisekúnd, čo je podobné času odpovede človeka(otvorí sa v novom okne) v konverzácii. Zodpovedá výkonu modelu GPT‑4 Turbo na textoch v angličtine a kóde, s výrazným zlepšením textov v neanglických jazykoch, pričom je v rozhraní API oveľa rýchlejší a o 50 % lacnejší. GPT‑4o je obzvlášť lepší v porozumení obrazu a zvuku v porovnaní s existujúcimi modelmi.

Funkcie modelu

Pred modelom GPT‑4o ste mohli použiť hlasový režim na rozhovor s nástrojom ChatGPT s latenciou 2,8 sekundy (GPT‑3.5) a v priemere 5,4 sekundy (GPT‑4). Na dosiahnutie tohto cieľa je hlasový režim reťazcom troch samostatných modelov: jeden jednoduchý model prepisuje zvuk na text, GPT‑3.5 alebo GPT‑4 prijíma text a vytvára textový výstup, a tretí jednoduchý model konvertuje tento text späť na zvuk. Tento proces znamená, že hlavný zdroj inteligencie, GPT‑4, stráca veľa informácií – nedokáže priamo pozorovať tón, viacero hovoriacich alebo zvuky v pozadí a nemôže vytvárať výstup so smiechom, spevom ani vyjadrovať emócie.

S modelom GPT‑4o sme vytrénovali jeden nový model typu end-to-end naprieč textom, obrazom a zvukom, čo znamená, že všetky vstupy a výstupy spracováva rovnaká neurálna sieť. Pretože GPT‑4o je náš prvý model kombinujúci všetky tieto modality, stále len začíname skúmať, čo model dokáže a aké má obmedzenia.

Prieskum funkcií

Vyber vzorku:
1
Vstup

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Výstup
Robot on typewriter
3
Vstup

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Výstup
Robot on typewriter with more text
5
Vstup

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Výstup
Robot ripping sheet

Hodnotenia modelov

Podľa tradičných referenčných hodnôt GPT‑4o dosahuje výkonnosť na úrovni GPT‑4 Turbo v oblasti textu, myslenia a kódovania a zároveň stanovuje nové vysoké štandardy pre viacjazyčné, zvukové a vizuálne funkcie.

Hodnotenie textu

Tokenizácia jazyka

Týchto 20 jazykov bolo vybraných ako reprezentatívne pre kompresiu nového tokenizátora naprieč rôznymi jazykovými rodinami

Gujarati 4,4x menej tokeny (z 145 na 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3,5x menej tokenov (z 159 na 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamilčina 3,3x menej tokenov (zo 116 na 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2,9x menej tokenov (z 96 na 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Hindčina má 2,9x menej tokenov (z 90 na 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Urdu 2,5x menej tokenov (z 82 na 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Arabčina 2,0x menej tokenov (z 53 na 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Perzština má 1,9x menej tokenov (z 61 na 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Ruština má 1,7x menej tokenov (z 39 na 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Kórejčina má 1,7x menej tokenov (z 45 na 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Vietnamčina má 1,5x menej tokenov (z 46 na 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Čínština má 1,4x menej tokenov (z 34 na 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Japončina má 1,4x menej tokenov (z 37 na 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Turečtina má o 1,3x menej tokenov (z 39 na 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Taliančina má 1,2x menej tokenov (z 34 na 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Nemčina má 1,2x menej tokenov (z 34 na 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

španielčina má 1,1x menej tokenov (z 29 na 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Portugalčina má 1,1x menej tokenov (z 30 na 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Francúzština má 1,1x menej tokenov (z 31 na 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Angličtina má 1,1x menej tokenov (z 27 na 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Bezpečnosť a obmedzenia modelu

GPT‑4o má zabudovanú bezpečnosť už z výroby naprieč rôznymi modalitami, a to prostredníctvom techník, ako je filtrovanie tréningových údajov a zdokonaľovanie správania modelu po tréningu. Taktiež sme vytvorili nové bezpečnostné systémy na poskytovanie ochranných opatrení pre hlasové výstupy.

Model GPT‑4o sme vyhodnotili podľa nášho
rámca pripravenosti a v súlade s našimi dobrovoľnými záväzkami. Naše hodnotenia kybernetickej bezpečnosti, CBRN, presviedčania a autonómie modelu ukazujú, že GPT‑4o v žiadnej z týchto kategórií nepresahuje stredné riziko. Toto hodnotenie zahŕňalo realizáciu súboru automatizovaných a ľudských hodnotení počas celého tréningového procesu modelu. Testovali sme verzie modelu pred zavedením bezpečnostných opatrení a po ňom, pričom sme použili vlastné doladenie a príkazy, aby sme lepšie odhalili možnosti modelu.

GPT‑4o tiež prešiel rozsiahlym externým red teamingom s viac ako 70
externými odborníkmi v oblastiach ako sociálna psychológia, zaujatosť a spravodlivosť či dezinformácie, aby identifikovali riziká, ktoré sú zavedené alebo zosilnené novo pridanými modalitami. Tieto poznatky sme využili na vybudovanie našich bezpečnostných opatrení s cieľom zlepšiť bezpečnosť interakcie s modelom GPT‑4o. Budeme ďalej zmierňovať nové riziká, len čo budú objavené.

Uznávame, že zvukové modality GPT‑4o predstavujú rôzne nové riziká. Dnes verejne uvoľňujeme textové a obrázkové vstupy a textové výstupy. V nadchádzajúcich týždňoch a mesiacoch budeme pracovať na technickej infraštruktúre, použiteľnosti po tréningu a bezpečnosti potrebnej na uvoľnenie ďalších modalít. Napríklad pri spustení budú zvukové výstupy obmedzené na výber prednastavených hlasov a budú sa riadiť našimi existujúcimi bezpečnostnými zásadami. Ďalšie podrobnosti týkajúce sa celého rozsahu modalít GPT‑4o zverejníme v pripravovanej systémovej karte.

Prostredníctvom testovania a iterácie s modelom sme spozorovali niekoľko obmedzení, ktoré sú prítomné vo všetkých modalitách modelu, z ktorých niektoré sú uvedené nižšie.

Príklady obmedzení modelu

Radi by sme uvítali pripomienky, ktoré pomôžu identifikovať úlohy, v ktorých GPT‑4 Turbo stále prekonáva GPT‑4o, aby sme model mohli ďalej zlepšovať. Ďakujeme. 

Hodnotiaca karta rizika ChatGPT-4o

Aktualizované 8. mája 2024

Sledovaná kategória rizika
Úroveň rizika pred zmiernením
Určenie úrovne rizika pred zmiernením pomocou najznámejších techník na zisťovanie schopností
Úroveň rizika po zmiernení
Určenie celkovej úrovne rizika po zavedení zmiernení pomocou najznámejších techník na zisťovanie schopností
Kybernetická bezpečnosť
Nízka
Nízka
CBRN
Nízka
Nízka
Presviedčanie
Stredné
Stredné
Autonómia modelu
Nízka
Nízka

Súčasťou nášho rámca pripravenosti je, že vykonávame pravidelné hodnotenia a aktualizujeme hodnotiace tabuľky pre naše modely. Nasadzujú sa iba modely, ktoré po zmiernení majú skóre „stredné“ alebo nižšie. Celková úroveň rizika modelu sa určuje podľa najvyššej úrovne rizika v ktorejkoľvek kategórii. V súčasnosti sa GPT‑4o hodnotí so stredným rizikom, a to tak pred zmierňujúcimi opatreniami, ako aj po nich.

Dostupnosť modelu 1

GPT‑4o je naším najnovším krokom pri posúvaní hraníc v oblasti hlbokého učenia, tentoraz smerom k praktickej použiteľnosti. Počas posledných dvoch rokov sme vynaložili veľa úsilia na zlepšenie efektivity na každej vrstve stacku. Prvou výhodou tohto výskumu je, že dokážeme sprístupniť model úrovne GPT‑4 oveľa širšiemu publiku. Možnosti modelu GPT‑4o sa budú zavádzať postupne (s rozšíreným prístupom pre red team od dnešného dňa). 

Textové a obrázkové možnosti modelu GPT‑4o sa dnes začínajú zavádzať v nástroji ChatGPT. Sprístupňujeme GPT‑4o v bezplatnej úrovni a používateľom Plus s až 5-násobne vyššími limitmi správ. V najbližších týždňoch uvedieme novú verziu hlasového režimu s modelom GPT‑4o vo verzii alfa v rámci ChatGPT Plus.

Vývojári môžu teraz tiež pristupovať k modelu GPT‑4o v rozhraní API ako k textovému a vizuálnemu modelu. GPT‑4o je 2x rýchlejší, stojí polovicu a má 5x vyššie limity rýchlosti v porovnaní s modelom GPT‑4 Turbo. V najbližších týždňoch plánujeme spustiť podporu pre nové audio- a videofunkcie GPT‑4o pre malú skupinu dôveryhodných partnerov v rozhraní API.