Přeskoč na hlavní obsah
OpenAI

13. května 2024

Milník

Ahoj GPT‑4o

Představujeme GPT‑4o, náš nový vlajkový model, který dokáže v reálném čase uvažovat nad zvukem, obrazem a textem.

Všechna videa na této stránce jsou v reálném čase 1x.

Odhadování oznámení ohlášeného na 13. května.

Načítání…

GPT‑4o („o“ pro „omni“) je krokem k mnohem přirozenější interakci mezi člověkem a počítačem – přijímá jako vstup libovolnou kombinaci textu, zvuku, obrázku a videa a vytváří libovolnou kombinaci textových, zvukových a obrázkových výstupů. Může reagovat na zvukové vstupy za pouhých 232 milisekund, s průměrem 320 milisekund, což je podobné lidské odpovědi(otevře se v novém okně) v konverzaci. Dosahuje výkonu GPT‑4 Turbo na textu v angličtině a kódu, s výrazným zlepšením textu v jiných jazycích než angličtině, přičemž je také mnohem rychlejší a o 50 % levnější v API. GPT‑4o je ve srovnání se stávajícími modely výrazně lepší v porozumění vizuálním a zvukovým informacím.

Schopnosti modelů

Před GPT‑4o bylo možné pomocí hlasového režimu komunikovat s ChatGPT s latencí 2,8 sekundy (GPT‑3.5) a v průměru 5,4 sekundy (GPT‑4). K dosažení tohoto cíle je hlasový režim sestaven ze tří samostatných modelů: jeden jednoduchý model přepisuje zvuk na text, GPT‑3.5 nebo GPT‑4 zpracovává text a vytváří textový výstup, a třetí jednoduchý model převádí tento text zpět na zvuk. Tento proces znamená, že hlavní zdroj inteligence, GPT‑4, ztrácí spoustu informací – nemůže přímo pozorovat tón, více mluvčích nebo zvuky pozadí a nemůže vytvářet výstup smíchu, zpěvu nebo vyjádření emocí.

S GPT‑4o jsme vytrénovali jeden nový model end-to-end pro text, obraz a zvuk, což znamená, že všechny vstupy a výstupy jsou zpracovávány stejnou neuronovou sítí. Protože GPT‑4o je náš první model, který kombinuje všechny tyto modality, stále teprve začínáme prozkoumávat, co model dokáže a jaké má omezení.

Zkoumání schopností

Vyber vzorek:
1
Vstup

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Výstup
Robot on typewriter
3
Vstup

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Výstup
Robot on typewriter with more text
5
Vstup

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Výstup
Robot ripping sheet

Hodnocení modelů

Měřeno na tradičních benchmarcích, GPT‑4o dosahuje výkonu na úrovni GPT‑4 Turbo v oblasti textu, odůvodňování a vytváření kódu, přičemž nastavuje nové vysoké standardy pro vícejazyčné, zvukové a vizuální schopnosti.

Vyhodnocení textu

Tokenizace jazyka

Těchto 20 jazyků bylo vybráno jako reprezentativní pro kompresi nového tokenizátoru napříč různými jazykovými rodinami

Gujarati 4,4x méně tokenů (ze 145 na 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3,5x méně tokenů (z 159 na 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamil 3,3x méně tokenů (ze 116 na 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2,9x méně tokenů (z 96 na 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Hindština má 2,9x méně tokenů (z 90 na 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Urdu má 2,5x méně tokenů (z 82 na 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Arabština 2,0x méně tokenů (z 53 na 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Perština má 1,9x méně tokenů (z 61 na 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Ruština má 1,7x méně tokenů (z 39 na 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Korejština má 1,7x méně tokenů (z 45 na 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Vietnamština má 1,5x méně tokenů (z 46 na 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Čínština má 1,4x méně tokenů (z 34 na 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Japonština má 1,4x méně tokenů (z 37 na 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Turečtina má 1,3x méně tokenů (z 39 na 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Italština má 1,2x méně tokenů (z 34 na 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Němčina 1,2x méně tokenů (z 34 na 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Španělština má 1,1x méně tokenů (z 29 na 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Portugalština má 1,1x méně tokenů (z 30 na 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Francouzština má 1,1x méně tokenů (z 31 na 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Angličtina má 1,1x méně tokenů (z 27 na 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Bezpečnost modelu a jeho omezení

GPT‑4o má zabudovanou bezpečnost již v návrhu napříč modalitami, pomocí technik, jako je filtrování trénovacích dat a zdokonalování chování modelu po trénování. Také jsme vytvořili nové bezpečnostní systémy, které poskytují bezpečnostní opatření pro hlasové výstupy.

Hodnotili jsme GPT‑4o podle našeho
Rámce připravenosti a v souladu s našimi dobrovolnými závazky. Naše hodnocení kybernetické bezpečnosti, CBRN, přesvědčování a autonomie modelu ukazují, že GPT‑4o nedosahuje skóre nad střední riziko v žádné z těchto kategorií. Toto hodnocení zahrnovalo provedení sady automatických a lidských hodnocení během celého procesu trénování modelu. Testovali jsme verze modelu před zmírněním bezpečnostních opatření i po nich, s využitím vlastního jemného doladění a promptů, abychom lépe odhalili schopnosti modelu.

GPT‑4o také prošel rozsáhlým externím red teamingem se 70+
externími odborníky v doménách, jako je sociální psychologie, zaujatost a spravedlnost a dezinformace, aby identifikoval rizika, která jsou nově přidanými modalitami zavedena nebo zesílena. Tyto poznatky jsme využili k vytvoření našich bezpečnostních opatření, abychom zlepšili bezpečnost interakce s GPT‑4o. Budeme pokračovat ve zmírňování nových rizik, jakmile budou objevena.

Uvědomujeme si, že zvukové modality GPT‑4o představují řadu nových rizik. Dnes veřejně zpřístupňujeme textové a obrázkové vstupy a textové výstupy. V nadcházejících týdnech a měsících budeme pracovat na technické infrastruktuře, použitelnosti po trénování a bezpečnosti, které jsou nezbytné pro vydání dalších modalit. Například při spuštění budou zvukové výstupy omezeny na výběr přednastavených hlasů a budou se řídit našimi stávajícími bezpečnostními zásadami. Další podrobnosti týkající se celé škály modalit systému GPT‑4o ti sdělíme v připravované systémové kartě.

Během testování a iterací s modelem jsme zjistili několik omezení, která se vyskytují ve všech modalitách modelu, z nichž některá jsou uvedena níže.

Příklady omezení modelů

Rádi bychom získali zpětnou vazbu, která nám pomůže identifikovat úkoly, kde GPT‑4 Turbo stále překonává GPT‑4o, abychom mohli model nadále vylepšovat. Děkujeme. 

Karta hodnocení rizik ChatGPT-4o

Aktualizováno 8. května 2024

Sledovaná kategorie rizik
Úroveň rizika před zmíněním rizik
Určení úrovně rizika před zmírněním rizik pomocí nejlepších známých technik zjišťování schopností.
Úroveň rizika po zmírnění rizik
Určení celkové úrovně rizika po zavedení opatření na jeho snížení pomocí nejlepších známých technik zjišťování schopností.
Kybernetická bezpečnost
Nízká
Nízká
CBRN
Nízká
Nízká
Přesvědčování
Střední
Střední
Model autonomie
Nízká
Nízká

V rámci našeho rámce připravenosti provádíme pravidelná hodnocení a aktualizujeme výsledkové karty našich modelů. Nasazují se pouze modely, které mají po zmírnění skóre „střední“ nebo nižší. Celková úroveň rizika modelu je určena nejvyšší úrovní rizika v jakékoli kategorii. V současné době je GPT‑4o hodnoceno jako středně rizikové jak před, tak po zmírnění rizik.

Dostupnost modelu 1

GPT‑4o je naším nejnovějším krokem v posouvání hranic hlubokého učení, tentokrát směrem k praktické použitelnosti. Za poslední dva roky jsme vynaložili velké úsilí na zlepšení efektivity v každé vrstvě stacku. Jako první plod tohoto výzkumu jsme schopni zpřístupnit model na úrovni GPT‑4 mnohem širší veřejnosti. Schopnosti GPT‑4o budou zaváděny iterativně (ode dneška s rozšířeným přístupem pro red team). 

Dnes se v ChatGPT začínají zavádět textové a obrazové funkce GPT‑4o. Zpřístupňujeme GPT‑4o v bezplatné verzi a pro uživatele Plus s až 5x vyššími limity zpráv. V nadcházejících týdnech uvedeme novou verzi hlasového režimu s GPT‑4o v alfa verzi v rámci ChatGPT Plus.

Vývojáři mohou nyní přistupovat ke GPT‑4o v API jako k textovému a vizuálnímu modelu. GPT‑4o je 2x rychlejší, stojí polovinu a má 5x vyšší limity rychlosti ve srovnání s GPT‑4 Turbo. Plánujeme v nadcházejících týdnech spustit podporu pro nové audio a video funkce GPT‑4o pro malou skupinu důvěryhodných partnerů v API.