Hello GPT‑4o
Bejelentjük a GPT‑4o‑t, az új zászlóshajó modellünket, amely valós időben képes indoklást adni hang, kép és szöveg alapján.
A május 13-i bejelentéssel kapcsolatos találgatás.
A GPT‑4o („o” az „omni”) egy lépés a sokkal természetesebb ember-számítógép interakció felé—bármilyen szöveg, hang, kép és videó kombinációját elfogadja bevitelként, és bármilyen szöveg, hang és kép kombinációját generálja kimenetként. Az audio bevitelre akár 232 ezredmásodperc alatt képes reagálni, átlagosan 320 ezredmásodperc alatt, ami hasonló az emberi válaszidőhöz(új ablakban nyílik meg) beszélgetés során. Megfelel a GPT‑4 Turbo teljesítményének angol és kódos szövegek esetén, jelentős javulást mutatva a nem angol nyelvű szövegek terén, miközben sokkal gyorsabb és 50%-kal olcsóbb az API-ban. A GPT‑4o különösen jobban teljesít a látás és a hang megértésében a meglévő modellekhez képest.
A modellek képességei
Két GPT‑4o interakcióba lép egymással és énekel.
Interjúra való felkészülés.
Kő, papír, olló.
Szarkazmus.
Matematika Sal és Imran Khannal.
Két GPT‑4o harmonizálást végez.
Mutass rá és tanulj spanyolul.
Találkozó az AI-vel.
Valós idejű fordítás.
Altatódal.
Gyorsabb beszéd.
Boldog születésnapot.
Kutya.
Apukás viccek.
GPT‑4o Andyvel, a londoni BeMyEyes-tól.
Ügyfélszolgálati koncepcióvizsgálat.
A GPT‑4o előtt hang módban a ChatGPT‑vel átlagosan 2,8 másodperces késéssel (GPT‑3.5), illetve 5,4 másodperc késéssel (GPT‑4) tudtál beszélgetni. Ennek elérése érdekében a hang mód egy három különálló modellből álló folyamat: az egyik egyszerű modell átírja a hangot szöveggé, a GPT‑3.5 vagy a GPT‑4 szöveget fogad be és kimenetet ad, a harmadik egyszerű modell pedig visszaalakítja a szöveget hanggá. Ez a folyamat azt jelenti, hogy az intelligencia fő forrása, a GPT‑4, sok információt veszít el—nem képes közvetlenül megfigyelni a hangszínt, a több beszélőt vagy a háttérzajokat, és nem tud nevetést, éneket vagy érzelemkifejezést kimenetként adni.
A GPT‑4o segítségével egyetlen új modellt tanítottunk végponttól végpontig szöveg, kép és hang terén, ami azt jelenti, hogy minden bevitelt és kimenetet ugyanaz a neurális hálózat dolgoz fel. Mivel a GPT‑4o az első modellünk, amely ezeket a modalitásokat ötvözi, még mindig csak a felszínt kapargatjuk annak felfedezésében, hogy mire képes a modell és mik a korlátai.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

A hagyományos referenciaértékekkel mérve a GPT‑4o eléri a GPT‑4 Turbo szintű teljesítményt a szöveg, indoklás és kódolási intelligencia terén, miközben új mércét állít fel a többnyelvűség, hang és képi képességek terén.
Szövegértékelés
Ez a 20 nyelv került kiválasztásra az új tokenizáló tömörítésének reprezentatívjaként a különböző nyelvcsaládok közül
Gujarati 4,4-szer kevesebb token (145-ről 33-ra) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu 3,5-szer kevesebb token (159-ről 45-re) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamil 3,3-szor kevesebb token (116-ról 35-re) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2,9-szer kevesebb token (96-ról 33-ra) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2,9-szer kevesebb token (90-ről 31-re) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdu 2,5-szer kevesebb token (82-ről 33-ra) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arab 2,0x kevesebb token (53-ról 26-ra) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Perzsa nyelven 1,9-szer kevesebb token (61-ről 32-re) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Orosz 1,7-szer kevesebb token (39-ről 23-ra) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Koreai 1,7-szer kevesebb token (45-ről 27-re) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnámi 1,5-szer kevesebb token (46-ról 30-ra) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Kínai 1,4-szer kevesebb token (34-ről 24-re) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japán 1,4-szer kevesebb token (37-ről 26-ra) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Török 1,3-szor kevesebb token (39-ről 30-ra) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Olasz 1,2-szer kevesebb token (34-ről 28-ra) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Német 1,2-szer kevesebb token (34-ről 29-re) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Spanyol 1,1-szer kevesebb token (29-ről 26-ra) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portugál 1,1-szer kevesebb token (30-ról 27-re) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Francia 1,1-szer kevesebb token (31-ről 28-ra) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Angol 1,1x kevesebb token (27-ről 24-re) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
A GPT‑4o biztonságot nyújt a különböző módokban, olyan technikák révén, mint a betanítási adatok szűrése és a modell viselkedésének finomítása a betanítás utáni folyamat során. Új biztonsági rendszereket is létrehoztunk, hogy védőkorlátokat biztosítsunk a hangkimenetekhez.
A GPT‑4o‑t a Felkészültségi keretrendszerünk és az önkéntes kötelezettségvállalásaink alapján értékeltük. A kiberbiztonságról, a CBRN-ről, a meggyőzésről és a modell autonómiáról készült értékeléseink azt mutatják, hogy a GPT‑4o egyik kategóriában sem lépi túl a közepes kockázati szintet. Ez az értékelés a modell betanítási folyamatának során egy sor automatizált és emberek által végzett értékelés végrehajtását foglalta magában. A modell képességeinek jobb kiaknázása érdekében egyéni finomhangolást és utasításokat alkalmazva teszteltük a modell biztonsági kockázat csökkentése előtti és utáni változatait.
A GPT‑4o kiterjedt külső vörös csapat általi tesztelésen is átesett 70+ külső szakértő bevonásával, olyan területeken, mint a szociálpszichológia, az elfogultság, a méltányosság, valamint a félretájékoztatás, hogy azonosításra kerüljenek az újonnan hozzáadott modalitások által bevezetett vagy felerősített kockázatok. Ezeket a tanulságokat felhasználtuk a biztonsági beavatkozásaink kidolgozásához, hogy javítsuk a GPT‑4o‑val való interakció biztonságát. A felmerülő új kockázatokat folyamatosan kezelni fogjuk.
Elismerjük, hogy a GPT‑4o hangmodalitásai számos újszerű kockázatot jelentenek. Ma nyilvánosan közzétesszük a szöveges és képi beviteleket, valamint a szöveges kimeneteket. A következő hetekben és hónapokban a technikai infrastruktúrán, a képzés utáni használhatóságon és a biztonságon fogunk dolgozni, amelyek a további modalitások bevezetéséhez szükségesek. Például az induláskor a hangkimenetek csak előre beállított hangok kiválasztására korlátozódnak, és a meglévő biztonsági irányelveinket követik. A GPT‑4o teljes körű modalitásait a következő rendszerkártyán fogjuk részletesen bemutatni.
A modell tesztelése és iterációja során több korlátozást is megfigyeltünk, amelyek a modell összes modalitására kiterjednek, ezek közül néhányat az alábbiakban mutatunk be.
Példák a modell korlátaira
Szeretnénk visszajelzést kapni, amely segít beazonosítani azokat a feladatokat, ahol a GPT‑4 Turbo felül tudja múlni a GPT‑4o‑t, hogy tovább fejleszthessük a modellt. Köszönjük.
Frissítve: 2024. május 8.
Felkészültségi keretrendszerünk részeként rendszeres értékeléseket végzünk és frissítjük modelljeink értékelőlapjait. Kizárólag a „közepes” vagy annál alacsonyabb értékeléssel bíró modellek kerülnek alkalmazásra. A modell általános kockázati szintjét bármelyik kategória legmagasabb kockázati szintje határozza meg. Jelenleg a GPT‑4o az értékelés szerint közepes kockázatú, mind a kárenyhítési erőfeszítések előtt, mind azok után.
A GPT‑4o a legújabb lépésünk a mély tanulás határainak feszegetésében, ezúttal a gyakorlati használhatóság irányába. Az elmúlt két évben sok erőfeszítést tettünk a hatékonyság javítására a rendszer minden rétegében. A kutatás első eredményeként egy GPT‑4 szintű modellt sokkal szélesebb körben elérhetővé tudunk tenni. A GPT‑4o képességeit fokozatosan vezetik be (a mai naptól kezdve kiterjesztett vörös csapat hozzáféréssel).
A GPT‑4o szöveges és képi képességek mától fokozatosan jelennek meg a ChatGPT‑ben. A GPT‑4o‑t az ingyenes szinten, valamint a Plus felhasználók számára akár 5-ször magasabb üzenetkorláttal tesszük elérhetővé. A következő hetekben bevezetjük a Hang mód új verzióját a GPT‑4o‑val alfa módban a ChatGPT Plus-on belül.
A fejlesztők mostantól az API-ban is hozzáférhetnek a GPT‑4o‑hoz, mint szöveg- és látásmodellhez. A GPT‑4o kétszer gyorsabb, fele annyiba kerül, és ötször magasabb korlátokkal rendelkezik, mint a GPT‑4 Turbo. Tervünk az, hogy az elkövetkező hetekben elindítjuk a GPT‑4o új audio- és videó képességeinek ügyfélszolgálatát egy kis csoport megbízható partner számára az API-ban.