Hej GPT‑4o
Vi presenterar GPT‑4o, vår nya flaggskeppsmodell som kan resonera mellan ljud, bild och text i realtid.
Gissar tillkännagivandet den 13 maj.
GPT‑4o ("o" för "omni") är ett steg mot en mycket mer naturlig interaktion mellan människa och dator – den accepterar en kombinationer av text, ljud, bild och video som indata och genererar en kombination av text-, ljud- och bildutdata. Den kan ge respons på ljudindata på så lite som 232 millisekunder, med ett genomsnitt på 320 millisekunder, vilket motsvarar den mänskliga svarstiden(öppnas i ett nytt fönster) i en konversation. Den uppnår samma prestanda som GPT‑4 Turbo för text på engelska och kod, med betydande förbättringar för text på icke-engelska språk, samtidigt som den är mycket snabbare och 50 % billigare i API:et. GPT‑4o är framför allt bättre på att förstå ljud och bild jämfört med befintliga modeller.
Modellfunktioner
Två GPT‑4o:er som interagerar och sjunger.
Förberedelser inför intervju
Sten, sax, påse.
Sarkasm.
Matte med Sal och Imran Khan.
Två GPT‑4o:er som harmoniserar.
Peka och lära sig spanska.
Möte med AI.
Översättning i realtid.
Vaggvisa.
Prata snabbare.
Grattis på födelsedagen.
Hund.
Pappaskämt.
GPT‑4o med Andy, från BeMyEyes i London.
Kundtjänst – verifiering av koncept.
Före GPT‑4o kunde du använda röstläge för att prata med ChatGPT med en genomsnittlig latenstid på 2,8 sekunder (GPT‑3.5) och 5,4 sekunder (GPT‑4). För att uppnå detta använder röstläge en kedja med tre separata modeller: en enkel modell transkriberar ljud till text, GPT‑3.5 eller GPT‑4 läser in text och genererar ny text, och en tredje enkel modell omvandlar texten tillbaka till ljud. Den här processen medför att den huvudsakliga informationskällan, GPT‑4, förlorar mycket information – den kan inte direkt uppfatta ton, flera talare eller bakgrundsljud, och den kan inte återge skratt, sång eller uttrycka känslor.
Med GPT‑4o tränade vi en enskild ny modell från början till slut för text, bild och ljud, vilket innebär att alla in- och utdata bearbetas av samma neurala nätverk. Eftersom GPT‑4o är vår första modell som kombinerar alla dessa modaliteter har vi fortfarande bara skrapat på ytan när det gäller att utforska vad modellen kan göra, och dess begränsningar.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Med traditionella mått mätt uppnår GPT‑4o prestanda på GPT‑4 Turbo-nivå inom text, resonemang och kodningsintelligens, samtidigt som den sätter nya höga standarder när det gäller flerspråkighet, ljud och bild.
Textutvärdering
Dessa 20 språk valdes ut för att vara representativa för den nya tokeniserarens komprimering över olika språkfamiljer
Gujarati 4,4x färre tokens (från 145 till 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu 3,5x färre tokens (från 159 till 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamil 3,3x färre tokens (från 116 till 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2,9x färre tokens (från 96 till 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2,9x färre tokens (från 90 till 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdu 2,5x färre tokens (från 82 till 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arabiska 2.0x färre tokens (från 53 till 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Persiska 1,9x färre tokens (från 61 till 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Ryska 1,7x färre tokens (från 39 till 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Koreanska 1,7x färre tokens (från 45 till 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnamesiska 1,5x färre tokens (från 46 till 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Kinesiska 1,4x färre tokens (från 34 till 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japanska 1,4x färre tokens (från 37 till 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Turkiska 1,3x färre tokens (från 39 till 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Italienska 1,2x färre tokens (från 34 till 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Tyska 1,2x färre tokens (från 34 till 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Spanska 1,1x färre tokens (från 29 till 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portugisiska 1,1x färre tokens (från 30 till 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Franska 1,1x färre tokens (från 31 till 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Engelska 1,1x färre tokens (från 27 till 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o har inbyggd säkerhet för alla modaliteter, genom tekniker som filtrering av träningsdata och förfining av modellens beteende genom efterträning. Vi har också skapat nya säkerhetssystem för att sätta upp skyddsmekanismer för röstutdata.
Vi har utvärderat GPT‑4o enligt vårt beredskapsramverk och i linje med våra frivilliga åtaganden. Våra utvärderingar av cybersäkerhet, CBRN, övertalningsförmåga och modellautonomi visar att GPT‑4o inte anses vara högre än medelhög risk i någon av dessa kategorier. Utvärderingen innebar att en rad automatiska och mänskliga utvärderingar genomfördes under hela modellens träningsprocess. Vi testade båda versionerna av modellen före och efter säkerhetsbegränsningar med hjälp av anpassade finjusteringar och prompter, för att bättre få fram modellens funktioner.
GPT‑4o har också genomgått omfattande extern red teaming med över 70 externa experterinom områden som socialpsykologi, partiskhet och rättvisa samt desinformation, i syfte att identifiera risker som införs eller förstärks av de nya modaliteterna. Vi använde dessa lärdomar för att bygga ut våra säkerhetsinsatser i syfte att förbättra säkerheten vid interaktion med GPT‑4o. Vi fortsätter att förebygga nya risker i takt med att de upptäcks.
Vi är medvetna om att GPT‑4o:s ljudmodaliteter innebär en rad nya risker. Idag släpper vi text- och bildindata samt textutdata till allmänheten. Under kommande veckor och månader kommer vi att arbeta med den tekniska infrastrukturen, användbarheten via efterträning och säkerheten som krävs för att lansera de andra modaliteterna. Till exempel kommer ljudutdata vid lanseringen att vara begränsade till ett urval av förinställda röster och följa våra befintliga säkerhetspolicyer. Vi kommer att dela med oss av ytterligare information om alla GPT‑4o:s modaliteter i det kommande systemkortet.
Genom våra tester och iterationer med modellen har vi observerat flera begränsningar som finns i samtliga av modellens modaliteter, varav några illustreras nedan.
Exempel på begränsningar i modellen
Vi vill gärna ha feedback som hjälper oss att identifiera uppgifter där GPT‑4 Turbo fortfarande överträffar GPT‑4o, så att vi kan fortsätta att förbättra modellen.
Uppdaterad den 8 maj 2024
Som en del av vårt beredskapsramverk genomför vi regelbundna utvärderingar och uppdaterar styrkort för våra modeller. Endast modeller med en poäng av "medium" eller lägre efter begränsningsåtgärderna används. Den övergripande risknivån för en modell bestäms av den högsta risknivån i varje enskild kategori. För närvarande bedöms GPT‑4o ha en medelhög risk både före och efter begränsningsåtgärder.
GPT‑4o är vårt senaste steg i att tänja på gränserna för djupinlärning, den här gången i riktning mot praktisk användbarhet. Vi har lagt ner mycket arbete under de senaste två åren på att förbättra effektiviteten i varje lager av stacken. Som ett första resultat av denna forskning kan vi göra en modell på GPT‑4‑nivå tillgänglig i betydligt större utsträckning. GPT‑4o:s funktioner kommer att rullas ut stegvis (med utökad red team-åtkomst från och med idag).
GPT‑4o:s text- och bildfunktioner börjar rullas ut idag i ChatGPT. Vi gör GPT‑4o tillgängligt i gratisnivån och med upp till 5 gånger högre meddelandegränser för Plus-användare. Vi rullar ut en ny version av röstläge med GPT‑4o i alpha inom ChatGPT Plus under de kommande veckorna.
Utvecklare får nu också få tillgång till GPT‑4o i API:et som en text- och bildmodell. GPT‑4o är 2x snabbare, kostar hälften så mycket och har 5x högre hastighetsgränser jämfört med GPT‑4 Turbo. Vi planerar att lansera stöd för GPT‑4o:s nya ljud- och videofunktioner till en liten grupp betrodda partners i API:et under de kommande veckorna.