Hallo GPT‑4o
Met trots introduceren we GPT‑4o, ons nieuwe vlaggenschipmodel, dat met audio, visuele elementen en tekst in real time kan redeneren.
De aankondiging van 13 mei raden.
GPT‑4o ('o' staat voor 'omni') is een stap in de richting van veel natuurlijkere interactie tussen mens en computer. Het model accepteert elke combinatie van tekst, audio, afbeeldingen en video als invoer en genereert elke combinatie van tekst, audio en afbeeldingen als uitvoer. Het kan binnen slechts 232 milliseconden reageren op audio-invoer, met een gemiddelde van 320 milliseconden, wat vergelijkbaar is met de tijd die een mens nodig heeft om te reageren(opent in een nieuw venster) in een gesprek. Dit model is net zo goed in Engels en programmeren als GPT‑4 Turbo, maar bij tekst in andere talen zijn de prestaties duidelijk vooruit gegaan. Bovendien is GPT‑4o als je het via de API gebruikt, veel sneller en 50% goedkoper. In vergelijking met bestaande modellen is GPT‑4o vooral beter in het begrijpen van visuele elementen en audio.
Mogelijkheden van het model
Twee GPT‑4o‑modellen die met elkaar communiceren en zingen.
Voorbereiding op een sollicitatiegesprek.
Steen, papier, schaar.
Sarcasme.
Wiskunde met Sal en Imran Khan.
Twee GPT‑4o‑modellen die zingen in harmonie.
Objecten identificeren en Spaans leren.
Vergaderen met AI.
Realtime vertalingen.
Slaapliedje.
Sneller spreken.
Happy Birthday.
Hond.
Flauwe grappen.
GPT‑4o met Andy van BeMyEyes in Londen.
'Proof of concept' voor klantenservice.
Voordat GPT‑4o in gebruik kwam, kon je Spraakmodus gebruiken om met ChatGPT te praten. De wachttijd was gemiddeld 2,8 seconden (GPT‑3.5) en 5,4 seconden (GPT‑4). Dit is mogelijk omdat Spraakmodus een pijplijn is van drie aparte modellen: een eenvoudig model transcribeert de audio, GPT‑3.5 of GPT‑4 verwerkt de tekst en genereert een antwoord, en een derde eenvoudig model zet die tekst weer om naar audio. Door dit proces mist de belangrijkste bron van intelligentie, GPT‑4, een hoop informatie. Zo kan het niet direct de toon, meerdere sprekers of achtergrondgeluiden herkennen en kan het zelf niet lachen, zingen of emotie uitdrukken in het antwoord.
Met GPT‑4o hebben we een nieuw model gebouwd dat tekst, visuele elementen en audio integraal kan verwerken, wat inhoudt dat alle invoer en uitvoer wordt verwerkt door hetzelfde neurale netwerk. Omdat GPT‑4o het eerste model is waarin al deze modaliteiten worden gecombineerd, weten we nog lang niet alles over de mogelijkheden en beperkingen ervan.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Volgens de gangbare benchmarks presteert GPT‑4o net zo goed als GPT‑4 Turbo als het gaat om tekst, redeneren en programmeren, en overtreft het de vaardigheden van eerdere modellen op het gebied van meertaligheid, audio en visuele elementen.
Teksbeoordeling
De keus viel op deze twintig talen omdat zij representatief zijn voor de compressie die de tokenizer in verschillende taalfamilies uitvoert.
Gujaarees 4,4 x minder tokens (van 145 naar 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu 3,5 x minder tokens (van 159 naar 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamil 3,3 x minder tokens (van 116 naar 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2,9 x minder tokens (van 96 naar 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2,9 x minder tokens (van 90 naar 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdu 2,5 x minder tokens (van 82 naar 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arabisch 2,0 x minder tokens (van 53 naar 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Perzisch 1,9 x minder tokens (van 61 naar 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Russisch 1,7 x minder tokens (van 39 naar 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Koreaans 1,7 x minder tokens (van 45 naar 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnamees 1,5 x minder tokens (van 46 naar 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Chinees 1,4 x minder tokens (van 34 naar 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japans 1,4 x minder tokens (van 37 naar 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Turks 1,3 x minder tokens (van 39 naar 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Italiaans 1,2 x minder tokens (van 34 naar 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Duits 1,2 x minder tokens (van 34 naar 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Spaans 1,1 x minder tokens (van 29 naar 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portugees 1,1 x minder tokens (van 30 naar 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Frans 1,1 x minder tokens (van 31 naar 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Engels 1,1 x minder tokens (van 27 naar 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
Veiligheid heeft vanaf het begin centraal gestaan bij het ontwerpen van GPT‑4o, en dat geldt voor alle modaliteiten. We gebruikten verschillende technieken, zoals het filteren van trainingsgegevens en het verbeteren van het gedrag van het model na de training. Daarnaast hebben we ook nieuwe veiligheidssystemen ontwikkeld om ervoor te zorgen dat de gesproken reacties gepast en veilig zijn.
We hebben GPT‑4o beoordeeld volgens ons Preparedness Framework en in overeenstemming met onzeeigen uitgangspunten. Uit onze evaluaties van de cyberbeveiliging, CBRN, overtuigingskracht en modelzelfstandigheid blijkt dat het risiconiveau van GPT‑4o in geen van deze categorieën hoger dan gemiddeld is. Voor deze beoordeling werden terwijl het model werd getraind verschillende geautomatiseerde en menselijke evaluaties uitgevoerd. Om beter te begrijpen wat het model kan, gebruikten we gerichte extra training en specifieke prompts om zowel de versie zonder als met risicobeperkingen te testen.
GPT‑4o is ook uitgebreid onderzocht door een 'red team' van meer dan 70 externe experts op gebieden als sociale psychologie, partijdigheid en eerlijkheid, en misinformatie. Zij zochten naar de risico's die ontstaan of worden versterkt door de recent toegevoegde modaliteiten. De inzichten die we hebben opgedaan, hebben we gebruikt om de veiligheidsvoorzieningen verder te ontwikkelen, met als doel de veiligheid van interacties met GPT‑4o te verbeteren. Ook in de toekomst blijven we nieuwe risico's actief aanpakken.
We erkennen dat het gebruik van audio in GPT‑4o nieuwe soorten risico's met zich meebrengt. Vanaf vandaag kan iedereen tekst en afbeeldingen invoeren en een geschreven antwoord krijgen. In de komende weken en maanden werken we aan de technische infrastructuur, gebruiksvriendelijkheid (via post-training) en de veiligheid die nodig zijn om de andere modaliteiten beschikbaar te maken. Zo zullen er na de lancering slechts een beperkt aantal vooraf ingestelde stemmen beschikbaar zijn voor gesproken antwoorden en gelden de bestaande veiligheidsregels. Binnenkort publiceren we een document waarin alle modaliteiten van GPT‑4o tot in detail worden uitgelegd.
Tijdens het testen en verbeteren van het model hebben we verschillende beperkingen opgemerkt die in alle modaliteiten van het model voorkomen. Hieronder geven we daar enkele voorbeelden van.
Voorbeelden van beperkingen van het model
Om het model te blijven verbeteren, ontvangen we graag feedback zodat we erachter kunnen komen bij welke taken GPT‑4 Turbo nog steeds beter presteert dan GPT‑4o.
Bijgewerkt op 8 mei 2024
Als onderdeel van ons Preparedness Framework worden voor onze modellen met regelmaat evaluaties uitgevoerd en scorekaarten geactualiseerd. We rollen alleen modellen uit waarin risicobeperkingen zijn doorgevoerd en die gemiddeld of lager scoren. Het algehele risiconiveau van een model wordt bepaald door het hoogste risiconiveau in een van de categorieën. Zowel de GPT‑4o‑versie voor en na risicobeperking hebben momenteel een gemiddeld risiconiveau.
Met GPT‑4o zetten we de nieuwste stap om de grenzen van deep learning te verleggen, waarbij we dit keer de nadruk leggen op bruikbaarheid in de praktijk. De afgelopen twee jaar hebben we hard gewerkt om elk onderdeel van de stack efficiënter te maken. Het eerste resultaat van het onderzoek is dat we het GPT‑4‑model nu voor een groter publiek beschikbaar kunnen maken. De mogelijkheden van GPT‑4o worden stapsgewijs uitgerold ('red teams' hebben vanaf vandaag uitgebreide toegang).
De mogelijkheden van GPT‑4o voor tekst en afbeeldingen worden vanaf vandaag uitgerold in ChatGPT. We maken GPT‑4o beschikbaar voor gebruikers zonder betaald abonnement en voor Plus-gebruikers, die vijf keer hogere limieten voor berichten krijgen. In de komende weken brengen we een nieuwe alfaversie van Spraakmodus met GPT‑4o uit in ChatGPT Plus.
Ontwikkelaars kunnen GPT‑4o nu via de API gebruiken als een model dat zowel tekst als visuele elementen begrijpt. GPT‑4o is twee keer sneller, kost de helft en heeft vijf keer hogere verzoeklimieten dan GPT‑4 Turbo. We zijn van plan om in de komende weken de nieuwe audio- en videomogelijkheden van GPT‑4o via de API beschikbaar te maken voor een kleine groep vertrouwde partners.