Hej GPT‑4o
Vi introducerer GPT‑4o, vores nye flagskibsmodel, der kan ræsonnere på tværs af lyd, billede og tekst i realtid.
Gætter meddelelsen den 13. maj.
GPT‑4o ("o" for "omni") er et skridt i retning af mere naturlig interaktion mellem computer og menneske. Den accepterer en hvilken som helst kombination af tekst, billede og video som input og genererer outputs af en hvilken som helst kombination af tekst, lyd og billede. Den kan svare på lydinputs på blot 232 millisekunder og gennemsnitligt 320 millisekunder, hvilket svarer til menneskelig svartid(åbner i et nyt vindue) i en samtale. Den opnår samme ydeevne som GPT‑4 Turbo for tekst på engelsk og kode, med væsentlige forbedringer i tekst på sprog, der ikke er engelsk, ligesom den er meget hurtigere og 50 % billigere i API'en. GPT‑4o er forstå billeder og lyd sammenlignet med eksisterende modeller.
Modelfunktioner
To GPT‑4o'er, der interagerer og synger.
Interviewforberedelse.
Sten , saks, papir.
Sarkasme.
Matematik med Sal og Imran Khan.
To GPT‑4o'er, der harmoniserer.
Peg og lær-spansk
Møde-AI.
Oversættelse i realtid.
Vuggevise.
Taler hurtigere.
Tillykke med fødselsdagen.
Hund.
Far-jokes.
GPT‑4o med Andy, fra BeMyEyes i London.
Proof of concept for kundeservice.
Før GPT‑4o kunne du bruge stemmetilstand til at tale med ChatGPT med en gennemsnitlig latenstid på 2,8 sekunder (GPT‑3.5) og 5,4 sekunder (GPT‑4). For at opnå dette anvender stemmetilstand en kæde med tre separate modeller: En simpel model transskriberer lyd til tekst, GPT‑3.5 eller GPT‑4 indlæser tekst og genererer ny tekst, og en tredje simpel model konverterer denne tekst tilbage til lyd. Denne proces betyder, at den primære intelligenskilde, GPT‑4, mister en masse information – den kan ikke direkte opfatte tone, flere talere eller baggrundsstøj, og den kan ikke generere latter, sang eller udtrykke følelser.
Med GPT‑4o har vi trænet en enkelt ny model fra start til slut på tværs af tekst, billede og lyd, hvilket betyder, at alle in- og outputs behandles af det samme neurale netværk. Eftersom GPT‑4o er vores første model, som kombinerer alle disse modaliteter, er vi først rigtigt begyndt at udforske, hvad modellen kan gøre, og hvad dens begrænsninger er.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Som målt på traditionelle benchmarks, så opnår GPT‑4o ydeevne på GPT‑4 Turbo-niveau inden for tekst, avanceret tænkning og kodningsintelligens, samtidigt med at den sætter nye høje standarder, når det gælder flersprogede egenskaber samt lyd- og billedegenskaber.
Tekstevaluering
Disse 20 sprog blev udvalgt som repræsentative for den nye tokeniserings komprimering på tværs af forskellige sprogfamilier.
Gujarati 4,4x færre tokens (fra 145 til 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telegu 3,5x færre tokens (fra 159 til 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamilsk 3,3x færre tokens (fra 116 til 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2,9x færre tokens (fra 96 til 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2,9x færre tokens (fra 90 til 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdu 2,5x færre tokens (fra 82 til 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arabisk 2,0x færre tokens (fra 53 til 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Persisk 1,9x færre tokens (fra 61 til 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Russisk 1,7x færre tokens (fra 39 til 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Koreansk 1,7x færre tokens (fra 45 til 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnamesisk 1,5x færre tokens (fra 46 til 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Kinesisk 1,4x færre tokens (fra 34 til 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japansk 1,4x færre tokens (fra 37 til 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Tyrkisk 1,3x færre tokens (fra 39 til 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Italiensk 1,2x færre tokens (fra 34 til 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Tysk 1,2x færre tokens (fra 34 til 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Spansk 1,1x færre tokens (fra 29 til 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portugisisk 1,1x færre tokens (fra 30 til 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Fransk 1,1x færre tokens (fra 31 til 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Engelsk 1,1x færre tokens (fra 27 til 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o har indbygget sikkerhed på tværs af modaliteter gennem teknikker som f.eks. filtrering af træningsdata og finjustering af modellens adfærd gennem efterfølgende træning. Vi har også skabt nye sikkerhedssystemer for at opsætte beskyttelsesmekanismer for stemmeoutputs.
Vi har evalueret GPT‑4o i henhold til vores rammer for beredskab og på linje med vores frivillige forpligtelser. Vores evalueringer af cybersikkerhed, CBRN, overtalelse og modelselvstændighed viser, at GPT‑4o ikke har en score over middel risiko i nogen af disse kategorier. Denne evaluering involverede kørsel af en række automatiserede og menneskelige evalueringer gennem træningsprocessen af modellen. Vi testede versioner af modellen både før og efter sikkerhedstiltag ved hjælp af tilpassede finjusteringer og forespørgsler for bedre at frembringe modellens funktioner.
GPT‑4o har også undergået omfattende red teaming med over 70 eksterne eksperter inden for domæner som f.eks. socialpsykologi, bias og rimelighed samt forkerte oplysninger for at identificere risici, der opstår eller forstærkes af de nye modaliteter. Vi har brugt disse læringer til at bygge vores egne sikkerhedstiltag for at forbedre sikkerheden ved interaktion med GPT‑4o. Vi vil fortsætte med at afbøde nye risici, efterhånden som de opdages.
Vi anerkender, at GPT‑4o’s lydmodaliteter udgør forskellige nye risici. I dag offentliggør vi tekst- og billedinputs samt tekstoutputs. I løbet af de kommende uger og måneder vil vi arbejde på den tekniske infrastruktur, brugbarhed via efterfølgende træning og sikkerhed, der er nødvendig for at udgive de andre modaliteter. For eksempel vil lydoutputs ved lancering være begrænset til et udvalg af forudindstillede stemmer og vil overholde vores eksisterende sikkerhedspolitikker. Vi vil dele yderligere oplysninger vedrørende det fulde udvalg af GPT‑4o’s modaliteter i det kommende systemkort.
Gennem vores testning og iteration med modellen har vi bemærket adskillige begrænsninger, der findes på tværs af alle modellens modaliteter, hvoraf nogle af disse er illustreret nedenfor.
Eksempler på modelbegrænsninger
Vi modtager meget gerne feedback som hjælp til at identificere opgaver, hvor GPT‑4 Turbo stadig klarer sig bedre end GPT‑4o, så vi kan fortsætte med at forbedre modellen.
Opdateret 8. maj 2024
Som en del af vores rammer for beredskab foretager vi regelmæssigt evaluering af og opdaterer scorekort for vores modeller. Det er kun modeller med en score på "medium" eller derunder efter afbødende tiltag, der bliver taget i brug. Det samlede risikoniveau for en model fastslås af det højeste risikoniveau i enhver kategori. I øjeblikket er GPT‑4o evalueret til medium risiko både før og efter afbødende tiltag.
GPT‑4o er vores seneste skridt i retning af at flytte grænserne for grundig læring, og denne gang er det i retningen af praktisk brugbarhed. Vi har brugt mange kræfter i løbet af de sidste to år på at forbedre effektiviteten på alle niveauer i stakken. Som et første resultat af denne research kan vi gøre en model på GPT‑4‑niveau tilgængelig i betydelig større udstrækning. GPT‑4o’s funktioner vil blive udrullet lidt efter lidt (med udvidet red team-adgang fra og med i dag).
GPT‑4o’s tekst- og billedfunktioner begynder at blive udrullet i dag i ChatGPT. Vi er ved at gøre GPT‑4o tilgængelig på det gratis niveau og for Plus-brugere med op til 5x højere beskedgrænser. Vi udruller en ny version af stemmetilstand med GPT‑4o i alpha i ChatGPT Plus i de kommende uger.
Udviklere kan nu også få adgang til GPT‑4o i API'en som en tekst- og billedmodel. GPT‑4o er 2x hurtigere, koster halvdelen og har 5x højere hastighedsgrænser sammenlignet med GPT‑4 Turbo. Vi planlægger at lancere support til GPT‑4o's nye lyd- og videofunktioner for en lille gruppe af betroede partnere i API'en i de kommende uger.