Hallo, GPT‑4o
Vi lanserer GPT‑4o, den nye flaggskipmodellen vår som kan resonnere på tvers av lyd, bilde og tekst i sanntid.
Gjetter kunngjøringen som kommer 13. mai.
GPT‑4o («o» for «omni») er et skritt i retning av en mye mer naturlig interaksjon mellom mennesker og datamaskiner – den godtar enhver kombinasjon av tekst, lyd, bilder og video som inndata og genererer enhver kombinasjon av tekst, lyd og bilder som utdata. Den kan reagere på lydinndata på så lite som 232 millisekunder, med et gjennomsnitt på 320 millisekunder, noe som tilsvarer menneskelig svartid(åpnes i et nytt vindu) i en samtale. Den matcher ytelsen til GPT‑4 Turbo for tekst på engelsk og kode, med betydelig forbedring for tekst på andre språk enn engelsk, samtidig som den er mye raskere og 50 % billigere i API-et. GPT‑4o er spesielt bedre på syns- og lydforståelse sammenlignet med eksisterende modeller.
Modellfunksjoner
To GPT‑4o som samhandler og synger.
Intervjuforberedelse.
Stein, saks, papir.
Sarkasme.
Matematikk med Sal og Imran Khan.
To GPT‑4o som harmoniserer.
Pek og lær spansk.
Møte-KI.
Oversettelse i sanntid.
Vuggevise.
Snakke raskere.
Gratulerer med dagen.
Hund.
Pappavitser.
GPT‑4o med Andy, fra BeMyEyes i London.
Konseptbevis for kundeservice.
Før GPT‑4o kunne du bruke talemodus til å snakke med ChatGPT, med en gjennomsnittlig ventetid på 2,8 sekunder (GPT‑3.5) og 5,4 sekunder (GPT‑4). For å oppnå dette består Talemodus av tre separate modeller: en enkel modell transkriberer lyd til tekst, GPT‑3.5 eller GPT‑4 tar imot og sender ut tekst, og en tredje enkel modell konverterer teksten tilbake til lyd. Denne prosessen betyr at hovedkilden til intelligensen, GPT‑4, mister mye informasjon – den kan ikke direkte observere tonefall, flere talere eller bakgrunnsstøy, og den kan ikke generere latter, sang eller følelser som utdata.
Med GPT‑4o har vi lært opp én enkelt ny modell fra start til slutt på tvers av tekst, bilde og lyd, noe som betyr at alle inndata og utdata behandles av det samme nevrale nettverket. Siden GPT‑4o er den første modellen vår som kombinerer alle disse modalitetene, er vi så vidt begynt å utforske hva modellen kan gjøre, og hvilke begrensninger den har.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Hvis vi måler GPT‑4o opp mot tradisjonelle referanseverdier, oppnår den en ytelse på nivå med GPT‑4 Turbo når det gjelder tekst, resonnement og kodingsintelligens, samtidig som den setter nye, høye standarder for flerspråklige egenskaper og lyd- og bildeegenskaper.
Tekstevaluering
Disse 20 språkene ble valgt som representative for den nye tokeniseringsfunksjonens komprimering på tvers av ulike språkfamilier.
Gujarati 4,4x færre tokener (fra 145 til 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu 3,5x færre tokener (fra 159 til 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamil 3,3x færre tokener (fra 116 til 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2,9x færre tokener (fra 96 til 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2,9x færre tokener (fra 90 til 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdu 2,5x færre tokener (fra 82 til 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arabisk 2,0x færre tokener (fra 53 til 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Persisk 1,9x færre tokener (fra 61 til 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Russisk 1,7x færre tokener (fra 39 til 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Koreansk 1,7x færre tokener (fra 45 til 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnamesisk 1,5x færre tokener (fra 46 til 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Kinesisk 1,4x færre tokener (fra 34 til 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japansk 1,4x færre tokener (fra 37 til 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Tyrkisk 1,3x færre tokener (fra 39 til 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Italiensk 1,2x færre tokener (fra 34 til 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Tysk 1,2x færre tokener (fra 34 til 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Spansk 1,1x færre tokener (fra 29 til 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portugisisk 1,1x færre tokener (fra 30 til 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Fransk 1,1x færre tokener (fra 31 til 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Engelsk 1,1x færre tokener (fra 27 til 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o har innebygd sikkerhet i alle modaliteter, gjennom teknikker som filtrering av opplæringsdata og finjustering av modellens atferd etter opplæring. Vi har også utviklet nye sikkerhetssystemer for å tilby sikkerhetsfunksjoner når det gjelder taleutdata.
Vi har evaluert GPT‑4o i henhold til beredskapsrammeverket vårt og i tråd med de frivillige forpliktelsene våre. Evalueringene våre av cybersikkerhet, CBRN, overtalelse og modellautonomi viser at GPT‑4o ikke scorer over middels risiko i noen av disse kategoriene. Denne vurderingen innebar en rekke automatiserte og manuelle evalueringer gjennom hele modellens opplæringsprosess. Vi testet versjoner av modellen både før og etter sikkerhetstiltak, ved hjelp av egendefinerte finjusteringer og meldinger, for å få en bedre forståelse av modellens ferdigheter.
GPT‑4o har også gjennomgått omfattende eksterne Red team-øvelser med over 70 eksterne eksperter på områder som sosialpsykologi, fordommer, rettferdighet og feilinformasjon for å identifisere risikoer som introduseres eller forsterkes av de nylig tillagte modalitetene. Vi brukte denne lærdommen til å utvikle sikkerhetstiltakene våre ved samhandling med GPT‑4o. Vi vil fortsette å håndtere nye risikoer etter hvert som de oppdages.
Vi er klar over at GPT‑4o sine lydmodaliteter medfører en rekke nye risikoer. I dag offentliggjør vi tekst- og bildeinndata og tekstutdata. I løpet av de kommende ukene og månedene skal vi jobbe med den tekniske infrastrukturen, brukervennlighet etter opplæring og sikkerheten som er nødvendig for å kunne lansere de andre modalitetene. Ved lanseringen vil for eksempel lydutdataene være begrenset til et utvalg forhåndsinnstilte stemmer og følge våre gjeldende sikkerhetsregler. Vi kommer til å dele flere detaljer om alle modalitetene til GPT‑4o i det kommende systemkortet.
Gjennom testing og iterasjon med modellen har vi observert flere begrensninger som finnes i alle modellens modaliteter, hvorav noen er belyst nedenfor.
Eksempler på modellbegrensninger
Vi vil gjerne ha tilbakemeldinger for å identifisere oppgaver der GPT‑4 Turbo fremdeles er bedre enn GPT‑4o, slik at vi kan fortsette å forbedre modellen.
Oppdatert 8. mai 2024
Som en del av beredskapsrammeverket vårt utfører vi regelmessig evalueringer og oppdaterer resultatkortet for modellene våre. Kun modeller med et risikoresultat på «middels» eller lavere etter risikobegrensende tiltak blir tatt i bruk. Det samlede risikonivået for en modell bestemmes av det høyeste risikonivået i enhver kategori. For øyeblikket vurderes GPT‑4o til å ha middels risiko både før og etter risikobegrensende tiltak.
GPT‑4o er det siste trinnet i å flytte grensene for dyp læring – denne gangen i retning av praktisk brukervennlighet. Vi har brukt mye tid på å forbedre effektiviteten på alle nivåer i stakken de siste to årene. Som et første resultat av denne researchen kan vi nå lage en modell på GPT‑4‑nivå tilgjengelig for et mye bredere publikum. GPT‑4o sine funksjoner vil bli lansert iterativt (med utvidet tilgang for Red team fra og med i dag).
GPT‑4o sine tekst- og bildefunksjoner begynner å lanseres i ChatGPT i dag. Vi gjør GPT‑4o tilgjengelig på Free-nivået og for Plus-brukere med opptil 5 ganger høyere meldingsgrenser. Vi kommer til å lansere en ny versjon av Talemodus med GPT‑4o i alfaversjon i ChatGPT Plus i løpet av de kommende ukene.
Utviklere har nå også tilgang til GPT‑4o i API-et som en tekst- og bildemodell. GPT‑4o er dobbelt så rask, koster halvparten så mye som og har fem ganger høyere hastighetsgrenser sammenlignet med GPT‑4 Turbo. Vi planlegger å lansere støtte for GPT‑4o sine nye lyd- og videofunksjoner til en liten gruppe betrodde partnere i API-et i løpet av de kommende ukene.