13. mai 2024

Tere GPT‑4o

Kuulutame välja GPT‑4o, meie uue lipulaeva mudeli, mis suudab reaalajas heli, nägemise ja teksti kaudu arutleb.

Kaastööd Proovi ChatGPT-s GPT-4o System Card

Kõik sellel lehel olevad videod on 1x kiirusel reaalajas.

13. mai teadaande äraarvamine

Rohkem ressursse

Proovi mudelit Playground Vaata uuesti otse demonstratsioone

Laadimine…

GPT‑4o („o” tähendab „omni”) on samm palju loomulikuma inimese ja arvuti interaktsiooni suunas – see võtab sisendina vastu mis tahes teksti, heli, pildi ja video kombinatsiooni ning koostab mis tahes teksti-, heli- ja pildiväljundite kombinatsiooni. See suudab helisisenditele reageerida juba 232 millisekundiga, keskmiselt 320 millisekundiga, mis sarnaneb inimese vastuse ajaga⁠(avaneb uues aknas) vestluses. See vastab GPT‑4 Turbo jõudlusele inglise keeles ja koodis, parandades oluliselt mitte-ingliskeelsetes tekstides, olles samas API-s palju kiirem ja 50% odavam. GPT‑4o on olemasolevate mudelitega võrreldes eriti parem nägemise ja heli mõistmisel.

Mudeli võimekused

Kaks GPT‑4os suhtlevad ja laulavad.

Intervjuu ettevalmistus.

Kivi-paber-käärid.

Sarkasm.

Matemaatika koos Sal ja Imran Khaniga.

Kaks GPT‑4‑i ühtlustuvad.

Osuta ja õpi hispaania keelt.

AI-ga kohtumine.

Reaalajas tõlkimine.

Hällilaul.

Räägib kiiremini.

Palju õnne sünnipäevaks.

Koer.

Isa naljad.

GPT‑4o koos Andyga Londonist pärit BeMyEyes'ist.

Klienditeeninduse tõestuskontseptsioon.

Enne GPT‑4o‑d võisid ChatGPT‑ga rääkimiseks kasutada häälrežiimi⁠ 2,8-sekundilise latentsusega (GPT‑3.5) ja keskmiselt 5,4 sekundit (GPT‑4) keskmiselt. Selle saavutamiseks koosneb häälrežiim kolmest eraldi mudelist: üks lihtne mudel transkribeerib heli tekstiks, GPT‑3.5 või GPT‑4 töötleb teksti ja annab selle väljundina, ning kolmas lihtne mudel teisendab selle teksti tagasi heliks. See protsess tähendab, et peamine intelligentsuse allikas GPT‑4 kaotab palju teavet – see ei suuda otseselt jälgida tooni, mitut kõnelejat ega taustmüra ning see ei saa naeru, laulmist ega emotsioone väljundada.

GPT‑4o abil treenisime ühe uue mudeli otsast lõpuni teksti, nägemise ja heli jaoks, mis tähendab, et kõiki sisendeid ja väljundeid töötleb sama neurovõrgustik. Kuna GPT‑4o on meie esimene mudel, mis ühendab kõik need viisid, oleme alles pinnapealselt tutvumas, mida mudel suudab teha ja millised on selle piirangud.

Võimete uurimised

Vali näidis:

Sisend

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Väljund

Sisend

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Väljund

Sisend

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Väljund

Mudelihindamised

Traditsioonilistel võrdlusalustel mõõdetuna saavutab GPT‑4o GPT‑4 Turbo tasemel jõudluse teksti, arutlemise ja kodeerimise intelligentsuse osas, seades samal ajal uued kõrged standardid mitmekeelsuse, heli- ja nägemisvõimekuse osas.

Teksti hindamine

Keele tokeniseerimine

Need 20 keelt valiti esindama uue tokeniseerija pakkimist erinevates keeleperekondades.

Gudžarati keeles 4,4 korda vähem tokeneid (145-lt 33-le)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu keeles 3,5 korda vähem tokeneid (159-lt 45-le)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamili keeles 3,3 korda vähem tokeneid (116-lt 35-le)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi keeles 2,9 korda vähem tokeneid (96-lt 33-le)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi keeles 2,9 korda vähem tokeneid (90-lt 31-le)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu keeles 2,5 korda vähem tokeneid (82-lt 33-le)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Araabia keeles 2,0 korda vähem tokeneid (53-lt 26-le)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Pärsia keeles 1,9 korda vähem tokeneid (61-lt 32-le)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Vene keeles 1,7 korda vähem tokeneid (39-lt 23-le)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Korea keeles 1,7 korda vähem tokeneid (45-lt 27-le)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnami keeles 1,5 korda vähem tokeneid (46-lt 30-le)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Hiina keeles 1,4 korda vähem tokeneid (34-lt 24-le)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Jaapani keeles 1,4 korda vähem tokeneid (37-lt 26-le)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Türgi keeles 1,3 korda vähem tokeneid (39-lt 30-le)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Itaalia keeles 1,2 korda vähem tokeneid (34-lt 28-le)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Saksa keeles 1,2 korda vähem tokeneid (34-lt 29-le)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Hispaania keeles 1,1 korda vähem tokeneid (29-lt 26-le)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portugali keeles 1,1 korda vähem tokeneid (30-lt 27-le)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Prantsuse keeles 1,1 korda vähem tokeneid (31-lt 28-le)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Inglise keeles 1,1 korda vähem tokeneid (27-lt 24-le)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Mudeli turvalisus ja piirangud

GPT‑4o‑l on ohutus disaini järgi sisseehitatud erinevates modaliteetides, kasutades selliseid tehnikaid nagu koolitusandmete filtreerimine ja mudeli käitumise täpsustamine pärast koolitust. Oleme loonud ka uued ohutussüsteemid, et pakkuda häälväljunditele kaitsepiirdeid.

Oleme hinnanud GPT‑4o vastavalt meie valmisoleku raamistikule⁠ ja kooskõlas meie vabatahtlike kohustustega⁠. Meie hinnangud küberturvalisuse, CBRN-i, veenmise ja mudeli autonoomia kohta näitavad, et GPT‑4o ei ületa üheski neist kategooriatest keskmist riski. Selle hindamise käigus viidi läbi automatiseeritud ja inimeste teostatud hindamised kogu mudelikoolitusprotsessi vältel. Me testisime mudeli versioone nii enne kui ka pärast ohutuskaitsemeetmete rakendamist, kasutades kohandatud peenhäälestust ja viipasid, et paremini esile tuua mudeli võimeid.

GPT‑4o on läbinud ka ulatusliku välise punase meeskonna testimise koos 70+ välisekspertidega⁠ sellistes domeenides nagu sotsiaalpsühholoogia, eelarvamused ja õiglus ning valeinformatsioon, et tuvastada riske, mida äsja lisatud viisid toovad kaasa või võimendavad. Me kasutasime neid õppetunde, et luua oma ohutusmeetmeid, et parandada GPT‑4o‑ga suhtlemise ohutust. Jätkame uute riskide maandamist nende avastamise käigus.

Me mõistame, et GPT‑4o audiomodaalsused kujutavad endast mitmesuguseid uusi riske. Täna avaldame avalikult teksti- ja pildisisendeid ning tekstiväljundeid. Eelseisvate nädalate ja kuude jooksul töötame tehnilise infrastruktuuri, kasutatavuse, järgse koolituse ja ohutuse kallal, mis on vajalik teiste meetodite kasutuselevõtuks. Näiteks käivitamisel on heliväljundid piiratud eelseadistatud häälte valikuga ja need järgivad meie olemasolevaid ohutuseeskirju. Peatselt ilmuvas süsteemikaardis jagame täiendavaid üksikasju, mis käsitlevad kõiki GPT‑4o võimalusi.

Mudeliga testimise ja iteratsiooni käigus oleme täheldanud mitmeid piiranguid, mis esinevad kõigis mudeli võimalustes, millest mõned on allpool illustreeritud.

Mudeli piirangute näited

Meile meeldiks saada tagasisidet, mis aitaks tuvastada ülesandeid, kus GPT‑4 Turbo endiselt edestab GPT‑4o, et saaksime mudeli täiustamist jätkata, aitäh.

ChatGPT-4o riskiskoori kaart

^{Uuendatud 8. mai 2024}

Jälgitav riskikategooria

Riskitase enne maandamist

Määra riskitase enne leevendamist, kasutades parimaid teadaolevaid võimete esiletoomise tehnikaid.

Leevendusjärgne riskitase

Määra üldine riskitase pärast leevendusmeetmete rakendamist, kasutades parimaid teadaolevaid võimete hindamise tehnikaid.

Küberturvalisus

Väike

CBRN

Väike

Veenvus

Keskmine

Mudeli autonoomia

Väike

Osana meie valmisoleku raamistikust⁠ viime läbi regulaarseid hindamisi ja ajakohastame oma mudelite tulemuskaarte. Kasutusele võetakse ainult need mudelid, mille leevendusjärgne hinne on „keskmine“ või madalam. Mudeli üldine riskitase määratakse kindlaks kõrgeima riskitaseme järgi mis tahes kategoorias. Praegu hinnatakse GPT‑4o keskmise riskiga nii enne kui ka pärast leevendusmeetmeid.

Mudeli saadavus 1

GPT‑4o on meie viimane samm süvaõppe piiride nihutamisel, seekord praktilise kasutatavuse suunas. Viimase kahe aasta jooksul oleme teinud palju tööd tõhususe parandamiseks igal tasandil. Selle uurimistöö esimese viljana saame GPT‑4 taseme mudeli palju laiemalt kättesaadavaks teha. GPT‑4o võimalused võetakse kasutusele järk-järgult (laiendatud red team'i juurdepääs algab täna).

GPT‑4o teksti- ja pildivõimekused hakkavad täna ChatGPT‑s kasutusele tulema. Teeme GPT‑4o kättesaadavaks tasuta tasemel ja Plusi kasutajatele kuni 5 korda suuremate sõnumilimiitidega. Lähinädalatel toome ChatGPT Plusis välja uue häälrežiimi versiooni koos GPT‑4o alfaversiooniga.

Arendajad saavad nüüd API-s juurdepääsu GPT‑4o‑le nii teksti- kui ka visioonimudelina. GPT‑4o on 2x kiirem, poole odavam ja sellel on 5 korda kõrgemad kiiruspiirangud võrreldes GPT‑4 Turboga. Plaanime lähinädalatel käivitada GPT‑4o uute heli- ja videovõimaluste toe väikesele rühmale usaldusväärsetele partneritele API-s.

Autorid

OpenAI

Vaata kaastöötajaid

Tere GPT‑4o

Mudeli võimekused

Võimete uurimised

Mudelihindamised

Teksti hindamine

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Keele tokeniseerimine

Mudeli turvalisus ja piirangud

ChatGPT-4o riskiskoori kaart

Mudeli saadavus 1

Autorid