2024. gada 13. maijs

Sveiki, GPT‑4o!

Mēs paziņojam par GPT‑4o — mūsu jauno flagmaņa modeli, kas spēj spriest par audio, vizuālo un teksta informāciju reāllaikā.

Iemaksas Izmēģini ChatGPT GPT-4o sistēmas karte

Visi šajā lapā pieejamie videoklipi tiek rādīti 1x reāllaikā.

Minējums par 13. maija paziņojumu.

Vairāk resursu

Izmēģiniet rotaļu laukumu Atkārtoti skatiet tiešraides demonstrācijas

Notiek ielāde…

GPT‑4o ("o" kā "omni") ir solis ceļā uz daudz dabiskāku cilvēka un datora mijiedarbību — tas kā ievades datus pieņem jebkuru teksta, audio, attēla un video kombināciju un ģenerē jebkuru teksta, audio un attēla rezultātu kombināciju. Tas var reaģēt uz audio ievadēm tikai 232 milisekunžu lakā, vidēji 320 milisekunžu laikā, kas ir līdzīgs cilvēka atbildes laikam⁠(atveras jaunā logā) sarunā. Tā veiktspēja ir līdzvērtīga GPT‑4 Turbo veiktspējai tekstam angļu valodā un kodos, turklāt tā ir ievērojami uzlabota teksta tulkošanai citās valodās, turklāt API ir daudz ātrāka un par 50% lētāka. GPT‑4o salīdzinājumā ar esošajiem modeļiem ir īpaši labāks vizuālajā un audio izpratnes ziņā.

Modeļa iespējas

Divi GPT‑4 mijiedarbojas un dzied.

Sagatavošanās intervijai.

Akmens, šķēres, papīrītis.

Sarkasms.

Matemātika ar Salu un Imranu Hanu.

Divi GPT‑4o harmonizējas.

Norādi un mācies spāņu valodu.

Tikšanās ar MI.

Tulkošana reāllaikā.

Šūpuļdziesma.

Runājot ātrāk.

Priecīgu dzimšanas dienu.

Suns.

Tētis joko.

GPT‑4o ar Endiju no BeMyEyes Londonā.

Klientu apkalpošanas koncepcijas pierādījums.

Pirms GPT‑4o varēja izmantot balss režīmu⁠, sarunāties ar ChatGPT vidēji ar 2,8 sekunžu (GPT‑3.5) un 5,4 sekunžu kavēšanos (GPT‑4). Lai to panāktu, balss režīms ir trīs atsevišķu modeļu konveijers: viens vienkāršs modelis transkribē audio uz tekstu, GPT‑3.5 vai GPT‑4 uzņem tekstu un izvada tekstu, un trešais vienkāršais modelis pārvērš šo tekstu atpakaļ audio. Šis process nozīmē, ka galvenais intelekta avots GPT‑4 zaudē daudz informācijas — tas nevar tieši novērot toni, vairākus runātājus vai fona trokšņus, kā arī nespēj uztvert smieklus, dziedāšanu vai izteikt emocijas.

Izmantojot GPT‑4o, mēs apmācījām vienu jaunu modeli no sākuma līdz galam teksta, vizuālajā un audio jomā, kas nozīmē, ka visus ievades un izejas datus apstrādā viens un tas pats neironu tīkls. Tā kā GPT‑4o ir mūsu pirmais modelis, kurā apvienotas visas šīs modalitātes, mēs vēl tikai sākam pētīt, ko šis modelis spēj un kādas ir tā iespējas un ierobežojumi.

Iespēju izpēte

Atlasi paraugu:

Ievade

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Izvade

Ievade

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Izvade

Ievade

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Izvade

Modeļu izvērtējumi

Mērot ar tradicionālajiem etaloniem, GPT‑4o sasniedz GPT‑4 Turbo līmeņa veiktspēju teksta, spriešanas un kodēšanas inteliģences jomā, vienlaikus uzstādot jaunus augstus standartus daudzvalodu, audio un vizuālajām iespējām.

Teksta novērtēšana

Valodas tokenizācija

Šīs 20 valodas tika izvēlētas kā reprezentatīvas jaunajam tokenizatora saspiešanas procesam dažādās valodu ģimenēs.

Gudžaratu valodā ir par 4,4 x mazāk tokenu (no 145 uz 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu valodā ir par 3,5 x mazāk tokenu (no 159 uz 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamilu valodā ir 3,3 x mazāk tokenu (no 116 uz 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi valodai ir 2,9 x mazāk tokenu (no 96 uz 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi valodā ir 2,9 x mazāk tokenu (no 90 uz 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu valodā ir par 2,5 x mazāk tokenu (no 82 uz 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Arābu valodā ir 2,0 x mazāk tokenu (no 53 uz 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persiešu valodā 1,9 x mazāk tokenu (no 61 uz 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Krievu valodā ir par 1,7 x mazāk tokenu (no 39 uz 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Korejiešu valodā ir par 1,7 x mazāk tokenu (no 45 uz 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vjetnamiešu valodā ir 1,5 x mazāk tokenu (no 46 uz 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Ķīniešu valodā 1,4 x mazāk tokenu (no 34 uz 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japāņu valodā ir 1,4 x mazāk tokenu (no 37 uz 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turku valodā ir par 1,3 x mazāk tokenu (no 39 uz 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Itāļu valodā 1,2 x mazāk tokenu (no 34 uz 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Vācu valodā 1,2 x mazāk tokenu (no 34 uz 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Spāņu valodā ir par 1,1 x mazāk tokenu (no 29 uz 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portugāļu valodā ir par 1,1 x mazāk tokenu (no 30 uz 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Franču valodā ir par 1,1 x mazāk tokenu (no 31 uz 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Angļu valodā ir 1,1 x mazāk tokenu (no 27 uz 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Modeļa drošība un ierobežojumi

GPT‑4o ir konstrukcijā integrēta drošība dažādās modalitātēs, izmantojot tādas metodes kā mācību datu filtrēšana un modeļa uzvedības pilnveidošana pēc mācībām. Esam izveidojuši arī jaunas drošības sistēmas, lai nodrošinātu balss izvades aizsargbarjeras.

Mēs esam novērtējuši GPT‑4o saskaņā ar mūsu gatavības sistēmu⁠ un saskaņā ar mūsu brīvprātīgajām saistībām⁠. Mūsu veiktie kiberdrošības, CBRN, pārliecināšanas un modeļa autonomijas novērtējumi liecina, ka GPT‑4o risks nevienā no šīm kategorijām netiek novērtēts augstāk par vidēju. Šis novērtējums ietvēra automātisku un cilvēka veiktu novērtējumu kopumu visā modeļa apmācības procesā. Mēs testējām modeļa versijas gan pirms drošības ierobežošanas, gan pēc drošības ierobežošanas, izmantojot pielāgotus precizējumus un pamudinājumus, lai labāk atklātu modeļa iespējas.

GPT‑4o ir veikta arī plaša ārējā red teaming pārbaude ar vairāk nekā 70+ ārējiem ekspertiem⁠ tādās jomās kā sociālā psiholoģija, neobjektivitāte un taisnīgums, kā arī dezinformācija, lai identificētu riskus, ko rada vai pastiprina jaunie pievienotie veidi. Mēs izmantojām šīs atziņas, lai izstrādātu savus drošības pasākumus un uzlabotu mijiedarbības ar GPT‑4o drošību. Mēs turpināsim mazināt jaunos riskus, tiklīdz tie tiks atklāti.

Mēs apzināmies, ka GPT‑4o audio modalitātes rada dažādus jaunus riskus. Šodien mēs publiski publicējam teksta un attēlu ievadi un teksta izvadi. Tuvāko nedēļu un mēnešu laikā mēs strādāsim pie tehniskās infrastruktūras, lietojamības, izmantojot pēcapmācību, un drošības, kas nepieciešama, lai varētu izlaist citas modalitātes. Piemēram, palaišanas laikā audio izvades būs ierobežotas līdz iepriekš iestatītu balsu izvēlei, un tajās tiks ievērotas mūsu spēkā esošās drošības politikas. Nākamajā sistēmas kartē mēs sniegsim sīkāku informāciju par visām GPT‑4o modalitātēm.

Veicot modeļa testēšanu un atkārtošanu, mēs esam novērojuši vairākus ierobežojumus, kas attiecas uz visām modeļa modalitātēm, un daži no tiem ir ilustrēti turpmāk.

Modeļa ierobežojumu piemēri

Mēs labprāt saņemtu atsauksmes, kas palīdzētu noteikt uzdevumus, kuros GPT‑4 Turbo joprojām ir labāks par GPT‑4o, lai mēs varētu turpināt uzlabot modeli.

ChatGPT-4o Riska rādītāju karte

^{Atjaunināts 2024. gada 8. maijā}

Izsekotā riska kategorija

Līmenis pirms riska mazināšanas

Noteikt riska līmeni pirms mazināšanas, izmantojot labākās zināmās spēju noteikšanas tehnikas

Riska līmenis pēc mazināšanas

Nosaki kopējo riska līmeni pēc riska mazināšanas pasākumu ieviešanas, izmantojot labākās zināmās spēju noteikšanas tehnikas

Kiberdrošība

Zems

CBRN

Zems

Pārliecināšana

Vidējs

Modeļa autonomija

Zems

Kā daļu no mūsu gatavības sistēmas⁠ mēs regulāri veicam novērtējumus un atjauninām mūsu modeļu novērtējuma kartes. Tiek izmantoti tikai tie modeļi, kuriem pēc riska mazināšanas novērtējums ir "vidējs" vai zemāks. Kopējo modeļa riska līmeni nosaka augstākais riska līmenis jebkurā kategorijā. Pašlaik GPT‑4o tiek vērtēts kā vidēji riskants gan pirms, gan pēc ietekmes mazināšanas pasākumiem.

Modeļa pieejamība 1

GPT‑4o ir mūsu jaunievedums dziļās mācīšanās robežu paplašināšanā, šoreiz praktiskas lietojamības virzienā. Pēdējo divu gadu laikā mēs esam ieguldījuši daudz pūļu, lai uzlabotu efektivitāti visos sistēmas slāņos. Kā pirmais šī pētījuma rezultāts, mēs varam padarīt GPT‑4 līmeņa modeli pieejamu daudz plašākā mērogā. GPT‑4o iespējas tiks ieviestas pakāpeniski (ar paplašinātu red team piekļuvi, sākot ar šodienu).

GPT‑4o teksta un attēlu iespējas sāk ieviest šodien ChatGPT. Mēs padarām GPT‑4o pieejamu bezmaksas līmenī un Plus lietotājiem ar līdz pat 5x augstākiem ziņojumu ierobežojumiem. Tuvāko nedēļu laikā mēs izlaidīsim jaunu balss režīma versiju ar GPT‑4o alfa versijā ChatGPT Plus.

Izstrādātāji tagad var piekļūt arī GPT‑4o API kā teksta un redzes modelim. GPT‑4o ir 2 reizes ātrāks, uz pusi lētāks un tam ir 5 reizes lielāki ātruma ierobežojumi salīdzinājumā ar GPT‑4 Turbo. Mēs plānojam tuvāko nedēļu laikā uzsākt atbalstu GPT‑4o jaunajām audio un video iespējām nelielā uzticamu partneru grupā API.

Autori

OpenAI

Apskatīt veidotājus

Sveiki, GPT‑4o!

Modeļa iespējas

Iespēju izpēte

Modeļu izvērtējumi

Teksta novērtēšana

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Valodas tokenizācija

Modeļa drošība un ierobežojumi

ChatGPT-4o Riska rādītāju karte

Modeļa pieejamība 1

Autori