Lumaktaw sa pangunahing content
OpenAI

Mayo 13, 2024

Milestone

Kumusta GPT‑4o

Inaanunsyo namin ang GPT‑4o, ang aming bagong flagship na modelo na kayang mangatwiran sa audio, vision, at text nang real time.

Lahat ng video sa page na ito ay nasa 1x na real time.

Paghuhula ng anunsyo sa Mayo 13.

Naglo-load…

Ang GPT‑4o ("o" para sa "omni") ay isang hakbang patungo sa mas natural na interaksyon ng tao at computer—tinatanggap nito bilang input ang anumang kumbinasyon ng text, audio, larawan, at video at bumubuo ng output na anumang kumbinasyon ng text, audio, at larawan. Kaya nitong tumugon sa mga input ng audio sa loob ng kasingliit ng 232 millisecond, at karaniwang tumatagal ng 320 millisecond, na halos kapareho ng oras ng pagtugon ng tao(magbubukas sa bagong window) sa pag-uusap. Tumutugma ito sa pagganap ng GPT‑4 Turbo sa text sa English at code, na may malaking pag-unlad sa text sa mga wikang hindi English, habang mas mabilis din at 50% na mas mura sa API. Partikular na mas mahusay ang GPT‑4o sa pag-unawa sa vision at audio kumpara sa mga umiiral na modelo.

Mga kakayahan ng modelo

Bago ang GPT‑4o, puwede mong gamitin ang Voice Mode para makipag-usap sa ChatGPT na may mga latency na 2.8 segundo (GPT‑3.5) at 5.4 segundo (GPT‑4) sa karaniwan. Para makamit ito, ang voice mode ay pipeline ng tatlong magkakahiwalay na modelo: isang simpleng modelo ang nagta-transcribe ng audio patungo sa text, ang GPT‑3.5 o GPT‑4 ay tumatanggap ng text at nag-a-output ng text, at ang ikatlong simpleng modelo ay nagko-convert ng text na iyon pabalik sa audio. Ibig sabihin ng prosesong ito, marami sa impormasyon ang nawawala sa pangunahing pinagmumulan ng intelihensiya, ang GPT‑4—hindi nito direktang nakikita ang tono, maraming nagsasalita, o ingay sa paligid, at hindi rin nito maaaring ilabas ang pagtawa, pag-awit, o pagpapahayag ng damdamin.

Sa GPT‑4o, sinanay namin ang isang bagong modelo mula simula hanggang katapusan para sa text, vision, at audio, ibig sabihin lahat ng input at output ay pinoproseso ng parehong neural network. Dahil ang GPT‑4o ang aming unang modelo na pinagsasama ang lahat ng mga modalidad na ito, nagsisimula pa lang kami sa paggalugad kung ano ang kayang gawin ng modelo at ang mga limitasyon nito.

Paggagalugad ng mga kakayahan

Pumili ng sample:
1
Input

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Output
Robot on typewriter
3
Input

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Output
Robot on typewriter with more text
5
Input

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Output
Robot ripping sheet

Mga pagsusuri ng mga modelo

Gaya ng sinusukat sa mga tradisyunal na benchmark, nakakamit ng GPT‑4o ang GPT‑4 Turbo-level na pagganap sa text, pangangatwiran, at katalinuhan sa pag-code, habang nagtatakda ng mga bagong mataas na watermark sa mga kakayahan sa multilingual, audio, at vision.

Pagsusuri ng Teksto

Pag-tokenize ng wika

Ang 20 wika na ito ay pinili bilang kinatawan ng compression ng bagong tokenizer sa iba't ibang pamilya ng wika

Gujarati 4.4x mas kaunting token (mula 145 hanggang 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3.5x mas kaunting token (mula 159 hanggang 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamil 3.3x mas kaunting token (mula 116 hanggang 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2.9x mas kaunting mga token (mula sa 96 hanggang 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Hindi 2.9x na mas kaunting token (mula 90 hanggang 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Urdu 2.5x mas kaunting token (mula 82 hanggang 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Arabic 2.0x mas kaunting mga token (mula sa 53 hanggang 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Persian 1.9x na mas kaunting token (mula 61 hanggang 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Russian 1.7x mas kaunting token (mula 39 hanggang 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Korean 1.7x na mas kaunting token (mula 45 hanggang 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Vietnamese 1.5x mas kaunting token (mula 46 hanggang 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Chinese 1.4x mas kaunti ang mga token (mula 34 hanggang 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Japanese 1.4x na mas kaunting token (mula 37 hanggang 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Turkish 1.3x na mas kaunting token (mula 39 hanggang 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Italian 1.2x mas kaunting mga token (mula 34 hanggang 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

German 1.2x na mas kaunting mga token (mula 34 hanggang 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Spanish 1.1x na mas kaunting mga token (mula 29 hanggang 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Portuguese 1.1x na mas kaunting mga token (mula 30 hanggang 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

French 1.1x na mas kauting token (mula 31 hanggang 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

English 1.1x na mas kaunti ang mga token (mula 27 hanggang 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Kaligtasan at mga limitasyon ng modelo

Ang GPT‑4o ay may built-in na kaligtasan sa iba't ibang modalidad, sa pamamagitan ng mga pamamaraan tulad ng pag-filter sa data ng pagsasanay at pagpino sa paggawi ng modelo pagkatapos ng pagsasanay. Gumawa rin kami ng mga bagong sistema ng kaligtasan para magbigay ng gabay sa mga output na boses.

Sinuri namin ang GPT‑4o ayon sa aming
Balangkas ng Kahandaan at alinsunod sa aming mga boluntaryong pangako. Ang aming mga pagsusuri sa cybersecurity, CBRN, panghihikayat, at awtonomiya ng modelo ay nagpapakita na ang GPT‑4o ay hindi nakapuntos ng higit sa Katamtamang panganib sa alinman sa mga kategoryang ito. Ang pagtatasa na ito ay nagsasangkot ng pagpapatakbo ng hanay ng mga awtomatiko at manu-manong pagsusuri sa buong proseso ng pagsasanay ng modelo. Sinubukan namin ang parehong bersyon ng modelo bago at pagkatapos ng safety mitigation, gamit ang custom na pag-fine-tune at mga prompt, para mas mahusay na mailahad ang kakayahan ng modelo.

Sumailalim din ang GPT‑4o sa malawakang panlabas na red teaming kasama ang mahigit 70
mga panlabas na eksperto sa mga domain tulad ng sikolohiyang panlipunan, bias at pagiging patas, at maling impormasyon para matukoy ang mga panganib na ipinakilala o pinalala ng mga bagong idinagdag na modalidad. Ginamit namin ang mga natutunan na ito para buuin ang aming mga interbensyon sa kaligtasan para mapabuti ang kaligtasan ng interaksyon sa GPT‑4o. Patuloy naming babawasan ang mga bagong panganib habang tinutuklas ang mga ito.

Kinikilala namin na ang mga modalidad sa audio ng GPT‑4o ay nagpapakita ng iba't ibang mga bagong panganib. Ngayon, inilalabas namin sa publiko ang mga input at output ng text at larawan. Sa mga susunod na linggo at buwan, magtatrabaho kami sa teknikal na imprastraktura, kakayahang magamit pagkatapos ng pagsasanay, at kaligtasan na kinakailangan para ilabas ang iba pang mga modalidad. Halimbawa, sa paglulunsad, ang mga output ng audio ay limitado sa seleksyon ng mga preset na boses at susundin ang aming umiiral na mga patakaran sa kaligtasan. Ibabahagi namin ang karagdagang mga detalye na tumatalakay sa buong hanay ng mga modalidad ng GPT‑4o sa darating na system card.

Sa aming pagsubok at pag-uulit sa modelo, napansin namin ang ilang limitasyon na umiiral sa lahat ng modalidad ng modelo, na ang ilan ay inilalarawan sa ibaba.

Mga halimbawa ng limitasyon ng modelo

Gusto naming makuha ang iyong feedback para matukoy ang mga gawain kung saan mas mahusay pa rin ang GPT‑4 Turbo kaysa sa GPT‑4o, para patuloy naming mapabuti ang modelo, salamat. 

ChatGPT-4o Scorecard ng Panganib

Na-update noong Mayo 8, 2024

Sinusubaybayang Kategorya ng Panganib
Antas ng panganib bago ang mitigasyon
Tukuyin ang antas ng panganib bago ang pagpapagaan gamit ang pinakamahusay na kilalang mga pamamaraan sa pagkuha ng kakayahan
Antas ng panganib pagkatapos ng mitigasyon
Tukuyin ang kabuuang antas ng panganib pagkatapos mailagay ang mga mitigasyon gamit ang pinakamahusay na kilalang mga pamamaraan ng pagkuha ng kakayahan
Cybersecurity
Maliit
Maliit
CBRN
Maliit
Maliit
Panghihikayat
Katamtaman
Katamtaman
Autonomy ng Modelo
Maliit
Maliit

Bilang bahagi ng aming Balangkas ng Kahandaan, nagsasagawa kami ng mga regular na pagsusuri at ina-update ang mga scorecard para sa aming mga modelo. Tanging ang mga modelo na may post-mitigation score na "medium" o mas mababa ang ide-deploy. Ang pangkalahatang antas ng panganib para sa modelo ay tinutukoy ng pinakamataas na antas ng panganib sa anumang kategorya. Sa kasalukuyan, ang GPT‑4o ay tinataya na may katamtamang panganib bago at pagkatapos ng mga pagsisikap sa pagpapagaan.

Availability ng modelo 1

Ang GPT‑4o ang aming pinakabagong hakbang sa pagsulong sa mga hangganan ng malalimang pag-aaral, sa pagkakataong ito tungo sa praktikal na paggamit. Gumugol kami ng maraming pagsisikap sa nakalipas na dalawang taon sa pagtatrabaho sa mga pagpapabuti ng kahusayan sa bawat layer ng stack. Bilang unang bunga ng pananaliksik na ito, nagagawa naming maging available nang mas malawakan ang GPT‑4 na level na modelo. Ilulunsad nang paunti-unti ang mga kakayahan ng GPT‑4o ay (na may pinalawig na pag-access sa red team simula ngayon). 

Ang mga kakayahan sa text at larawan ng GPT‑4o ay nagsisimulang ilunsad ngayon sa ChatGPT. Ginagawa naming available ang GPT‑4o sa libreng tier, at sa mga user ng Plus na may hanggang 5x na mas mataas na limitasyon sa mensahe. Ilulunsad namin ang bagong bersyon ng Voice Mode na may GPT‑4o sa alpha sa ChatGPT Plus sa mga susunod na linggo.

Puwede na ring ma-access ng mga developer ang GPT‑4o sa API bilang modelo ng text at vision. Ang GPT‑4o ay dalawang beses na mas mabilis, kalahati ng presyo, at may 5x na mas mataas na mga limitasyon sa rate kumpara sa GPT‑4 Turbo. Plano naming ilunsad ang suporta para sa mga bagong kakayahan sa audio at video ng GPT‑4o sa maliit na grupo ng mga pinagkakatiwalaang partner sa API sa mga susunod na linggo.