13 Mei 2024

Halo GPT‑4o

Kami sedang mengumumkan GPT‑4o, model unggulan baru kami yang dapat melakukan penalaran di setiap audio, visual dan teks secara real-time.

Kontribusi Coba di ChatGPT Kartu Sistem GPT-4o

Semua video di halaman ini memiliki kecepatan 1x secara real-time.

Menerka pengumuman 13 Mei

Sumber Daya Lainnya

Coba di Playground Putar ulang demo langsung

Memuat…

GPT‑4o (“o” untuk “omni”) adalah langkah menuju interaksi manusia-komputer yang jauh lebih alami—versi ini menerima masukan setiap kombinasi teks, audio, gambar, dan video serta membuat keluaran kombinasi teks, audio, dan gambar. Versi ini dapat merespons masukan audio sekurang-kurangnya sebesar 232 milidetik, dengan rata-rata sebesar 320 milidetik, yang mirip dengan waktu respons manusia⁠(terbuka di jendela baru) dalam sebuah percakapan. Ini setara dengan kinerja GPT‑4 Turbo pada teks Bahasa Inggris dan kode, dengan perbaikan yang signifikan pada teks nonbahasa Inggris, sekaligus menjadi lebih cepat dan 50% lebih murah dalam API. GPT‑4o khususnya memiliki pemahaman yang lebih baik dalam visual dan audio dibandingkan model yang ada.

Kemampuan model

Dua GPT‑4o saling berinteraksi dan bernyanyi.

Persiapan wawancara

Batu Gunting Kertas.

Sarkasme.

Matematika bersama Sal dan Imran Khan

Dua GPT‑4o saling berharmonisasi.

Tunjuk dan pelajari Bahasa Spanyol.

AI Rapat.

Penerjemahan real-time.

Lagu nina bobo.

Berbicara lebih cepat.

Selamat Ulang Tahun

Anjing.

Candaan bapak-bapak.

GPT‑4o dengan Andy, dari BeMyEyes di London.

Pembuktian konsep layanan konsumen.

Sebelum GPT‑4o, Anda dapat menggunakan Mode Suara⁠ untuk berbicara dengan ChatGPT dengan latensi 2,8 detik (GPT‑3.5) dan 5,4 detik (GPT‑4) secara rata-rata. Untuk mencapai hal ini, Mode Suara merupakan rangkaian tiga model terpisah: model sederhana pertama mengubah audio menjadi teks, GPT‑3.5 atau GPT‑4 menerima teks dan menghasilkan teks, dan model sederhana ketiga mengubah teks tersebut kembali menjadi audio. Proses ini berarti sumber utama kecerdasan, GPT‑4, kehilangan banyak informasi—model ini tidak dapat secara langsung mengamati nada, banyaknya pembicara, atau kebisingan latar belakang, dan model ini tidak dapat memberi keluaran tawa, nyanyian atau mengekspresikan emosi.

Dengan GPT‑4o, kami melatih satu model baru yang menangani dari ujung ke ujung di seluruh teks, visual, dan audio, yang berarti semua masukan dan keluaran diproses oleh jaringan saraf yang sama. Karena GPT‑4o adalah model pertama dari kami yang menggabungkan semua modalitas ini, kami masih dalam tahap permulaan untuk menjelajahi berbagai hal yang dapat dilakukan model ini dan berbagai batasannya.

Penjelajahan kemampuan

Pilih sampel:

Masukan

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Keluaran

Masukan

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Keluaran

Masukan

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Keluaran

Evaluasi model

Seperti yang telah terukur pada tolok ukur tradisional, GPT‑4o mencapai kinerja tingkat-GPT‑4 Turbo pada teks, penalaran, dan kecerdasan koding, sembari menetapkan standar baru yang lebih tinggi dalam kemampuan multibahasa, audio, dan visual.

Evaluasi Teks

Tokenisasi bahasa

20 bahasa ini terpilih mewakili kompresi token baru di seluruh keluarga bahasa yang berbeda

Token Gujarati kurang dari 4,4x (dari 145 menjadi 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Token Telugu lebih sedikit 3,5x (dari 159 menjadi 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Token Tamil lebih sedikit 3,3x (dari 116 menjadi 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Token Marathi lebih sedikit 2,9x (dari 96 menjadi 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Token Hindi lebih sedikit 2,9x (dari 90 menjadi 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Token Urdu lebih sedikit 2,5x (dari 82 menjadi 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Token Arab lebih sedikit 2,0x (dari 53 menjadi 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Token Parsi lebih sedikit 1,9x (dari 61 menjadi 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Token Rusia lebih sedikit 1,7x (dari 39 menjadi 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Token Korea lebih sedikit 1,7x (dari 45 menjadi 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Token Vietnam lebih sedikit 1,5x (dari 46 menjadi 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Token Cina lebih sedikit 1,4x (dari 34 menjadi 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Token Jepang kurang dari 1,4x (dari 37 menjadi 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Token Turki lebih sedikit 1,3x (dari 39 menjadi 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Token Italia lebih sedikit 1,2x (dari 34 menjadi 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Token Jerman lebih sedikit 1,2x (dari 34 menjadi 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Token Spanyol lebih sedikit 1,1x (dari 29 menjadi 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Token Portugis lebih sedikit 1,1x (dari 30 menjadi 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Token Prancis lebih sedikit 1,1x (dari 31 menjadi 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Token Inggris lebih sedikit 1,1x (dari 27 menjadi 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Keselamatan dan batasan model

GPT‑4o memiliki keselamatan bawaan yang didesain di seluruh modalitas, melalui berbagai teknik seperti pemfilteran data pelatihan dan penyempurnaan perilaku model melalui proses pasca-pelatihan. Kami juga membuat sistem keselamatan baru untuk memberikan pagar pembatas pada keluaran suara.

Kami telah mengevaluasi GPT‑4o berdasarkan Kerangka Kerja Kesiapan⁠ kami dan sejalan dengan komitmen kesukarelaan⁠ kami. Evaluasi keamanan siber kami, CBRN, persuasi, dan model otonomi menunjukkan bahwa GPT‑4o tidak memiliki skor di atas risiko Menengah dalam berbagai kategori ini. Penilaian ini mencakup menjalankan serangkaian otomatisasi dan evaluasi manusia di seluruh proses pelatihan model. Kami telah menguji baik versi mitigasi pra-keselamatan dan mitigasi pasca-keselamatan dari model, menggunakan fine-tuning kustom dan prompt untuk memperoleh kemampuan model yang lebih baik.

GPT‑4o juga telah menjalani red teaming eksternal ekstensif bersama dengan 70+ pakar eksternal⁠ dalam berbagai domain seperti psikologi sosial, bias dan kewajaran, serta informasi palsu untuk mengidentifikasi risiko yang diperkenalkan atau diperkuat oleh modalitas yang baru ditambahkan. Kami menggunakan pembelajaran ini untuk membangun intervensi keselamatan kami guna meningkatkan keselamatan berinteraksi dengan GPT‑4o. Kami akan terus melakukan mitigasi risiko baru yang ditemukan.

Kami memahami kalau modalitas audio GPT‑4o memiliki berbagai risiko baru. Hari ini kami telah merilis secara publik masukan teks dan gambar serta keluaran teks. Dalam beberapa minggu dan bulan yang akan datang, kami akan mengerjakan infrastruktur teknis, kegunaan melalui pasca-pelatihan, dan keselamatan yang diperlukan untuk merilis modalitas lainnya. Contohnya, saat peluncuran, keluaran audio akan dibatasi untuk pilihan suara preset dan akan dipatuhi oleh kebijakan keselamatan kami yang sudah ada. Kami akan membagikan detail lebih lanjut untuk mengatasi rangkaian menyeluruh modalitas GPT‑4o dalam kartu sistem yang akan datang.

Melalui pengujian dan iterasi pada model, kami telah mengamati beberapa batasan yang masih ada di seluruh modalitas modal, beberapa batasan ditunjukkan di bawah ini.

Contoh pembatasan model

Kami sangat mengapresiasi masukan Anda untuk membantu mengidentifikasi tugas-tugas yang masih ditangani lebih baik oleh GPT‑4 Turbo dibandingkan GPT‑4o, sehingga kami dapat terus meningkatkan model ini.

Nilai Skor Risiko ChatGPT-4o

^{Diperbarui 8 Mei 2024}

Kategori Risiko Terlacak

Tingkat risiko pra-mitigasi

Menentukan seluruh tingkat risiko pra-mitigasi diterapkan dengan menggunakan kemampuan teknik penggalian terbaik.

Tingkat risiko pasca mitigasi

Menentukan seluruh tingkat risiko setelah mitigasi diterapkan dengan menggunakan kemampuan teknik penggalian terbaik.

Keamanan siber

Rendah

CBRN

Rendah

Persuasi

Sedang

Model otonomi

Rendah

Sebagai bagian dari Kerangka Kerja Kesiapan⁠ kami, kami mengadakan evaluasi rutin dan memperbarui nilai skor model kami. Hanya model yang memiliki skor pasca-mitigasi “medium” atau di bawahnya yang dikembangkan. Tingkat risiko keseluruhan model ditentukan oleh tingkat risiko tertinggi di setiap kategori. Saat ini, GPT‑4o memiliki nilai risiko medium baik sebelum dan setelah upaya mitigasi.

Ketersediaan model

GPT‑4o adalah langkah terbaru kami dalam memajukan batasan pembelajaran dalam, kali ini ke arah kegunaan praktis. Kami menghabiskan banyak upaya dalam dua tahun terakhir untuk mengerjakan peningkatan efisiensi di setiap lapisan ekosistem. Sebagai hasil pertama dari riset ini, kami dapat membuat ketersediaan model tingkat GPT‑4 menjadi makin luas. Kemampuan GPT‑4o akan diluncurkan secara iteratif (dengan akses red team yang diperluas mulai hari ini).

Kemampuan teks dan gambar GPT‑4o mulai dijalankan hari ini di ChatGPT. Kami sedang membuat GPT‑4o agar tersedia dalam tiga jenjang, dan untuk pengguna Plus dengan batas pesan hingga 5x lebih besar. Kami akan menjalankan versi baru Mode Suara dengan GPT‑4o dalam mode alfa dengan ChatGPT Plus dalam beberapa minggu yang akan datang.

Pengembang juga kini dapat mengakses GPT‑4o di API sebagai model teks dan visual. GPT‑4o itu 2x lebih cepat, lebih murah harganya, dan memiliki batas rasio yang 5x lebih tinggi dibandingkan GPT‑4 Turbo. Kami berencana untuk meluncurkan dukungan pada kemampuan audio dan video dari GPT‑4o bagi sekelompok kecil mitra tepercaya di API dalam beberapa minggu mendatang.

Penulis

OpenAI

Lihat kontributor

Halo GPT‑4o

Kemampuan model

Penjelajahan kemampuan

Evaluasi model

Evaluasi Teks

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tokenisasi bahasa

Keselamatan dan batasan model

Nilai Skor Risiko ChatGPT-4o

Ketersediaan model

Penulis