13 Mayıs 2024

Merhaba GPT‑4o

Ses, görüntü ve metin üzerine gerçek zamanlı olarak akıl yürütebilen yeni amiral gemisi modelimiz GPT‑4o ile tanış.

Katkıda bulunanlar ChatGPT’de dene GPT-4o Sistem Kartı

Bu sayfadaki tüm videolar normal 1x hızındadır.

13 Mayıs duyurusu hakkında tahminler.

Daha Fazla Kaynak

Playground’da dene Canlı demoları tekrar izle

Yükleniyor...

GPT‑4o (“omni”nin “o”su) insanla bilgisayar arasındaki etkileşimi çok daha doğal hâle getirir. Metin, ses, görsel ve videonun farklı birleşimlerinden oluşan her türlü girdiyi kabul edip metin formatında, sesli ya da görsel çıktıların birleşimiyle yanıt verir. Sesli girdilere 232 milisaniye gibi kısa bir sürede yanıt verebilir. Ortalaması 320 milisaniye olan bu değer, insanların konuşma sırasındaki yanıt süresine⁠(yeni bir pencerede açılır) benzer. İngilizce metin ve kodlamada GPT‑4 Turbo ile eşdeğer performans sunarken, diğer dillerdeki metinlerde önemli ölçüde geliştirilmiştir. Ayrıca API üzerinden kullanıldığında %50 daha düşük maliyetle ve çok daha hızlı çalışır. GPT‑4o, mevcut modellerle karşılaştırıldığında özellikle görüntüyü ve sesi daha iyi anlar.

Modelin yetenekleri

Etkileşimde bulunan ve şarkı söyleyen iki GPT‑4o.

Mülakat hazırlığı.

Taş, Kâğıt, Makas.

Alaycılık.

Sal ve Imran Khan ile matematik.

İki GPT‑4o birbirine uyum sağlıyor.

Etraftakileri göstererek İspanyolca öğrenmek.

Yapay zekâ ile toplantı.

Gerçek zamanlı çeviri.

Ninni.

Daha hızlı konuşma özelliği.

Doğum Günün Kutlu Olsun.

Köpek.

Soğuk şakalar.

BeMyEyes’tan Andy, GPT‑4o ile Londra’da.

Müşteri hizmetleri pilot projesi.

GPT‑4o’dan önce, Ses Modu⁠ aracılığıyla ortalama 2,8 saniye (GPT‑3.5) ve 5,4 saniye (GPT‑4) gecikmelerle ChatGPT ile konuşmak mümkündü. Ses Modu bunu başarmak için, üç ayrı modelden oluşan bir sistemle çalışır. Basit bir model, sesi metne dönüştürür; ardından GPT‑3.5 veya GPT‑4 metni alır ve yine metin olarak çıktı üretir. Son olaraksa üçüncü bir basit model bu metni tekrar sese çevirir. Bu süreç, asıl zekâ kaynağı olan GPT‑4’ün önemli miktarda bilgiyi kaybetmesi anlamına gelir; tonlamayı, birden fazla konuşmacıyı ya da arka plan seslerini doğrudan algılayamaz. Ayrıca kahkaha atma, şarkı söyleme gibi çıktılar üretemez ve duyguları ifade edemez.

GPT‑4o ile tek bir yeni modeli metin, görüntü ve ses yardımıyla uçtan uca eğittik. Bu da tüm girdilerin ve çıktıların aynı sinir ağı tarafından işlenmesi anlamına geliyor. GPT‑4o tüm bu modları birleştiren ilk modelimiz. Bu nedenle, modelin yapabileceklerini ve sınırlamalarını keşfetmeye daha yeni başladık.

Yetenekleri keşfetmek

Örnek seç:

Girdi

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Çıktı

Girdi

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Çıktı

Girdi

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Çıktı

Model değerlendirmeleri

Geleneksel ölçütlerle değerlendirildiğinde GPT‑4o; metin, akıl yürütme ve kodlama zekâsı açısından GPT‑4 Turbo düzeyinde performans sergiliyor. Üstelik çok dilli, sesli ve görsel yeteneklerde yeni rekorlara imza atıyor.

Metin Değerlendirmesi

Dil tokenizasyonu

Aşağıdaki 20 dil, yeni tokenizasyon aracının farklı dil ailelerindeki sıkıştırma performansını ortaya koymak için seçildi.

Guceratça 4,4 kat daha az token (145’ten 33’e)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Teluguca 3,5 kat daha az token (159’dan 45’e)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamilce 3,3 kat daha az token (116’dan 35’e)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi dili 2,9 kat daha az token (96’dan 33’e)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hintçe 2,9 kat daha az token (90’dan 31’e)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urduca 2,5 kat daha az token (82’den 33’e)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Arapça 2,0 kat daha az token (53’ten 26’ya)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Farsça 1,9 kat daha az token (61’dan 32’ye)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Rusça 1,7 kat daha az token (39’dan 23’e)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Korece 1,7 kat daha az token (45’ten 27’ye)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamca 1,5 kat daha az token (46’dan 30’a)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Çince 1,4 kat daha az token (34’ten 24’e)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japonca 1,4 kat daha az token (37’den 26’ya)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Türkçe 1,3 kat daha az token (39’dan 30’a)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
İtalyanca 1,2 kat daha az token (34’ten 28’e)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Almanca 1,2 kat daha az token (34’ten 29’a)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
İspanyolca 1,1 kat daha az token (29’dan 26’ya)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portekizce 1,1 kat daha az token (30’dan 27’ye)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Fransızca 1,1 kat daha az token (31’den 28’e)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
İngilizce 1,1 kat daha az token (27’den 24’e)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Model güvenliği ve sınırlamaları

GPT‑4o, farklı modlar için (metin, ses, görsel vb.) eğitim verilerinin filtrelenmesi ve model davranışının eğitim sonrası süreçlerle iyileştirilmesi gibi teknikler kullanılarak yerleşik güvenlik önlemleriyle tasarlandı. Ayrıca sesli çıktılar üzerinde denetim sağlamak amacıyla yeni güvenlik sistemleri geliştirdik.

GPT‑4o’yu Hazırlıklılık Çerçevemiz⁠ doğrultusunda ve gönüllü sorumluluklarımıza⁠ uygun şekilde değerlendirdik. Siber güvenlik, CBRN (kimyasal, biyolojik, radyolojik ve nükleer tehditler), ikna kabiliyeti ve model otonomisi gibi alanlarda yaptığımız testlerde, GPT‑4o hiçbir kategoride Orta risk seviyesinin üstüne çıkmadı. Bu değerlendirmede, model eğitim süreci boyunca hem otomatik testler hem de insanların yürüttüğü testler birlikte kullanıldı. Modelin güvenlik önlemleri öncesi ve sonrası sürümleri, ince ayarlar ve istemlerle test edildi. Böylece yeteneklerini daha iyi görebildik.

GPT‑4o ayrıca 70’ten fazla dış uzmandan⁠ oluşan kapsamlı harici kırmızı takımlar tarafından test edildi. Sosyal psikoloji, ön yargı, adalet ve yanlış bilgilendirme gibi alanlarda çalışan bu uzmanlar, yeni eklenen modların yarattığı veya artırdığı riskleri tespit etti. Edindiğimiz bilgileri, GPT‑4o ile etkileşimde güvenliği artırmak amacıyla kullanarak güvenlik önlemlerimizi geliştirdik. Yeni riskler keşfedildikçe bunları önlemeye devam edeceğiz.

GPT‑4o’nun sesli modlarının çeşitli yeni riskler barındırdığının farkındayız. Metinsel ve görsel girdiler ile metin formatında çıktıları bugün herkesin kullanımına sunuyoruz. Önümüzdeki haftalarda ve aylarda, diğer modları piyasaya sürmek için gerekli teknik altyapı, eğitim sonrası kullanılabilirlik ve güvenlik üzerinde çalışacağız. Örneğin, lansmanda sesli çıktılar önceden belirlenmiş seslerle sınırlı olacak ve mevcut güvenlik politikalarımıza uyacak. GPT‑4o'nun tüm modlarına ilişkin daha fazla ayrıntıyı yakında yayımlanacak sistem kartında paylaşacağız.

Modeli test ederken ve geliştirme sürecinde, tüm modlarda geçerli olan bazı sınırlamalar fark ettik. Bunların birkaçını aşağıda paylaşıyoruz.

Model sınırlamalarına örnekler

GPT‑4 Turbo’nun GPT‑4o’dan daha iyi performans gösterdiği görevleri belirlememize yardımcı olacak geri bildirimlere ihtiyacımız var. Böylece modeli daha da geliştirebiliriz.

ChatGPT-4o Risk Skor Tablosu

^{8 Mayıs 2024’te güncellendi}

İzlenen Risk Kategorisi

Risk azaltma öncesi risk seviyesi

Bilinen en iyi yetenek ortaya çıkarma tekniklerini kullanarak risk azaltma öncesi genel risk seviyesini belirtir

Risk azaltma sonrası risk seviyesi

Bilinen en iyi yetenek ortaya çıkarma tekniklerini kullanarak risk azaltma sonrası genel risk seviyesini belirtir

Siber güvenlik

Düşük

KBRN

Düşük

İkna

Orta

Model Otonomisi

Düşük

Hazırlıklılık Çerçevemiz⁠ kapsamında, modellerimizi düzenli olarak test ediyor ve skor tablolarını güncelliyoruz. Yalnızca önlemler sonrası skoru “orta” veya daha düşük olan modeller kullanıma sunuluyor. Bir modelin genel risk seviyesi herhangi bir kategorideki en yüksek riske göre belirleniyor. Şu anda GPT‑4o hem önlemler öncesinde hem de sonrasında orta risk seviyesinde değerlendirilmektedir.

Modelin kullanılabilirliği

GPT‑4o, derin öğrenmenin sınırlarını genişletme yolundaki en yeni adımımız. Üstelik bu kez hedefimiz, günlük kullanımda daha işe yarar bir sistem sunmak. Son iki yıl boyunca sistemin her katmanında verimliliğe yönelik iyileştirmeler yapmak için yoğun çaba harcadık. Bu araştırmanın ilk meyvesi olarak GPT‑4 seviyesindeki bir modeli çok daha geniş bir kitleye sunabiliyoruz. GPT‑4o’nun özellikleri aşamalı olarak kullanıma sunulacak (kırmızı takımlar için kapsamlı erişim bugün başlıyor).

GPT‑4o’nun metinsel ve görsel yetenekleri bugün ChatGPT’de kullanıma sunuluyor. GPT‑4o’u ücretsiz kullanıma da sunuyoruz. Plus kullanıcıları ise 5 kat daha yüksek mesaj limitine sahip olacak. Gelecek haftalarda ChatGPT Plus’ta Ses Modunun GPT‑4o destekli yeni bir alpha sürümünü kullanıma sunacağız.

Aynı zamanda, geliştiriciler de API’de bir metin ve görüntü modeli olarak GPT‑4o’a erişebilir. GPT‑4 Turbo’ya kıyasla GPT‑4o hem 2 kat daha hızlı hem de onun yarı fiyatına. Üstelik istek limitleri 5 kat daha yüksek. Önümüzdeki haftalarda, GPT‑4o’nun yeni ses ve video yeteneklerine yönelik API desteğini, güvenilir iş ortaklarımızdan oluşan sınırlı bir grupla başlatmayı planlıyoruz.

Yazarlar

OpenAI

Katkıda Bulunanları Gör

Merhaba GPT‑4o

Modelin yetenekleri

Yetenekleri keşfetmek

Model değerlendirmeleri

Metin Değerlendirmesi

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Dil tokenizasyonu

Model güvenliği ve sınırlamaları

ChatGPT-4o Risk Skor Tablosu

Modelin kullanılabilirliği

Yazarlar