मुख्य मजकूराकडे जा
OpenAI

१३ मे, २०२४

माइलस्टोन

हॅलो GPT‑4o

आम्ही GPT‑4o जाहीर करत आहोत, आमचा नवीन फ्लॅगशिप मॉडेल जो ऑडिओ, व्हिजन आणि टेक्स्टवर रिअल-टाईममध्ये रिझन करू शकतो.

या पानावरील सर्व व्हिडिओ 1x रिअल टाईममध्ये आहेत.

13 मेच्या घोषणेचा अंदाज.

लोड होत आहे...

GPT‑4o (“o” म्हणजे “omni”) हा मानवी-कंप्युटर संवाद अधिक नैसर्गिक करण्याच्या दिशेने एक पाऊल आहे—तो इनपुट म्हणून टेक्स्ट, ऑडिओ, प्रतिमा आणि व्हिडिओ यांचे कोणतेही संयोजन स्वीकारतो आणि आउटपुट म्हणून टेक्स्ट, ऑडिओ आणि प्रतिमा यांचे कोणतेही संयोजन तयार करतो. तो ऑडिओ इनपुट्सना फक्त 232 मिलीसेकंदांत प्रतिसाद देऊ शकतो, सरासरी 320 मिलीसेकंदांत, जे संभाषणातील मानवी प्रतिसाद वेळ(नवीन विंडोमध्ये उघडेल) सारखे आहे. तो इंग्रजी टेक्स्ट आणि कोडवर GPT‑4 Turbo च्या कामगिरीशी जुळतो, इंग्रजी-बाह्य भाषांतील टेक्स्टवर लक्षणीय सुधारणा करतो, आणि API मध्ये अधिक वेगवान व ५०% स्वस्त आहे. विद्यमान मॉडेल्सच्या तुलनेत GPT‑4o विशेषतः व्हिजन आणि ऑडिओ समजण्यात अधिक चांगला आहे.

मॉडेल क्षमता

GPT‑4o पूर्वी, तुम्ही ChatGPT शी २.८ सेकंदांच्या विलंबाने बोलण्यासाठी व्हॉइस मोड वापरू शकत होता (GPT‑3.5) आणि सरासरी ५.४ सेकंद (GPT‑4) लागतात. हे साध्य करण्यासाठी, व्हॉईस मोड तीन स्वतंत्र मॉडेल्सची पाईपलाईन आहे: एक साधे मॉडेल ऑडिओला टेक्स्टमध्ये रूपांतरित करते, GPT‑3.5 किंवा GPT‑4 टेक्स्ट घेतात आणि टेक्स्ट आउटपुट करतात, आणि तिसरे साधे मॉडेल तो टेक्स्ट पुन्हा ऑडिओमध्ये रूपांतरित करते. या प्रक्रियेमुळे मुख्य बुद्धिमत्तेचा स्रोत GPT‑4 खूप माहिती गमावतो—तो थेट टोन, अनेक वक्ते किंवा पार्श्वभूमीतील आवाज पाहू शकत नाही, आणि हसू, गाणे किंवा भावना व्यक्त करू शकत नाही.

GPT‑4o सह, आम्ही टेक्स्ट, व्हिजन आणि ऑडिओवर एंड-टू-एंड प्रशिक्षण दिलेले एकच नवीन मॉडेल तयार केले आहे, म्हणजे सर्व इनपुट्स आणि आउटपुट्स त्याच न्यूरल नेटवर्कद्वारे प्रक्रिया होतात. कारण GPT‑4o हे या सर्व मोडॅलिटीज एकत्र करणारे आमचे पहिले मॉडेल आहे, आम्ही अजूनही या मॉडेलचे काय सामर्थ्य आहे आणि त्याच्या मर्यादा काय आहेत याच्या शोधाची सुरुवातच केली आहे.

क्षमतांचा शोध

नमुना निवडा:
1
इनपुट

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
आउटपुट
Robot on typewriter
3
इनपुट

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
आउटपुट
Robot on typewriter with more text
5
इनपुट

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
आउटपुट
Robot ripping sheet

मॉडेल मूल्यांकन

पारंपारिक बेंचमार्कवर मोजल्याप्रमाणे, GPT‑4o मजकूर, तर्क आणि कोडिंग बुद्धिमत्तेवर GPT‑4 टर्बो-स्तरीय कामगिरी साध्य करते, तर बहुभाषिक, ऑडिओ आणि दृष्टी क्षमतांवर नवीन उच्च वॉटरमार्क सेट करते.

टेक्स्ट इव्हॅल्युएशन

लँग्वेज टोकनायझेशन

या 20 लँग्वेजेस नवीन टोकनायझरच्या कॉम्प्रेशनचे वेगवेगळ्या लँग्वेज फॅमिलीजमध्ये प्रतिनिधित्व करण्यासाठी निवडल्या गेल्या

गुजराती 4.4x कमी token (145 ते 33 पर्यंत)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

तेलुगू 3.5 पट कमी token (159 वरून 45 पर्यंत)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

तमिळमध्ये 3.3 पट कमी token (116 वरून 35 पर्यंत)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

मराठीमध्ये 2.9x कमी टोकन्स (96 ते 33 पर्यंत)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

हिंदी 2.9x कमी token (90 ते 31 पर्यंत)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

उर्दू 2.5 पट कमी token (82 ते 33 पर्यंत)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

अरबी 2.0x कमी token (53 ते 26 पर्यंत)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

पर्शियन १.९ पट कमी token (६१ ते ३२ पर्यंत)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

रशियन 1.7 पट कमी token (39 ते 23 पर्यंत)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

कोरियन 1.7 पट कमी token (45 पासून 27 पर्यंत)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

व्हिएतनामी 1.5 पट कमी token (46 ते 30 पर्यंत)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

चिनी token 1.4 पट कमी (34 ते 24 पर्यंत)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

जपानी 1.4x कमी token (37 ते 26 पर्यंत)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

तुर्कीमध्ये 1.3x कमी tokens (39 वरून 30 पर्यंत)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

इटालियन 1.2x कमी टोकन (34 ते 28 पर्यंत)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

जर्मनमध्ये 1.2 पट कमी token (34 ते 29 पर्यंत)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

स्पॅनिशमध्ये 1.1x कमी token (29 वरून 26 पर्यंत)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

पोर्तुगीजमध्ये 1.1x कमी token (30 वरून 27 पर्यंत)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

फ्रेंचमध्ये 1.1x कमी tokens (31 पासून 28 पर्यंत)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

इंग्रजी 1.1x कमी टोकन (27 ते 24 पर्यंत)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

मॉडेल सेफ्टी आणि लिमिटेशन्स

GPT‑4o मध्ये मोडॅलिटीजसाठी डिझाइननुसार सेफ्टी अंगभूत आहे, ज्यात ट्रेनिंग डेटा फिल्टरिंग आणि पोस्ट-ट्रेनिंगद्वारे मॉडेलच्या वर्तनात सुधारणा करण्यासारख्या तंत्रांचा समावेश आहे. व्हॉईस आउटपुट्सवर गार्डरेल्स ठेवण्यासाठी आम्ही नवीन सेफ्टी सिस्टीम्स तयार केल्या आहेत.

आम्ही GPT‑4o चे आमच्या
प्रिपेअर्डनेस फ्रेमवर्क नुसार आणि आमच्या स्वेच्छेच्या बांधिलकी शी सुसंगत असे मूल्यमापन केले आहे. आमच्या सायबरसिक्युरिटी, CBRN, पर्स्वेशन आणि मॉडेल ऑटोनॉमी इव्हॅल्युएशन्स दाखवतात की GPT‑4o कोणत्याही कॅटेगरीत मीडियम रिस्कपेक्षा जास्त स्कोअर करत नाही. या अस्सेसमेंटमध्ये मॉडेल ट्रेनिंग प्रक्रियेदरम्यान ऑटोमेटेड आणि मानवी मूल्यमापनांची मालिका चालवण्यात आली. आम्ही कस्टम फाईन-ट्युनिंग आणि प्रॉम्प्ट्स वापरून मॉडेलच्या प्री-सेफ्टी-मिटिगेशन आणि पोस्ट-सेफ्टी-मिटिगेशन दोन्ही आवृत्त्यांची चाचणी केली, ज्यामुळे मॉडेलच्या कॅपॅबिलिटीज चांगल्या प्रकारे समजून घेता येतील.

GPT‑4o ने 70+ एक्स्टर्नल एक्स्पर्ट्स सोबत सामाजिक मानसशास्त्र, पक्षपात आणि न्याय्यता, आणि चुकीची माहिती अशा डोमेनमध्ये व्यापक एक्स्टर्नल रेड टीमिंग अनुभवले आहे, नव्याने
जोडलेल्या मोडॅलिटीजमुळे निर्माण होणारे किंवा वाढवलेले धोके ओळखण्यासाठी. GPT‑4o सोबत संवाद साधण्याची सुरक्षा सुधारण्यासाठी आम्ही या शिकवणुकींचा वापर करून आमच्या सेफ्टी इंटरव्हेन्शन्स विकसित केल्या. नवीन धोके शोधले जाताच आम्ही त्यांचे निवारण करत राहू.

आम्ही मान्य करतो की GPT‑4o च्या ऑडिओ मोडॅलिटीज अनेक नवीन प्रकारचे धोके निर्माण करतात. आज आम्ही टेक्स्ट आणि इमेज इनपुट्स आणि टेक्स्ट आउटपुट्स सार्वजनिकपणे रिलीज करत आहोत. येत्या काही आठवड्यांत आणि महिन्यांत, इतर मोडॅलिटीज रिलीज करण्यासाठी आवश्यक असलेली तांत्रिक पायाभूत सुविधा, पोस्ट-ट्रेनिंगद्वारे युजेबिलिटी, आणि सेफ्टी यावर आम्ही काम करू. उदाहरणार्थ, लॉन्चच्या वेळी ऑडिओ आउटपुट्स काही प्रीसेट व्हॉईसेसपुरते मर्यादित असतील आणि आमच्या विद्यमान सेफ्टी पॉलिसीजचे पालन करतील. आम्ही येणाऱ्या सिस्टीम कार्डमध्ये GPT‑4o च्या सर्व मोडॅलिटीजबद्दल अधिक तपशील सामायिक करू.

मॉडेलसोबतच्या आमच्या टेस्टिंग आणि पुनरावृत्तीमधून, आम्ही सर्व मोडॅलिटीजमध्ये असलेल्या अनेक मर्यादा पाहिल्या आहेत, त्यापैकी काही खाली दाखवल्या आहेत.

मॉडेल मर्यादांचे उदाहरणे

GPT‑4 टर्बो अजूनही GPT‑4o पेक्षा चांगले काम करत आहे अशा कार्यांना ओळखण्यास मदत करण्यासाठी आम्हाला अभिप्राय आवडेल, जेणेकरून आम्ही मॉडेलमध्ये सुधारणा करत राहू शकू, धन्यवाद. 

ChatGPT-4o रिस्क स्कोअरकार्ड

अपडेटेड 8 मे, 2024

ट्रॅक केलेली जोखीम श्रेणी
शमनपूर्व जोखीम पातळी
सर्वोत्तम ज्ञात क्षमता उद्दीपन तंत्रांचा वापर करून पूर्व-शमन जोखमीची पातळी ठरवा
पोस्ट-मिटिगेशन जोखीम पातळी
सर्वात ज्ञात क्षमता उलगडण्याच्या तंत्रांचा वापर करून कमी करण्याच्या उपाययोजना लागू झाल्यानंतर एकूण जोखीम पातळी निश्चित करा
सायबरसिक्युरिटी
कमी
कमी
CBRN
कमी
कमी
समुपदेशन
मध्यम
मध्यम
मॉडेल ऑटोनॉमी
कमी
कमी

आमच्या प्रिपेअर्डनेस फ्रेमवर्क चा भाग म्हणून, आम्ही आमच्या मॉडेल्ससाठी नियमित मूल्यांकन करतो आणि स्कोअरकार्ड्स अपडेट करतो. फक्त “मीडियम” किंवा त्याखालील पोस्ट-मिटिगेशन स्कोअर असलेली मॉडेल्स डिप्लॉय केली जातात. मॉडेलचा एकूण रिस्क लेव्हल कोणत्याही श्रेणीतील सर्वाधिक रिस्क लेव्हलवर ठरतो. सध्या, GPT‑4o ला मिटिगेशन प्रयत्नांपूर्वी आणि नंतरही मीडियम रिस्कवर मूल्यांकन केले गेले आहे.

मॉडेल उपलब्धता 1

GPT‑4o ही डीप लर्निंगच्या सीमांना पुढे नेण्यामधील आमची ताजी पायरी आहे, यावेळी प्रॅक्टिकल युजेबिलिटीच्या दिशेने. मागील दोन वर्षांत आम्ही स्टॅकच्या प्रत्येक लेयरमध्ये कार्यक्षमता सुधारण्यावर खूप मेहनत घेतली. या संशोधनाचा पहिला परिणाम म्हणून, आम्ही GPT‑4 लेव्हलचे मॉडेल खूप व्यापकपणे उपलब्ध करून देऊ शकतो. GPT‑4o च्या क्षमता टप्प्याटप्प्याने आणल्या जातील (आजपासून विस्तारित रेड Team प्रवेशासह). 

GPT‑4o च्या टेक्स्ट आणि प्रतिमा क्षमतांचा ChatGPT मध्ये आजपासून रोलआउट सुरू होत आहे. आम्ही GPT‑4o मोफत टियरमध्ये उपलब्ध करून देत आहोत, आणि Plus वापरकर्त्यांसाठी 5 पट जास्त मेसेज लिमिटसह. येत्या काही आठवड्यांत आम्ही ChatGPT प्लस मध्ये GPT‑4o सह व्हॉईस मोडचे नवीन अल्फा व्हर्जन रोलआउट करू.

डेव्हलपर्स आता API मध्ये GPT‑4o ला टेक्स्ट आणि व्हिजन मॉडेल म्हणून ॲक्सेस करू शकतात. GPT‑4o हे GPT‑4 टर्बोच्या तुलनेत 2 पट वेगवान, अर्ध्या किंमतीचे, आणि 5 पट जास्त रेट लिमिट्स असलेले आहे. आम्ही येत्या काही आठवड्यांत GPT‑4o च्या नवीन ऑडिओ आणि व्हिडिओ क्षमतांसाठी API मध्ये काही विश्वासू भागीदारांना सपोर्ट सुरू करण्याची योजना आखत आहोत.