13 मई 2024

हेलो GPT‑4o

हम GPT‑4o को अनाउन्‍स कर रहे हैं, यह हमारा नया फ़्लैगशिप मॉडल है, जो रियल टाइम में ऑडियो, विज़न और टेक्‍स्‍ट सभी में रीज़न कर सकता है.

योगदान ChatGPT पर आज़माऍं GPT-4o सिस्टम कार्ड

इस पेज के सभी वीडियो 1x रियल टाइम पर है.

13 मई की अनाउंसमेंट का अनुमान.

और रिसोर्सेज़

Playground में आज़माऍं लाइव डेमो को फ़िर से देखें

लोड किया जा रहा है...

GPT‑4o (“omni” के लिए “o”) ज्‍़यादा नैचुरल तरीक़े से ह्यूमन-कंप्यूटर इंटरैक्शन की ओर एक कदम है – यह टेक्स्ट, ऑडियो, इमेज और वीडियो के किसी भी कॉम्बिनेशन को इनपुट की तरह लेता है और टेक्स्ट, ऑडियो और इमेज आउटपुट के किसी भी कॉम्बिनेशन को जनरेट करता है. यह 232 मिलिसेकंड जितनी ज़रा-सी देर में ऑडियो इनपुट को रिस्पांस कर सकता है, औसतन 320 मिलिसेकंड के साथ, जो कि बातचीत में इंसान के रिस्पांस समय⁠(एक नई विंडो में खुलेगा) के समान ही है. ग़ैर-अंग्रेज़ी भाषाओं में टेक्‍स्‍ट पर ज़रूरी सुधार के साथ, यह अंग्रेज़ी में टेक्‍स्‍ट और कोड पर GPT‑4 टर्बो परफ़ॉर्मेंस से मेल खाता है, जबकि यह API में बहुत तेज़ है और 50% सस्ता भी है. GPT‑4o मौजूदा मॉडल के मुक़ाबले विज़न और ऑडियो की अंडरस्‍टैंडिंग में ख़ास तौर पर बेहतर है.

मॉडल की कैपेबिलिटी

दो GPT‑4o बात करते हुए और गाना गाते हुए.

इंटरव्यू की तैयारी.

रॉक पेपर कैंची.

व्‍यंग्‍य.

साल और इमरान ख़ान के साथ मैथ.

दो GPT‑4o हार्मनाइज़ करते हुए.

स्‍पैनिश को पॉइंट करें और सीखें.

मीटिंग AI.

रियल-टाइम अनुवाद.

लोरी.

तेज़ी से बोलना.

हैपी बर्थडे.

कुत्ता.

डैड पर चुटकुले.

लंदन में GPT‑4o BeMyEyes की ऐंडी के साथ.

कॉन्सेप्ट के कस्‍टमर सेवा का सबूत.

GPT‑4o से पहले, ChatGPT से बात करने के लिए आप वॉयस मोड⁠ का इस्‍तेमाल करते थे, जिसमें औसतन 2.8 सेकंड (GPT‑3.5) और 5.4 सेकंड (GPT‑4) की देरी हो जाया करती थी. ऐसा करने के लिए, वॉयस मोड तीन अलग-अलग मॉडलों की पाइपलाइन होता है: एक आसान मॉडल ऑडियो को टेक्स्ट बनाता है, GPT‑3.5 या GPT‑4 टेक्स्ट को टेक्स्ट में ही आउटपुट करता है, और तीसरा आसान मॉडल उस टेक्स्ट को फिर से ऑडियो में बदल देता है. इस प्रोसेस का मतलब है कि इंटेलीजेंस का मुख्‍य सोर्स, GPT‑4, बहुत सारी जानकारी को गँवा देता है—यह सीधे टोन, कई सारे बोलने वालों या बैकग्राउंड के शोर को ऑब्‍ज़र्व नहीं कर पाता, और यह हँसी, गीत-संगीत या भावनाओं को आउटपुट नहीं कर पाता.

GPT‑4o में, हमने सभी टेक्‍स्‍ट, विज़न और ऑडियो में एक सिंगल नया मॉडल एंड-टू-एंड ट्रेन किया है, इसका मतलब है कि सभी इनपुट और आउटपुट एक ही न्यूरल नेटवर्क से प्रोसेस होते हैं. क्‍योंकि GPT‑4o हमारा पहला ऐसा मॉडल है जिसमें ये मॉडेलिटीज़ एक साथ जोड़ी गई हैं, हम अभी भी इस पर काम कर रहे हैं कि यह मॉडल और क्या-क्‍या कर सकता है और इसकी सीमाएँ क्या हैं.

कैपेबिलिटी को एक्‍सप्‍लोर करना

सैंपल चुनें:

इनपुट

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

आउटपुट

इनपुट

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

आउटपुट

इनपुट

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

आउटपुट

मॉडल इवैल्यूएशन

पारंपरिक बेंचमार्क्‍स के अनुसार, GPT‑4o, टेक्स्ट, रीज़निंग और कोडिंग इंटेलिजेंस पर GPT‑4 टर्बो-लेवल परफ़ॉर्मेंस हासिल करता है, वहीं अलग-अलग भाषाओं, ऑडियो और विज़न कैपेबिलिटी पर नए ज्‍़यादा ऊँचे वॉटरमार्क सेट करता है.

टेक्स्ट इवैल्यूएशन

लैंग्वेज टोकेनाइज़ेशन

इन 20 भाषाओं को अलग-अलग लैंग्वेज फ़ैमिली से नए टोकनाइज़र कंप्रेशन के रिप्रेज़ेंटेटिव के तौर पर चुना गया था.

गुजराती 4.4x कम टोकन (145 से घटकर 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
तेलुगु 3.5x कम टोकन (159 से घटकर 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
तमिल 3.3x कम टोकन (116 से घटकर 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
मराठी 2.9x कम टोकन (96 से घटकर 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
हिंदी 2.9x कम टोकन (90 से घटकर 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
उर्दु 2.5x कम टोकन (82 से घटकर 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
अरबी 2.0x कम टोकन (53 से घटकर 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
पर्शियन 1.9x कम टोकन (61 से घटकर 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Russian 1.7x कम टोकन (39 से घटकर 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
कोरियाई 1.7x कम टोकन (45 से घटकर 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
वियतनामी 1.5x कम टोकन (46 से घटकर 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Chinese 1.4x कम टोकन (34 से घटकर 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
जापानी 1.4x कम टोकन (37 से घटकर 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
तुर्की 1.3x कम टोकन (39 से घटकर 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
इटैलियन 1.2x कम टोकन (34 से घटकर 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
जर्मन 1.2x कम टोकन (34 से घटकर 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
स्पैनिश 1.1x कम टोकन (29 से घटकर 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
पुर्तगाली 1.1x कम टोकन (30 से घटकर 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
फ़्रेंच 1.1x कम टोकन (31 से घटकर 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
अंग्रेज़ी 1.1x कम टोकन (27 से घटकर 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

मॉडल सुरक्षा और सीमाऍं

GPT‑4o में, ट्रेनिंग डेटा को फ़िल्टर करने और पोस्‍ट-ट्रेनिंग द्वारा मॉडल के बिहेवियर को रिफ़ाइन करने जैसी तकनीकों के ज़रिए मॉडेलिटीज़ में सुरक्षा डिज़ाइन में ही इन-बिल्‍ट है. हमने वॉइस आउटपुट पर गार्डरेल देने के लिए नए सुरक्षा सिस्‍टम भी बना लिए हैं.

हमने हमारे तैयारी फ़्रेमवर्क⁠ और हमारे वालंटरी कमिटमेंट्स⁠ के अनुसार GPT‑4o का इवैल्यूएशन किया है. साइबरसिक्योरिटी, CBRN, पर्सुएशन, मॉडल ऑटोनॉमी के हमारे इवैल्यूएशन दिखाते हैं कि GPT‑4o ने इनमें से किसी भी कैटेगरी में मीडियम ख़तरे से ऊपर का स्‍कोर नहीं किया है. इस मूल्यांकन में मॉडल ट्रेनिंग प्रोसेस में ऑटोमेटिड और ह्यूमन इवैल्यूएशन के पूरे सेट को चलाया जाता है. हमने मॉडल की कैपेबिलिटी को बेहतर तरीक़े से जानने के लिए, कस्टम फ़ाइन-ट्यूनिंग और प्रॉम्प्ट का इस्‍तेमाल करके मॉडल के प्रि-सेफ़्टी-मिटिगेशन और पोस्‍ट-सेफ़्टी-मिटिगेशन दोनों के वर्ज़न को टेस्‍ट किया है.

GPT‑4o ने सामाजिक मनोविज्ञान, पूर्वाग्रह और ईमानदारी, और ख़तरों को पहचानने संबंधी गलत जानकारी, जो नई जोड़ी गई मॉडेलिटीज़ की वज़ह से पैदा हुई या बढ़ गई हैं, जैसे डोमेन में 70+ बाहर के एक्‍सपर्ट⁠ के साथ बड़े पैमाने पर बाहरी रेड टीमिंग भी की है. हमने इन सबक़ों का इस्‍तेमाल GPT‑4o के साथ इंटरैक्‍ट करने संबंधी सुरक्षा को बेहतर बनाने के लिए अपने सेफ़्टी इंटरवेशंस को बनाने में किया. हम नए-नए ख़तरों के मिलते रहने पर उनका मिटिगेशन जारी रखेंगे.

हमने महसूस किया है कि GPT‑4o के ऑडियो मॉडेलिटीज़ ने कई नए ख़तरे पेश किए हैं. आज हम सबके सामने टेक्‍स्‍ट और इमेज इनपुट और टेक्स्ट आउटपुट रिलीज़ कर रहे हैं. आने वाले हफ़्तों और महीनों में, हम अन्‍य मॉडेलिटीज़ को रिलीज़ करने के लिए तकनीकी ढाँचे, पोस्‍ट-ट्रेनिंग के ज़रिए यूज़ेबिलिटी, और सुरक्षा ज़रूरतों पर काम करेंगे. उदाहरण के लिए, लॉन्च के समय, ऑडियो आउटपुट पहले से तय आवाज़ों के सलेक्‍शन तक सीमित होंगे और हमारी मौजूदा सुरक्षा नीतियों के दायरे में रहेंगे. हम आने वाले सिस्‍टम कार्ड में GPT‑4o की मॉडेलिटीज़ की पूरी रेंज के बारे में ज्‍़यादा जानकारी आगे शेयर करेंगे.

मॉडल पर हमारी टेस्टिंग और दोहराव के ज़रिए, हमने ऐसी कई सीमाओं को पाया हैं जो मॉडल की सभी मॉडेलिटीज़ में मौजूद हैं, जिनमें से कुछ के बारे में नीचे बताया गया है.

मॉडल की सीमाओं के उदाहरण

हम टास्‍क को पहचानने में मददगार ऐसे फ़ीडबैक पाना चाहेंगे, जहाँ GPT‑4 Turbo अभी भी GPT‑4o से बेहतर परफ़ॉर्मेंस कर रहा है, जिससे कि हम मॉडल को बेहतर बनाना जारी रख सकें.

ChatGPT-4o रिस्‍क स्‍कोरकार्ड

^{8 मई, 2024 को अपडेट किया गया}

ट्रैक की गई रिस्क कैटेगरी

प्रि-मिटिगेशन रिस्क लेवेल

जानकारी में सबसे अच्छी कैपेबिलिटी एलिसिटेशन टेक्निक्स का इस्तेमाल करते हुए प्रि-मिटिगेशन रिस्क लेवेल तय करें

पोस्ट-मिटिगेशन रिस्क लेवेल

जानकारी में सबसे अच्छी कैपेबिलिटी एलिसिटेशन टेक्निक्स का इस्तेमाल करते हुए मिटिगेशन उपाय किए जाने के बाद ओवरऑल रिस्क लेवेल तय करें

साइबरसिक्योरिटी

लो

CBRN

लो

पर्सुएशन

मीडियम

मॉडल ऑटोनॉमी

लो

हमारे तैयारी फ़्रेमवर्क⁠ के हिस्‍से के तौर पर, हम हमारे मॉडल का लगातार इवैल्यूएशन करते हैं और स्‍कोरकार्ड को अपडेट करते हैं. सिर्फ़ “मीडियम” या उससे नीचे के पोस्ट-मिटिगेशन स्कोर वाले मॉडल ही डिप्‍लॉय किए जाते हैं। किसी मॉडल के लिए कुल मिलाकर ख़तरे का लेवल किसी भी कैटेगरी में सबसे ज्‍़यादा ख़तरे के लेवल से तय किया जाता है. अभी, GPT‑4o मिटिगेशन से पहले और बाद की कोशिशों में मीडियम ख़तरे पर ऑंका गया है.

मॉडल की उपलब्‍धता

GPT‑4o डीप लर्निंग की सीमाओं को परे धकेलने वाला हमारा सबसे नया क़दम है, इस बार प्रैक्टिकल यूज़ेबिलिटी की दिशा में. हमने स्‍टैक की हर लेयर की एफ़ि‍शिएंसी को बेहतर बनाने पर पिछले दो सालों में ढेर सारी कोशिशें की हैं. इस रिसर्च के पहले फल के तौर पर, हम GPT‑4 को और ज्‍़यादा बड़े पैमाने पर उपलब्‍ध करवा रहे हैं. GPT‑4o की कैपेबिलिटी एक के बाद एक उपलब्‍ध होंगी (एक्सटेंडेड रेड टीम एक्सेस के साथ आज से शुरू).

GPT‑4o की टेक्‍स्‍ट और इमेज कैपेबिलिटी ChatGPT में आज से उपलब्‍ध होनी शुरू हो रही हैं. हम GPT‑4o को फ़्री टियर में, और Plus यूज़र को 5x ज्‍़यादा मैसेज सीमाओं के साथ उपलब्‍ध करा रहे हैं. हम आने वाले हफ़्तों में ChatGPT Plus में अल्फ़ा में GPT‑4o के साथ वॉयस मोड का नया वर्ज़न उपलब्‍ध कराएँगे.

डेवलपर अब API में GPT‑4o को टेक्स्ट और विज़न मॉडल के तौर पर भी एक्सेस कर सकते हैं. GPT‑4o 2x तेज़ है, क़ीमत में आधा है, और GPT‑4 Turbo के मुक़ाबले में 5x ज्‍़यादा रेट लिमिट हैं. हमारा आने वाले सप्ताहों में API में थोड़े-से भरोसेमंद साझेदारों के लिए GPT‑4o की नई ऑडियो और वीडियो कैपेबिलिटी के लिए मदद शुरू करने का प्लॉन है.

लेखक

OpenAI

कंट्रिब्‍यूटर को देखें

हेलो GPT‑4o

मॉडल की कैपेबिलिटी

कैपेबिलिटी को एक्‍सप्‍लोर करना

मॉडल इवैल्यूएशन

टेक्स्ट इवैल्यूएशन

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

लैंग्वेज टोकेनाइज़ेशन

मॉडल सुरक्षा और सीमाऍं

ChatGPT-4o रिस्‍क स्‍कोरकार्ड

मॉडल की उपलब्‍धता

लेखक