ہیلو GPT‑4o
ہم اپنے نئے فلیگ شپ ماڈل GPT‑4o، کا اعلان کر رہے ہیں جو حقیقی وقت میں آڈیو، وژن، اور ٹیکسٹ میں استدلال کر سکتا ہے۔
13 مئی کے اعلان کا اندازہ لگانا۔
GPT‑4o (“omni” کے لئے “o”) مؤثر قدرتی انسان-کمپیوٹر تعامل کی طرف ایک قدم ہے— یہ ٹیکسٹ، آڈیو، تصویر، اور ویڈیو کے کسی بھی امتزاج کو ان پٹ کے طور پر قبول کرتا ہے اور ٹیکسٹ، آڈیو، اور تصویر کے کسی بھی امتزاج کو آؤٹ پٹ کے طور پر پیدا کرتا ہے۔ یہ آڈیو ان پٹ کا جواب 232 ملی سیکنڈ تک کم وقت میں دے سکتا ہے، جبکہ اوسطاً 320 ملی سیکنڈ میں، جو گفتگو میں انسانی ردعمل کے وقت(نئی ونڈو میں کھلتا ہے) کے مشابہ ہے۔ یہ انگریزی اور کوڈ میں ٹیکسٹ پر GPT‑4 ٹربو کی کارکردگی سے مماثلت رکھتا ہے، غیر انگریزی زبانوں میں ٹیکسٹ میں نمایاں بہتری کے ساتھ، جبکہ API میں یہ بہت تیز اور 50٪ سستا بھی ہے۔ GPT‑4o موجودہ نمونوں کے مقابلے میں خاص طور پر وژن اور آڈیو کی تفہیم میں بہتر ہے۔
ماڈل کی صلاحیتیں
دو GPT‑4os بات چیت کر رہے ہیں اور گانا گا رہے ہیں۔
انٹرویو کی تیاری۔
راک پیپر سیزر
تلخ چھبتی ہوئی بات۔
سال اور عمران خان کے ساتھ ریاضی۔
دو GPT‑4os ہم آہنگ ہو رہے ہیں۔
صرف اشارہ کریں اور ہسپانوی زبان سیکھیں۔
AI سے ملاقات کرنا۔
حقیقی وقت میں ترجمہ۔
لوری۔
زیادہ تیزی سے بات کرنا۔
سالگرہ مبارک ہو۔
کتا۔
ابو کے لطیفے
اینڈی کے ساتھ GPT‑4o، لندن میں BeMyEyes سے۔
کسٹمر سروس کے تصور کا عملی نمونہ۔
GPT‑4o سے پہلے، آپ 2.8 سیکنڈ (GPT 3.5) کی تا خیر کے ساتھ ChatGPT سے بات کرنے کے لئے وائس موڈ کا استعمال کرسکتے ہیں اور اوسطاً 5.4 سیکنڈ (GPT‑4) میں۔ اس مقصد کے حصول کے لئے، وائس موڈ تین الگ الگ ماڈلز کی ایک پائپ لائن ہے: ایک سادہ ماڈل آڈیو کو ٹیکسٹ میں نقل کرتا ہے، GPT‑3.5 یا GPT‑4 ٹیکسٹ کو لیتا ہے اور ٹیکسٹ کو آؤٹ پٹ کرتا ہے، اور تیسرا سادہ ماڈل اس ٹیکسٹ کو واپس آڈیو میں تبدیل کرتا ہے۔ اس عمل کا مطلب یہ ہے کہ ذہانت کا بنیادی ذریعہ، GPT‑4، بہت سی معلومات کھو دیتا ہے—یہ براہ راست لہجہ، متعدد بولنے والے، یا پس منظر کے شور کا مشاہدہ نہیں کر سکتا، اور یہ ہنسی، گانا، یا جذبات کا آؤٹ پٹ نہیں کر سکتا۔
GPT‑4o کے ساتھ، ہم نے ٹیکسٹ، وژن، اور آڈیو کے لیے ایک نیا ماڈل آخر تک تربیت کیا، جس کا مطلب ہے کہ تمام ان پٹس اور آؤٹ پٹ ایک ہی نیورل نیٹ ورک کے ذریعے پروسیس کیے جاتے ہیں۔ چونکہ GPT‑4o ہمارا پہلا ماڈل ہے جو ان تمام طریقوں کو یکجا کرتا ہے، ہم ابھی بھی یہ دریافت کرنے کے ابتدائی مراحل میں ہیں کہ یہ ماڈل کیا کر سکتا ہے اور اس کی حدود کیا ہیں۔
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

روایتی بینچ مارکس پر ماپنے کے مطابق، GPT‑4o ٹیکسٹ، استدلال، اور کوڈنگ انٹیلیجنس میں GPT‑4 ٹربو کے لیول کی کارکردگی حاصل کرتا ہے، جبکہ کثیر لسانی، آڈیو، اور وژن کی صلاحیتوں میں نئے اعلی معیارات قائم کرتا ہے۔
ٹیکسٹ کی تشخیص
ان 20 زبانوں کو مختلف زبانوں کے خاندانوں میں نئے ٹوکنائزر کی کمپریشن کی نمائندگی کے لیے منتخب کیا گیا تھا
گجراتی میں 4.4 گنا کم ٹوکن (145 سے 33 تک) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
تیلگو میں 3.5x کم ٹوکن (159 سے 45 تک) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
تامل 3.3x کم ٹوکنز (116 سے 35 تک) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
مراٹھی میں 2.9 گنا کم ٹوکنز (96 سے کم ہو کر 33 تک) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
ہندی میں 2.9x کم ٹوکن (90 سے 31 تک) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
اردو میں 2.5x کم ٹوکنز (82 سے 33 تک) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
عربی میں 2.0x کم ٹوکن (53 سے 26 تک) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
فارسی 1.9x کم ٹوکن (61 سے 32 تک) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
روسی 1.7 گنا کم ٹوکن (39 سے 23 تک) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
کورین 1.7x کم ٹوکنز (45 سے 27 تک) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
ویتنامی 1.5x کم ٹوکن (46 سے 30 تک) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
چینی 1.4x کم ٹوکن (34 سے 24 تک) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
جاپانی 1.4x کم token (37 سے 26 تک) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
ترکی میں 1.3x کم ٹوکن (39 سے 30 تک) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
اطالوی میں 1.2x کم token (34 سے 28 تک) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
جرمن میں 1.2 گنا کم ٹوکنز (34 سے کم ہو کر 29 تک) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
ہسپانوی میں 1.1x کم ٹوکنز (29 سے 26 تک) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
پرتگالی میں 1.1x کم ٹوکن (30 سے 27 تک) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
فرانسیسی 1.1x کم ٹوکنز (31 سے 28 تک) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
انگریزی میں 1.1x کم ٹوکنز (27 سے 24 تک) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o میں سلامتی (Safety) کو بنیادی ڈیزائن کا حصہ بنایا گیا ہے، اور یہ مختلف طریقوں سے تمام موڈیلٹیز (modalities) میں شامل ہے — مثلاً تربیتی ڈیٹا کو فلٹر کرنا اور تربیت کے بعد ماڈل کے رویّے کو بہتر بنانا۔ ہم نے وائس آؤٹ پٹ پر گارڈریل فراہم کرنے کے لیے نئے حفاظتی نظام بھی بنائے ہیں۔
ہم نے اپنے تیاری کے فریم ورک کے مطابق اور اپنے رضاکارانہ وعدوں کے تحت GPT‑4o کا جائزہ لیا ہے۔ ہماری سائبر سیکیورٹی، CBRN، قائل کرنے، اور ماڈل کی خود مختاری کی تشخیصات سے ظاہر ہوتا ہے کہ GPT‑4o ان میں سے کسی بھی زمرے میں درمیانے خطرے سے زیادہ اسکور نہیں کرتا۔ اس تشخیص میں ماڈل کی تربیت کے پورے عمل کے دوران خودکار اور انسانی تشخیصات کا ایک مجموعہ چلانا شامل تھا۔ ہم نے ماڈل کی صلاحیتوں کو بہتر طور پر ظاہر کرنے کے لئے کسٹم فائن ٹیوننگ اور بروقت کا استعمال کرتے ہوئے ماڈل کے پری سیفٹی میٹیگیشن اور پوسٹ سیفٹی میٹیگیشن دونوں ورژنز کی جانچ کی۔
GPT‑4o نے سماجی نفسیات، تعصب اور انصاف، اور غلط معلومات جیسے شعبوں میں 70+ بیرونی ماہرین کے ساتھ وسیع بیرونی ریڈ ٹیمنگ سے بھی گزرا ہے تاکہ ان خطرات کی نشاندہی کی جا سکے جو نئے شامل کردہ طریقوں کے ذریعہ متعارف کرائے گئے ہیں یا بڑھائے گئے ہیں۔ ہم نے ان تجربات کو GPT‑4o کے ساتھ تعامل کی حفاظت کو بہتر بنانے کے لئے اپنی حفاظتی مداخلتوں کو تیار کرنے کے لئے استعمال کیا۔ ہم نئے خطرات کو کم کرنا جاری رکھیں گے جیسے ہی وہ دریافت کیے جائیں گے۔
ہم تسلیم کرتے ہیں کہ GPT‑4o کے آڈیو طریقے مختلف قسم کے نئے خطرات پیش کرتے ہیں۔ آج ہم عوامی طور پر ٹیکسٹی اور تصویری ان پٹ اور ٹیکسٹی آؤٹ پٹ جاری کر رہے ہیں۔ آنے والے ہفتوں اور مہینوں میں، ہم تکنیکی بنیادی ڈھانچے، تربیت کے بعد کی استعمال کی صلاحیت، اور دیگر طریقوں کو جاری کرنے کے لئے ضروری حفاظت پر کام کریں گے۔ مثال کے طور پر، لانچ کے وقت، آڈیو آؤٹ پٹ کو پیش سیٹ آوازوں کے انتخاب تک محدود کیا جائے گا اور یہ ہماری موجودہ حفاظتی پالیسیوں کی پابندی کریں گے۔ ہم آنے والے سسٹم کارڈ میں GPT‑4o کی تمام خصوصیات کے بارے میں مزید تفصیلات فراہم کریں گے۔
ماڈل کے ساتھ ہماری جانچ اور تکرار کے ذریعے، ہم نے کئی حدود کا مشاہدہ کیا ہے جو ماڈل کی تمام جہتوں میں موجود ہیں، جن میں سے کچھ ذیل میں دکھائی گئی ہیں۔
ماڈل کی حدود کی مثالیں
ہم ان ٹاسک کی نشاندہی کرنے میں مدد کے لیے فیڈبیک پسند کریں گے جہاں GPT‑4 ٹربو اب بھی GPT‑4o سے بہتر کارکردگی کا مظاہرہ کرتا ہے، تاکہ ہم ماڈل کو بہتر بنانا جاری رکھ سکیں، شکریہ۔
8 مئی 2024 کو اپ ڈیٹ کیا گیا
ہمارے تیاری کے فریم ورک کے حصے کے طور پر، ہم باقاعدگی سے جائزے لیتے ہیں اور اپنے ماڈلز کے لیے اسکور کارڈز کو اپ ڈیٹ کرتے ہیں۔ صرف وہ ماڈلز تعینات کیے جاتے ہیں جن کا بعد از تخفیف اسکور “میڈیم” یا اس سے کم ہو۔ کسی ماڈل کے لئے خطرے کی مجموعی سطح کا تعین کسی بھی زمرے میں سب سے زیادہ خطرے کے لیول سے ہوتا ہے۔ فی الحال، GPT‑4o کو کم کرنے کی کوششوں سے پہلے اور بعد میں درمیانے خطرے پر پرکھا جاتا ہے۔
GPT‑4o اس بار عملی استعمال کی سمت میں گہری سمجھ بوجھ کی حدود کو آگے بڑھانے میں ہمارا تازہ ترین قدم ہے۔ ہم نے گزشتہ دو سالوں میں اسٹیک کی ہر پرت پر کارکردگی میں بہتری لانے کے لیے بہت محنت کی۔ اس تحقیق کے پہلے ثمر کے طور پر، ہم GPT‑4 سطح کے ماڈل کو زیادہ وسیع پیمانے پر دستیاب کرنے کے قابل ہیں۔ GPT‑4o کی صلاحیتوں کو مرحلہ وار متعارف کرایا جائے گا (آج سے ریڈ Team تک توسیع شدہ رسائی کے ساتھ)۔
GPT‑4o کی ٹیکسٹ اور تصویری صلاحیتیں آج سے ChatGPT میں متعارف کی جا رہی ہیں۔ ہم GPT‑4o کو مفت ٹائر میں، اور 5x زیادہ پیغام کی حدود والے Plus صارفین کے لیے دستیاب کر رہے ہیں۔ ہم آنے والے ہفتوں میں چیٹ GPT پلس کے اندر الفا میں GPT‑4o کے ساتھ وائس موڈ کا نیا ورژن متعارف کروائیں گے۔
ڈویلپرز اب ٹیکسٹ اور ویژن ماڈل کے طور پر API میں GPT‑4o تک بھی رسائی حاصل کرسکتے ہیں۔ GPT‑4o دو گنا تیز، آدھی قیمت پر، اور GPT‑4 Turbo کے مقابلے میں پانچ گنا زیادہ شرح کی حد رکھتا ہے۔ ہم آنے والے ہفتوں میں API میں قابل اعتماد شراکت داروں کے ایک چھوٹے گروپ کے لیے GPT‑4o کی نئی آڈیو اور ویڈیو صلاحیتوں کی سپورٹ لانچ کرنے کا منصوبہ بنا رہے ہیں۔