تخطي إلى المحتوى الرئيسي
OpenAI

13 مايو 2024

إنجاز

مرحبًا نموذج GPT‑4o

نعلن عن GPT‑4o، نموذجنا الرائد الجديد القادر على الاستدلال باستخدام الصوت والرؤية والنص في الوقت الفعلي.

جميع مقاطع الفيديو على هذه الصفحة تعمل بالوقت الحقيقي بسرعة 1×.

تخمين إعلان 13 مايو.

جاري التحميل...

يُعَد GPT‑4o ( الحرف o اختصار لكلمة omni) خطوة نحو تفاعل أكثر طبيعية بين الإنسان والكمبيوتر - فهو يقبل أي مزيج من النص والصوت والصورة والفيديو كإدخال، ويولِّد أي مزيج من النص والصوت والصورة كمخرجات. يمكنه الاستجابة للمدخلات الصوتية في غضون 232 مللي ثانية كحد أدنى، وبمتوسط 320 مللي ثانية، وهو ما يشبه زمن استجابة الإنسان(يفتح في نافذة جديدة) في المحادثة. ويحقق أداءً مماثلاً لنموذج GPT‑4 Turbo في النصوص باللغة الإنجليزية والبرمجة، مع تحسين كبير في النصوص غير الإنجليزية، بالإضافة إلى أنه أسرع بكثير وأرخص بنسبة %50 في واجهة برمجة التطبيقات (API). يتميز GPT‑4o بأداء أفضل بشكل خاص في فهم الرؤية والصوت مقارنةً بالنماذج الحالية.

قدرات النموذج

قبل GPT‑4o، كان من الممكن استخدام وضع الصوت للتحدث مع ChatGPT مع زمن استجابة متوسط يبلغ 2.8 ثانية لنموذج GPT‑3.5 و 5.4 ثانية لنموذج GPT‑4. لتحقيق ذلك، يتكون وضع الصوت من ثلاثة نماذج منفصلة: نموذج بسيط يحوِّل الصوت إلى نص، ثم يأخذ GPT‑3.5 أو GPT‑4 النص ويولِّد نصًا، وأخيرًا نموذج بسيط ثالث يحوِّل النص مرة أخرى إلى صوت. هذه العملية تعني أن المصدر الرئيسي للذكاء، GPT‑4، يفقد الكثير من المعلومات - فلا يمكنه ملاحظة النبرة أو تعدُّد المتحدثين أو الضوضاء الخلفية مباشرةً، ولا يمكنه إنتاج الضحك أو الغناء أو التعبير عن المشاعر.

مع GPT‑4o، درَّبنا نموذجًا جديدًا واحدًا متكاملاً يشمل النص والرؤية والصوت، ما يعني أن جميع المدخلات والمخرجات تتم معالجتها بواسطة الشبكة العصبية نفسها. ونظرًا لأن GPT‑4o هو أول نموذج لنا يجمع كل هذه الوسائط، فإننا لا نزال في البداية فقط نستكشف إمكانيات النموذج وحدوده.

استكشاف القدرات

اختر العينة:
1
المدخلات

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
المخرجات
Robot on typewriter
3
المدخلات

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
المخرجات
Robot on typewriter with more text
5
المدخلات

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
المخرجات
Robot ripping sheet

تقييمات النماذج

وفقًا لمقاييس الأداء التقليدية، يحقق GPT‑4o مستوى أداء يعادل GPT‑4 Turbo في الذكاء النصي والاستدلالي والبرمجي، مع تسجيل مستويات قياسية جديدة في القدرات متعددة اللغات والصوتية والبصرية.

تقييم النص

ترميز اللغة

تم اختيار هذه اللغات العشرين لتمثيل ضغط برنامج الترميز الجديد عبر العائلات اللغوية المختلفة.

عدد رموز اللغة الغوجاراتية أقل بمقدار 4.4 مرة (من 145 إلى 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

عدد رموز اللغة التوغولية أقل بمقدار 3.5 مرة (من 159 إلى 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

عدد رموز اللغة التاميلة أقل بمقدار 3.3 مرة (من 116 إلى 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

عدد رموز اللغة الماراثية أقل بمقدار 2.9 مرة (من 96 إلى 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

عدد رموز اللغة الهندية أقل بمقدار 2.9 مرة (من 90 إلى 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

عدد رموز اللغة الأوردية أقل بمقدار 2.5 مرة (من 82 إلى 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

عدد رموز اللغة العربية أقل بمقدار 2.0 مرة (من 53 إلى 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

عدد رموز اللغة الفارسية أقل بمقدار 1.9 مرة (من 61 إلى 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

عدد رموز اللغة الروسية أقل بمقدار 1.7 مرة (من 39 إلى 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

عدد رموز اللغة الكورية أقل بمقدار 1.7 مرة (من 45 إلى 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

عدد رموز اللغة الفيتنامية أقل بمقدار 1.5 مرة (من 46 إلى 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

عدد رموز اللغة الصينية أقل بمقدار 1.4 مرة (من 34 إلى 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

عدد رموز اللغة اليابانية أقل بمقدار 1.4 مرة (من 37 إلى 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

عدد رموز اللغة التركية أقل بمقدار 1.3 مرة (من 39 إلى 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

عدد رموز اللغة الإيطالية أقل بمقدار 1.2 مرة (من 34 إلى 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

عدد رموز اللغة الألمانية أقل بمقدار 1.2 مرة (من 34 إلى 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

عدد رموز اللغة الإسبانية أقل بمقدار 1.1 مرة (من 29 إلى 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

عدد رموز اللغة البرتغالية أقل بمقدار 1.1 مرة (من 30 إلى 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

عدد رموز اللغة الفرنسية أقل بمقدار 1.1 مرة (من 31 إلى 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

عدد رموز اللغة الإنجليزية أقل بمقدار 1.1 مرة (من 27 إلى 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

سلامة النموذج وقيوده

يحتوي نموذج GPT‑4o على ميزات أمان مدمجة في التصميم عبر جميع الوسائط، من خلال تقنيات مثل تصفية بيانات التدريب وتحسين سلوك النموذج بعد التدريب. لقد أنشأنا أيضًا أنظمة أمان جديدة لتوفير حواجز حماية للنتائج الصوتية.

تم تقييم GPT‑4o بحسب
إطار الجاهزية وبما يتماشى مع التزاماتنا الطوعية. تُظهر تقييماتنا للأمن الإلكتروني والمخاطر الكيميائية والبيولوجية والإشعاعية والنووية (CBRN) والإقناع واستقلالية النموذج أن نموذج GPT‑4o لا يتجاوز مستوى المخاطر المتوسطة في أيٍّ من هذه الفئات. شمل هذا التقييم إجراء مجموعة من الاختبارات الآلية والبشرية طوال عملية تدريب النموذج. اختبرنا نموذجًا قبل تطبيق إجراءات التخفيف الأمني وبعد تطبيقها، باستخدام ضبط دقيق مخصص ومطالبات موجَّهة، بهدف استكشاف قدرات النموذج بشكل أفضل.

خضع GPT‑4o أيضًا لاختبارات موسّعة من فريق اختبار أحمر خارجي بمشاركة أكثر من 70
خبيرًا خارجيًا في مجالات مثل علم النفس الاجتماعي والتحيّز والعدالة والمعلومات المضللة؛ بهدف تحديد المخاطر التي قد تنشأ أو تتفاقم نتيجة الوسائط الجديدة المضافة. استخدمنا هذه النتائج لتطوير التدابير الأمنية لدينا بهدف تحسين سلامة التفاعل مع GPT‑4o. وسنستمر في تخفيف المخاطر الجديدة فور اكتشافها.

نحن ندرك أن قدرات الصوت في GPT‑4o تحمل مجموعة من المخاطر الجديدة. نعلن اليوم عن إتاحة الإدخالات النصية والصور والنتائج النصية للعامة. خلال الأسابيع والأشهر المقبلة، سنعمل على البنية التحتية التقنية، وتحسين سهولة الاستخدام من خلال التدريب اللاحق، وتعزيز الأمان اللازم لإطلاق الوسائط الأخرى. على سبيل المثال، عند الإطلاق، ستكون النتائج الصوتية محدودة بمجموعة من الأصوات المحددة مسبقًا وستلتزم بسياسات السلامة الحالية لدينا. سنشارك مزيدًا من التفاصيل التي تغطي نطاق وسائط GPT‑4o بأكمله في بطاقة النظام القادمة.

من خلال الاختبارات والتجارب التي أجريناها للنموذج، لاحظنا وجود عدة قيود عبر جميع وسائط النموذج، وبعضها موضَّح أدناه.

أمثلة على قيود النموذج

نودُّ الحصول على آرائكم لمساعدتنا على تحديد المهام التي لا يزال فيها GPT‑4 Turbo يتفوق على GPT‑4o، حتى نتمكن من الاستمرار في تحسين النموذج، شكرًا لكم. 

بطاقة تقييم المخاطر لنموذج ChatGPT-4o

تم التحديث في 8 مايو 2024

فئة المخاطر المتعقبة
مستوى المخاطر قبل التخفيف
تحديد مستوى المخاطر قبل التخفيف باستخدام أفضل تقنيات استنباط القدرات المعروفة.
مستوى المخاطر بعد التخفيف
تحديد المستوى الإجمالي للمخاطر بعد وضع إجراءات التخفيف موضع التنفيذ باستخدام أفضل تقنيات استنباط القدرات المعروفة
الأمن السيبراني
منخفض
منخفض
CBRN
منخفض
منخفض
الإقناع
متوسط
متوسط
استقلالية النموذج
منخفض
منخفض

كجزء من إطار الجاهزية لدينا، نُجري تقييمات دورية ونحدِّث بطاقات الأداء لنماذجنا. لا يتم نشر النماذج إلا إذا كان مستوى المخاطر بعد التخفيف "متوسط" أو أقل. ويتم تحديد مستوى المخاطر العام للنموذج بناءً على أعلى مستوى خطر في أي فئة. حاليًا، يتم تقييم GPT‑4o على أنه متوسط المخاطر قبل جهود التخفيف وبعدها.

توفُّر النموذج 1

يُعَد GPT‑4o أحدث خطواتنا في توسيع آفاق التعلم العميق، مع التركيز هذه المرة على قابلية الاستخدام العملي. بذلنا جهدًا كبيرًا على مدار العامين الماضيين لتحسين الكفاءة في كل طبقة من بنية النظام. كنتيجة أولية لهذا البحث، أصبح بإمكاننا إتاحة نموذج بمستوى GPT‑4 على نطاق أوسع بكثير. سيتم طرح قدرات GPT‑4o بشكل تدريجي (مع بدء الوصول الموسَّع لفريق الاختبار الأحمر اعتبارًا من اليوم). 

يبدأ اليوم طرح قدرات GPT‑4o في النصوص والصور في ChatGPT. نحن نوفر نموذج GPT‑4o في الطبقة المجانية، ولمستخدمي Plus مع حدود رسائل تصل إلى 5 أضعاف. وسنطرح إصدارًا جديدًا من وضع الصوت مع GPT‑4o في المرحلة التجريبية ضمن ChatGPT Plus خلال الأسابيع القادمة.

يمكن للمطورين الآن أيضًا الوصول إلى GPT‑4o في واجهة برمجة التطبيقات كنموذج للنصوص والصور. يُعَد نموذج GPT‑4o أسرع بمقدار الضعف وبنصف السعر، ولديه حدود رسائل أعلى 5 مرات مقارنةً بنموذج GPT‑4 Turbo. نخطط لإطلاق دعم قدرات GPT‑4o الجديدة في الصوت والفيديو لمجموعة صغيرة من الشركاء الموثوق بهم عبر واجهة برمجة التطبيقات خلال الأسابيع المقبلة.