إطلاق gpt-oss
gpt-oss-120b وgpt-oss-20b يدفعان حدود نماذج الاستدلال المفتوحة إلى مستوى جديد
نطرح اليوم gpt-oss-120b و gpt-oss-20b، وهما نموذجان لغويان متقدمان مفتوحا الأوزان يقدّمان أداءً قويًا في الاستخدامات الواقعية بتكلفة منخفضة. يتوفر هذان النموذجان بموجب رخصة Apache 2.0 المرنة، ويتفوقان على النماذج المفتوحة المماثلة لهما في الحجم في مهام الاستدلال، كما يبرعان في استخدام الأدوات، وتم تحسينهما للعمل بكفاءة على أجهزة المستخدمين الشخصية. جرى تدريب هذه النماذج باستخدام مزيج من التعلم المعزَّز (Reinforcement Learning) وتقنيات مستمدّة من أكثر نماذج OpenAI تقدمًا داخليًا، بما في ذلك o3 وغيرها من الأنظمة المتقدّمة من الفئة الريادية.
يحقق نموذج gpt-oss-120b مستوى أداء يقترب من التكافؤ مع نموذج OpenAI o4-mini في اختبارات الاستدلال الجوهرية، مع كفاءة تشغيل عالية على وحدة GPU واحدة بسعة 80 غيغابايت فقط. أما نموذج gpt-oss-20b فيقدّم نتائج مشابهة لنموذج OpenAI o3‑mini في الاختبارات الشائعة، ويمكن تشغيله على أجهزة طرفية بذاكرة 16 غيغابايت فقط، مما يجعله خيارًا مثاليًا لحالات الاستخدام على الجهاز، أو الاستدلال المحلي، أو التطوير السريع دون الحاجة إلى بنى تحتية مكلفة. كما يظهر النموذجان أداءً قويًا في استخدام الأدوات، واستدعاء الوظائف بعدة أمثلة (few-shot function calling)، والاستدلال بخطوات التفكير (CoT)—وفق نتائج مجموعة تقييم Tau-Bench للأنظمة العميـلة، إضافة إلى أدائهما المميز في HealthBench، حيث يتفوقان حتى على بعض النماذج المحمية بحقوق الملكية مثل OpenAI o1 وGPT‑4o.
تتوافق هذه النماذج مع واجهة Responses API(يفتح في نافذة جديدة) وقد صُمّمت للعمل ضمن تدفقات العمل العميـلة، مع قدرة استثنائية على اتباع التعليمات واستخدام الأدوات مثل البحث على الويب أو تنفيذ تعليمات Python، إضافة إلى قدرات قوية في الاستدلال—بما في ذلك القدرة على تعديل مستوى جهد الاستدلال للمهام التي لا تتطلّب تفكيرًا معقدًا و/أو تستهدف مخرجات نهائية بزمن استجابة منخفض جدًا. النماذج قابلة للتخصيص بالكامل، وتوفّر سلسلة التفكير الكاملة (CoT)، كما تدعم المخرجات المهيكلة Structured Outputs(يفتح في نافذة جديدة).
تُعدّ السلامة حجر الأساس في منهجيتنا لإصدار جميع نماذجنا، وتزداد أهميتها عند التعامل مع النماذج المفتوحة. فبالإضافة إلى إخضاع هذه النماذج لبرامج تدريب شاملة على السلامة وإجراء تقييمات دقيقة، أضفنا طبقة إضافية من الفحص من خلال اختبار نسخة محسّنة هجوميًا من gpt-oss-120b ضمن إطار الجاهزية Preparedness Framework(يفتح في نافذة جديدة) الخاص بنا. وتُظهر نماذج gpt-oss أداءً مماثلًا لنماذجنا المتقدمة في معايير السلامة الداخلية، مما يوفّر للمطورين نفس مستويات السلامة المطبقة على أحدث نماذجنا المحمية بحقوق الملكية. نحن نشارك نتائج هذا العمل وتفاصيل إضافية في ورقة بحثية(يفتح في نافذة جديدة) وضمن بطاقة النموذج(يفتح في نافذة جديدة). وقد خضعت منهجيتنا لمراجعة خبراء مستقلين، ما يمثّل خطوة مهمة نحو وضع معايير سلامة جديدة للنماذج مفتوحة الأوزان.
لقد عملنا أيضًا مع شركاء أوائل مثل AI Sweden(يفتح في نافذة جديدة) وOrange(يفتح في نافذة جديدة) وSnowflake(يفتح في نافذة جديدة) لفهم تطبيقات نماذجنا المفتوحة في العالم الحقيقي، بدءًا من استضافة هذه النماذج محليًا لضمان أمان البيانات، ووصولًا إلى ضبطها الدقيق باستخدام مجموعات بيانات متخصصة. ونحن متحمسون لتوفير هذه النماذج المفتوحة الأفضل في فئتها لتمكين الجميع—من المطورين الأفراد إلى المؤسسات الكبرى والحكومات—من تشغيل الذكاء الاصطناعي وتخصيصه على البنية التحتية الخاصة بهم. وبالاقتران مع النماذج المتوفرة عبر واجهة الـ API لدينا، يمكن للمطورين اختيار الأداء والتكلفة وزمن الاستجابة الأنسب لتشغيل تدفقات عملهم القائمة على الذكاء الاصطناعي.
تم تدريب نماذج gpt-oss باستخدام أحدث تقنياتنا في مرحلة ما قبل التدريب وما بعده، مع تركيز خاص على الاستدلال والكفاءة وقابلية الاستخدام العملي عبر مجموعة واسعة من بيئات النشر. وعلى الرغم من إتاحة نماذج أخرى مثل Whisper وCLIP بشكل مفتوح، فإن نماذج gpt-oss تُعدّ أول نماذج لغوية مفتوحة الأوزان نصدرها منذ GPT‑2[1].
كل نموذج عبارة عن Transformer يعتمد على ميزة الخبراء المتعددين (MoE[2]) لتقليل عدد المعاملات النشطة المطلوبة لمعالجة الإدخال. يقوم gpt-oss-120b بتنشيط 5.1 مليار معلمة لكل رمز، بينما ينشّط gpt-oss-20b ما يصل إلى 3.6 مليار. ويبلغ إجمالي معلمات النموذجين 117 مليارًا و21 مليارًا على التوالي. تستخدم النماذج أنماط انتباه متناوبة بين مكتظّة (dense) ومتفرقة ذات نطاق محلي (locally banded sparse)، على غرار GPT‑3[3]. ومن أجل تعزيز كفاءة الاستدلال والذاكرة، تعتمد النماذج أيضًا على Attention متعدد الاستعلامات المُجمّع (grouped multi-query attention) بحجم مجموعة يبلغ 8. وفي ما يتعلق بالتموضع (positional encoding)، نستخدم ترميز المواقع الدوّار (RoPE[4])، وتدعم النماذج بشكل أصيل طول سياق يصل إلى 128k.
نموذج | الطبقات | إجمالي المعلمات | المعلمات النشطة لكل رمز | إجمالي الخبراء | الخبراء النشطون لكل رمز | طول السياق |
gpt-oss-120b | 36 | 117 مليار | 5.1 مليار | 128 | 4 | 128 ألف |
gpt-oss-20b | 24 | 21 مليار | 3.6 مليار | 32 | 4 | 128 ألف |
قمنا بتدريب النماذج على مجموعة بيانات نصيّة تعتمد بشكل أساسي على اللغة الإنجليزية، مع تركيز خاص على العلوم والتقنية (STEM) والبرمجة والمعرفة العامة. وقد قمنا بترميز البيانات باستخدام إصدار موسّع من أداة التقطيع المستخدمة في نموذجي OpenAI o4-mini و GPT‑4o، وهي أداة o200k_harmony، والتي نقوم أيضًا بإتاحتها كمصدر مفتوح اليوم.
لمزيد من المعلومات حول بنية نماذجنا وتدريبها، يُرجى قراءة بطاقة النموذج(يفتح في نافذة جديدة).
تم إخضاع النماذج لمرحلة ما بعد التدريب باستخدام عملية مشابهة لتلك المستخدمة مع o4-mini، وتشمل مرحلة ضبط إشرافي (Supervised Fine-Tuning) تليها مرحلة تعزيز تعلّمي عالية الحوسبة (High-compute RL). وكان هدفنا مواءمة النماذج مع مواصفات نماذج OpenAI(يفتح في نافذة جديدة) وتعليمها تطبيق الاستدلال بخطوات التفكير (CoT) واستخدام الأدوات قبل توليد الإجابة النهائية. وباستخدام التقنيات نفسها المعتمدة في نماذج الاستدلال المتقدمة الخاصة بنا، تُظهر هذه النماذج قدرات استثنائية بعد مرحلة ما بعد التدريب.
على غرار نماذج الاستدلال من فئة OpenAI o-series المتوفرة عبر الـ API، يدعم النموذجان مفتوحا الأوزان ثلاثة مستويات من جهد الاستدلال: منخفض، ومتوسط، وعالٍ—وهي مستويات تتيح للمطور الموازنة بين زمن الاستجابة وقوة الأداء. ويمكن للمطورين ضبط مستوى جهد الاستدلال بسهولة من خلال جملة واحدة فقط في رسالة النظام.
قمنا بتقييم نموذجي gpt-oss-120b وgpt-oss-20b باستخدام معايير أكاديمية قياسية لقياس قدراتهما في البرمجة والرياضيات التنافسية والمجال الصحي واستخدام الأدوات ذاتيًّا، وذلك بمقارنتهما مع نماذج الاستدلال الأخرى من OpenAI، بما في ذلك o3 وo3‑mini وo4-mini.
يتفوّق gpt-oss-120b على OpenAI o3‑mini، ويُضاهي أو يتجاوز OpenAI o4-mini في البرمجة التنافسية (Codeforces)، وحلّ المشكلات العامة (MMLU وHLE)، واستدعاء الأدوات (TauBench). كما يحقق أداءً أفضل من o4-mini في الاستفسارات الصحية (HealthBench) والرياضيات التنافسية (AIME 2024 و2025). أما gpt-oss-20b، فبرغم حجمه الصغير، فإنه يضاهي أو يتجاوز OpenAI o3‑mini في التقييمات نفسها، بل ويتفوّق عليه في الرياضيات التنافسية والمجال الصحي.
نماذج gpt-oss ليست بديلًا عن المتخصصين الطبيين، وليست مخصّصة لتشخيص الحالات الطبية أو تقديم العلاج.
نماذج تشغيل توضيحية
يستطيع gpt-oss-120b تجميع المعلومات المُحدَّثة بسرعة باستخدام أداة التصفّح، بما في ذلك ربط عشرات العمليات المتتابعة في سلسلة واحدة.
أظهرت أبحاثنا الأخيرة أنّ مراقبة سلسلة التفكير (CoT) في نماذج الاستدلال يمكن أن تساعد في اكتشاف السلوكيات غير المرغوبة ما دام النموذج لم يُدرَّب بإشراف مباشر يهدف إلى محاذاة سلسلة التفكير. وهذا المنظور يشاطره(يفتح في نافذة جديدة) آخرون في القطاع أيضًا. وانسجامًا مع مبادئنا منذ إطلاق OpenAI o1‑preview، لم نفرض أي إشراف مباشر على سلسلة التفكير في أيٍّ من نموذجي gpt-oss. ونرى أن هذا الأمر جوهري لتمكين مراقبة السلوك المنحرف، والخداع، وإساءة الاستخدام المحتملة. ونأمل أن يتيح إصدار نموذج مفتوح بسلسلة تفكير غير مُحتواة بالإشراف للمطورين والباحثين فرصة ابتكار أنظمة خاصة بهم لمراقبة الـ CoT ودراستها وتطوير آليات موثوقة للكشف عن السلوكيات غير المرغوبة.
يجب على المطوّرين عدم عرض سلاسل التفكير (CoTs) مباشرةً للمستخدمين داخل تطبيقاتهم. فقد تتضمّن هذه السلاسل محتوى متوهَّمًا أو ضارًا، بما في ذلك لغة لا تتماشى مع معايير السلامة المعتمدة لدى OpenAI، كما قد تحتوي على معلومات طُلب من النموذج صراحةً عدم تضمينها في المخرجات النهائية.
يتّبع gpt-oss-120b تعليمات النظام بدقّة في المخرجات النهائية، لكنّه غالبًا ما يُظهر عدم امتثال صريح للتعليمات داخل سلسلة التفكير (CoT).
تستفيد نماذج gpt-oss من أحدث منهجياتنا المتقدّمة في تدريب السلامة. ففي مرحلة ما قبل التدريب، قمنا بتنقية البيانات لاستبعاد أنواع معيّنة من المحتوى الضار المرتبط بالمواد الكيميائية والبيولوجية والإشعاعية والنووية (CBRN). وخلال مرحلة ما بعد التدريب، استخدمنا المواءمة المتعمِّدة وهرمية التعليمات(يفتح في نافذة جديدة) لتعليم النموذج رفض الطلبات غير الآمنة والتصدّي لهجمات حقن التعليمات.
بمجرد إصدار نموذج مفتوح الأوزان، قد يتمكّن الخصوم من إعادة تدريبه وضبطه لأغراض خبيثة. ولتقييم هذه المخاطر مباشرة، قمنا بإعادة تدريب النموذج على بيانات متخصصة في الأحياء والأمن السيبراني، بهدف إنشاء نسخة ذات مجال محدد وغير رافضة، بالطريقة نفسها التي قد يتّبعها مهاجم محتمل. بعد ذلك، قمنا بتقييم مستوى قدرات هذه النماذج عبر اختبارات داخلية وخارجية. وكما هو موضَّح في وثيقة السلامة المرافقة، أشارت هذه الاختبارات إلى أنّه، على الرغم من إجراء ضبط قوي استخدم منظومة التدريب المتقدّمة لدى OpenAI، لم تتمكّن النماذج التي خضعت لضبط خبيث من الوصول إلى مستويات قدرات عالية وفقًا لـإطار الجاهزية الخاص بنا. وقد خضعت منهجية هذا الضبط الخبيث (malicious fine-tuning) لمراجعة ثلاث مجموعات مستقلة من الخبراء، قدّمت توصيات لتحسين عملية التدريب والتقييمات، وقد اعتمدنا العديد منها بالفعل. ونوضح هذه التوصيات في بطاقة النموذج. تمثل هذه الإجراءات تقدّمًا جوهريًا في سلامة النماذج المفتوحة، وقد ساهمت نتائجها في اتخاذ قرارنا بإصدار نماذج gpt-oss. ونأمل أن تسهم هذه النماذج في تسريع البحث في تدريب السلامة والمواءمة عبر القطاع.
من أجل الإسهام في بناء نظام مفتوح المصدر أكثر أمانًا، نطلق تحدّي الاختبار الهجومي (Red Teaming Challenge)(يفتح في نافذة جديدة) لتشجيع الباحثين والمطوّرين والمهتمين من مختلف أنحاء العالم على المساعدة في اكتشاف مشكلات سلامة جديدة. وخصصنا للتحدّي جائزة قدرها 500,000 دولار تُمنح بناءً على تقييم لجنة من الخبراء لدى OpenAI ومختبرات رائدة أخرى. وفي نهاية التحدّي، سننشر تقريرًا ونطرح مجموعة بيانات تقييم مفتوحة المصدر مبنية على النتائج المثبتة، لتمكين المجتمع الأوسع من الاستفادة فورًا. للمزيد من المعلومات والمشاركة(يفتح في نافذة جديدة).
يمكن تنزيل أوزان النموذجين gpt-oss-120b وgpt-oss-20b مجانًا عبر منصة Hugging Face، وهي متوفرة بشكل افتراضي بصيغة MXFP4 المضغوطة حسابيًا. يسمح ذلك بتشغيل نموذج gpt-oss-120b ضمن 80 غيغابايت من الذاكرة، بينما يحتاج نموذج gpt-oss-20b إلى 16 غيغابايت فقط.
تم إخضاع النماذج لمرحلة ما بعد التدريب باستخدام تنسيق مطالبات harmony(يفتح في نافذة جديدة)، ونحن نقوم بإتاحة أداة توليد harmony(يفتح في نافذة جديدة) كمصدر مفتوح بكلٍّ من Python وRust لتسهيل تبنّي هذا التنسيق. كما نطرح أيضًا تنفيذات مرجعية لتشغيل الاستدلال باستخدام PyTorch وعلى منصة Apple Metal، بالإضافة إلى مجموعة من أدوات الأمثلة المخصّصة للنموذج.
قمنا بتصميم هذه النماذج لتكون مرنة وسهلة التشغيل في أي مكان، سواء محليًا، أو على الجهاز نفسه، أو عبر مزوّدي الاستدلال من الأطراف الثالثة. ولتحقيق ذلك، تعاونّا قبل الإطلاق مع أبرز منصّات النشر، مثل Azure، Hugging Face، vLLM، Ollama، llama.cpp، LM Studio، AWS، Fireworks، Together AI، Baseten، Databricks، Vercel، Cloudflare، وOpenRouter، بهدف إتاحة النماذج على نطاق واسع للمطورين. وعلى مستوى الأجهزة، عملنا مع روّاد الصناعة مثل NVIDIA، وAMD، وCerebras، وGroq لضمان أداء محسن عبر مجموعة واسعة من الأنظمة.
كجزء من إصدار اليوم، تُقدّم Microsoft أيضًا إصدارات مُحسّنة للمعالجات الرسومية من نموذج gpt-oss-20b لأجهزة Windows. وبالاعتماد على ONNX Runtime، تدعم هذه النماذج الاستدلال المحلي، وهي متاحة عبر Foundry Local وحزمة أدوات الذكاء الاصطناعي لـ VS Code، مما يسهل على مطوّري Windows العمل باستخدام النماذج المفتوحة وبناؤها داخل تطبيقاتهم.
بالنسبة للمطورين الراغبين في نماذج قابلة للتخصيص بالكامل يمكنهم ضبطها وتشغيلها في بيئاتهم الخاصة، يُعد gpt-oss خيارًا مثاليًا. أمّا لمن يبحثون عن دعم متعدد الوسائط، وأدوات مدمجة، وتكامل سلس مع منصتنا، فإن النماذج المتوفرة عبر منصة الـ API تظل الخيار الأفضل. ونواصل الإنصات عن كثب إلى ملاحظات المطورين، وقد ننظر في إتاحة دعم API لنماذج gpt-oss مستقبلًا.
إذا كنت ترغب في تجربة النماذج، فيمكنك التوجه إلى بيئة النماذج المفتوحة التفاعلية(يفتح في نافذة جديدة). وللتعرّف على كيفية استخدام النماذج عبر مزوّدي النظام البيئي المختلفين أو كيفية ضبطها الدقيق، يمكنك الاطلاع على أدلّتنا الإرشادية(يفتح في نافذة جديدة).
يمثل إصدار gpt-oss-120b وgpt-oss-20b خطوة متقدّمة وبارزة في مسار النماذج مفتوحة الأوزان. فبهذا الحجم، تقدّم هذه النماذج تطوّرًا ملموسًا في قدرات الاستدلال إلى جانب تحسينات جوهرية في السلامة. وتُعد النماذج المفتوحة مكمّلة للنماذج المُستضافة لدينا، إذ تمنح المطورين مجموعة أوسع من الأدوات لتسريع البحث المتقدّم، وتعزيز الابتكار، وتمكين تطوير ذكاء اصطناعي أكثر أمانًا وشفافية عبر مجموعة واسعة من حالات الاستخدام.
تسهم هذه النماذج المفتوحة أيضًا في خفض الحواجز أمام الأسواق الناشئة والقطاعات ذات الموارد المحدودة والمنظمات الصغيرة التي قد تفتقر إلى الميزانية أو المرونة اللازمة لاعتماد النماذج الخاصة. ومع توافر أدوات قوية وسهلة الوصول بين أيديهم، يصبح بإمكان الناس حول العالم البناء والابتكار وخلق فرص جديدة لأنفسهم ولغيرهم. كما أن الإتاحة الواسعة لهذه النماذج مفتوحة الأوزان والمتقدّمة، التي طُوّرت في الولايات المتحدة، تساعد في توسيع مسارات الذكاء الاصطناعي الديمقراطي وتمكين وصول أكثر عدلًا إلى التقنيات المتقدمة.
يمثّل وجود منظومة صحية للنماذج المفتوحة أحد المسارات المهمة لجعل الذكاء الاصطناعي متاحًا ومفيدًا للجميع. وندعو المطورين والباحثين إلى استخدام هذه النماذج للتجربة والتعاون وفتح آفاق جديدة لما يمكن تحقيقه في هذا المجال. نتطلع لرؤية ما ستقومون بتطويره.
المؤلف
الاستشهادات
[1] نموذج GPT-2: مدونة، ورقة بحثية(يفتح في نافذة جديدة)
[2] مزيج الخبراء (MOE)(يفتح في نافذة جديدة)
[3] نموذج GPT-3: مدونة، ورقة بحثية(يفتح في نافذة جديدة)
المساهمون
Zoran Martinovic وZhuohan Li وZhiqing Sun وZach Johnson وYu Yang وYu Bai وYang Song وXin Wang وWenting Zhan وVolodymyr Kyrylov وVlad Fomenko وTyler Bertao وTong Mu وTimur Garipov وTarun Gogineni وSuvansh Sanjeev وSteve Mostovoy وSong Mei وShengjia Zhao وSebastien Bubeck وScott McKinney وScott Lessans وSandhini Agarwal وSam Toizer وSam Altman وSaachi Jain وRomain Huet وRahul K. Arora وPhilippe Tillet وOlivia Watkins وNivedita Brett وNikhil Vyas وMiles Wang وMichihiro Yasunaga وMichelle Pokrass وMia Glaese وMax Schwarzer وMark Chen وMario Lezcano-Casado وMarat Dukhan وLukas Gross وLudovic Peran وLudovic Peran وLindsay McCallum وLin Yang وLily (Xiaoxuan) Liu وLeher Pathak وLama Ahmad وKristian Georgiev وKristen Ying وKimmy Richardson وKevin Whinnery وKevin Weil وKevin Lu وKevin Fives وKendal Simon وKatia Gil Guzman وKaran Singhal وKaran Singhal وKai Chen وJosh McGrath وJordan Liss وJongsoo Park وJohn Hallman وJohannes Heidecke وJiancheng Liu وJi Lin وJason Kwon وJason Ai وJames Park Lennon وJakub Pachocki وJacob Huh وJackie Hehir وIrina Kofman وHuida Qiu وHongyu Ren وHarshit Sikchi وHannah Wong وHaitang Hu وHaitang Hu وHaiming Bao وHadi Salman وGuillaume Leclerc وGreg Brockman وGideon Myles وGiambattista Parascandolo وGaby Raila وFoivos Tsimpourlas وFilippo Raso وEugene Brevdo وEric Wallace وEnoch Cheung وElizabeth Proehl وElaine Ya Le وEdwin Arbus وEddie Zhang وDominik Kundel وDmitry Pimenov وDavid Robinson وDane Stuckey وDana Palmie وDan Cook وCyril Zhang وChris Lu وChris Koch وChe Chang وCedric Whitney وCasey Dvorak وCarolina Paz وBrian Zhang وBowen Baker وBob Rotsted وBoaz Barak وAshley Pantuliano وAndy Applebaum وAmy Wendling وAlly Bennett وAlexander Neitz وAlex Paino وAlex Nichol وAlec Helyar وAidan McLaughlin وAidan Clark وAdam Goucher


