لقد أنشأنا GPT‑4، وهو أحدث إنجاز في جهود OpenAI لتوسيع نطاق التعلم العميق. يُعَدّ GPT‑4 نموذجًا متعدد الوسائط واسع النطاق (يقبل المُدخلات النصّية والصورية ويُنتِج مخرجات نصّية)، وعلى الرغم من أنّه أقلّ كفاءة من البشر في العديد من المواقف الواقعية، فإنه يُظهِر أداءً بمستوى بشري في مختلف المعايير المهنية والأكاديمية. على سبيل المثال، يجتاز GPT‑4 امتحان المحاماة التجريبي بدرجة تقارب أفضل 10% من المتقدمين للاختبار؛ وعلى النقيض، أداء GPT‑3.5 كان أقل بكثير. وكانت الدرجة تقريبًا ضمن أدنى 10% من المتقدمين. لقد أمضينا 6 أشهر في محاذاة GPT‑4 بشكل متكرر باستخدام الدروس المستفادة من برنامج الاختبار التنافسي الخاص بنا بالإضافة إلى ChatGPT، وذلك أدى إلى أفضل نتائجنا على الإطلاق (على الرغم من أنها بعيدة عن الكمال) فيما يتعلق بالدقة والقدرة على التوجيه ورفض الخروج عن الحدود.
خلال العامين الماضيين، أعدنا بناء كامل بنية التعلم العميق الخاصة بنا، وبالتعاون مع Azure، صممنا حاسوبًا فائقًا من الأساس ليتناسب مع أحمال التشغيل الخاصة بنا. قبل عام، دربنا GPT‑3.5 كأول "اختبار تجريبي" للنظام. لقد وجدنا بعض الأخطاء وأصلحناها وحسّنّا أسسنا النظرية. ونتيجة لذلك، كانت عملية تدريب GPT‑4 مستقرة بشكل غير مسبوق (بالنسبة إلينا على الأقل!)، ما جعله أول نموذج كبير يمكننا التنبؤ بأدائه التدريبي بدقة مسبقًا. بينما نتابع التركيز على التوسع الموثوق، نهدف إلى تحسين منهجيتنا لمساعدتنا على التنبؤ بالقدرات المستقبلية والاستعداد لها بشكل متزايد قبل وقت طويل—وهو أمر نراه مهمًا للغاية من أجل السلامة.
نحن بصدد إطلاق إمكانية إدخال النص لـ GPT‑4 عبر ChatGPT وواجهة برمجة التطبيقات (مع قائمة انتظار). لإعداد إمكانية إدخال الصور لتكون متاحة على نطاق أوسع، نتعاون بشكل وثيق مع شريك واحد(يفتح في نافذة جديدة) للبدء. نتيح أيضًا OpenAI Evals(يفتح في نافذة جديدة) كمصدر مفتوح، وهو إطار عملنا للتقييم المؤتمت لأداء نماذج الذكاء الاصطناعي، للسماح لأي شخص بالإبلاغ عن أوجه القصور في نماذجنا للمساعدة على توجيه المزيد من التحسينات.
في محادثة عادية، قد يكون من الصعب التمييز بين GPT‑3.5 وGPT‑4. يتضح الفرق عندما تصل تعقيدات المهمة إلى حد معين—حيث يكون GPT‑4 أكثر موثوقية، وإبداعًا، وقادرًا على التعامل مع تعليمات أكثر دقة وتفصيلاً مقارنةً بـ GPT‑3.5.
لفهم الفرق بين النموذجين، قمنا باختبارهما على مجموعة متنوعة من المعايير، بما في ذلك محاكاة الامتحانات التي صُممت في الأصل للبشر. لقد تم الإجراء من خلال استخدام أحدث الاختبارات المتاحة للعامة (في حالة الأولمبيادات وأسئلة AP المفتوحة)، أو عن طريق شراء نسخ 2022–2023 من امتحانات الممارسة. ولم نقم بأي تدريب محدد لهذه الاختبارات. شوهدت أقلية من المشكلات في الاختبارات من قبل النموذج في أثناء التدريب، لكننا نعتقد أن النتائج تمثل الواقع —يُرجى مراجعة تقريرنا الفني(يفتح في نافذة جديدة) للحصول على التفاصيل.
مرجع داخلي 1
لقد قمنا أيضًا بتقييم GPT‑4 على معايير تقليدية مُصممة خصوصًا لنماذج التعلم الآلي. يتفوق GPT‑4 بشكل كبير على نماذج اللغة الكبيرة الحالية، إلى جانب معظم النماذج المتقدمة (SOTA) التي قد تشمل تصميمًا خاصًا للمعايير أو بروتوكولات تدريب إضافية:
تُكتب العديد من معايير التعلم الآلي الحالية باللغة الإنجليزية. للحصول على فكرة أولية عن القدرات في لغات أخرى، قمنا بترجمة معيار MMLU—وهو مجموعة من 14000 مسألة اختيار من متعدد تغطي 57 موضوعًا—إلى مجموعة متنوعة من اللغات باستخدام Azure Translate (انظر الملحق). في 24 من أصل 26 لغة تم اختبارها، يتفوق GPT‑4 على أداء GPT‑3.5 باللغة الإنجليزية وكذلك على النماذج اللغوية الكبيرة الأخرى (مثل Chinchilla وPaLM)، بما في ذلك اللغات قليلة الموارد مثل اللاتفية والويلزية والسواحلية.
لقد كنا نستخدم GPT‑4 داخليًا أيضًا، مع تأثير كبير في وظائف مثل الدعم والمبيعات ومراقبة المحتوى والبرمجة. كما أننا نستخدمه أيضًا لمساعدة البشر على تقييم نتائج الذكاء الاصطناعي، لبدء المرحلة الثانية من إستراتيجيتنا للتوافق.
يمكن لـ GPT‑4 قبول طلب يتضمن نصوصًا وصورًا، ما يتيح للمستخدم، —بالتوازي مع إعداد النص فقط—، تحديد أي مهمة بصرية أو لغوية. على وجه التحديد، يُنشئ نصوصًا (لغة طبيعية أو رموزًا برمجية أو غيرها) بناءً على مدخلات تتكون من نصوص وصور متداخلة. عبر مجموعة من المجالات—بما في ذلك المستندات التي تحتوي على نصوص وصور فوتوغرافية أو رسوم بيانية أو لقطات شاشة—يُظهر نموذج GPT‑4 قدرات مماثلة لتلك التي يظهرها عند التعامل مع الإدخالات النصية فقط. إضافة إلى ذلك، يمكن تعزيزه بتقنيات وقت الاختبار التي تم تطويرها للنماذج اللغوية النصية فقط، بما في ذلك التحفيز باستخدام القليل من الأمثلة وتسلسل التفكير(يفتح في نافذة جديدة). ولا تزال إدخالات الصور في مرحلة المعاينة البحثية وليست متاحة للجمهور.
نقوم بمعاينة أداء GPT‑4 من خلال تقييمه على مجموعة محدودة من المعايير القياسية للرؤية الأكاديمية. ومع ذلك، لا تمثل هذه الأرقام مدى قدراته بالكامل، حيث إننا نكتشف باستمرار مهام جديدة ومثيرة يستطيع النموذج معالجتها. نخطط لإصدار تحليلات إضافية وأرقام تقييمية، بالإضافة إلى دراسة شاملة لتأثير تقنيات وقت الاختبار في القريب العاجل.
الهوامش الداخليةA
لقد كنا نعمل على كل جانب من جوانب الخطة الموضحة في منشورنا حول تحديد سلوك الذكاء الاصطناعي، بما في ذلك قابلية التوجيه. بدلاً من شخصية ChatGPT الكلاسيكية ذات الإسهاب والنبرة والأسلوب الثابت، يمكن للمطورين (وقريبًا مستخدمي ChatGPT) الآن تحديد أسلوب الذكاء الاصطناعي ومهامه من خلال وصف تلك التوجيهات في رسالة "النظام". تسمح رسائل النظام لمستخدمي واجهة برمجة التطبيقات (API) بتخصيص تجربة المستخدمين بشكل كبير ضمن حدود معينة(يفتح في نافذة جديدة). سنواصل إجراء التحسينات هنا (ونعلم بشكل خاص أن رسائل النظام هي أسهل طريقة لـ "عملية الاختراق" في النموذج الحالي، أي أن الالتزام بالحدود ليس مثاليًا)، لكننا نشجعكم على تجربته وإخبارنا برأيكم.
على الرغم من قدراته، يمتلك GPT‑4 قيودًا مشابهة لتلك الموجودة في نماذج GPT السابقة. والأهم من ذلك، أنها لا تزال غير موثوقة تمامًا (فهي "تهلوس" الحقائق وترتكب أخطاءً في الاستدلال). يجب توخي أقصى درجات الحذر عند استخدام نتائج نماذج اللغة، خاصة في السياقات الحساسة، مع اعتماد البروتوكول المناسب (مثل المراجعة البشرية، أو تدعيم الإجابات بسياق إضافي، أو تجنب الاستخدامات عالية المخاطر تمامًا) بما يتوافق مع احتياجات حالة الاستخدام المحددة.
بينما لا يزال يمثل مشكلة حقيقية، يقلل GPT‑4 بشكل كبير من الهلوسة مقارنة بالنماذج السابقة (التي كانت تتحسن مع كل تكرار). حقق GPT‑4 نتيجة أعلى بنسبة 40% مقارنةً بـ GPT‑3.5 الأحدث لدينا في تقييمات الحقائق التنافسية الداخلية.
لقد أحرزنا تقدمًا في المقاييس الخارجية مثل TruthfulQA، التي تختبر قدرة النموذج على تمييز الحقائق عن مجموعة من البيانات الخطأ المختارة بشكل مُعادٍ. وتُقرن هذه الأسئلة بإجابات غير صحيحة من الناحية الواقعية لكنها جذابة من الناحية الإحصائية.
النموذج الأساسي GPT‑4 أفضل قليلاً فقط في هذه المهمة من GPT‑3.5؛ ومع ذلك، بعد التدريب للتعلم المعزز من خلال ملاحظات البشر(RLHF) (بتطبيق العملية نفسها التي استخدمناها مع GPT‑3.5) ثمة فجوة كبيرة. من خلال فحص بعض الأمثلة أدناه، يظهر أن GPT‑4 يتجنب اختيار الأمثال الشائعة (مثل لا يمكنك تعليم كلب عجوز حيلاً جديدة")، ومع ذلك قد يغفل بعض التفاصيل الدقيقة (مثل إلفيس بريسلي لم يكن ابن ممثل).
يمكن أن يكون للنموذج تحيزات مختلفة في نتائجه—لقد أحرزنا تقدمًا في معالجة هذه التحيزات، لكن لا يزال هناك المزيد من العمل الذي يجب القيام به. وفقًا لمنشورنا الأخير على المدونة، نهدف إلى جعل أنظمة الذكاء الاصطناعي التي نبنيها تتمتع بسلوكيات افتراضية معقولة تعكس مجموعة واسعة من قيم المستخدمين، والسماح بتخصيص تلك الأنظمة ضمن حدود واسعة، والحصول على إدخال عام حول ما يجب أن تكون عليه تلك الحدود.
بشكل عام، يفتقر GPT‑4 إلى المعرفة بالأحداث التي وقعت بعد تاريخ قطع البيانات الرئيسي له (سبتمبر 2021)، كما أنه لا يتعلم من تجاربه. أحيانًا قد يرتكب أخطاء بسيطة في الاستدلال لا تتوافق مع كفاءته في العديد من المجالات، أو يكون سهل التصديق بشكل مفرط عند قبول بيانات خطأ واضحة من المستخدم. وأحيانًا قد يفشل في حل المشكلات الصعبة تمامًا كما يفعل البشر، مثل إدخال ثغرات أمنية في الكود الذي ينتجه.
يمكن أن يكون GPT‑4 مخطئًا بالفعل في توقعاته، من دون أن يتحقق بعناية من عمله عندما يكون من المحتمل أن يرتكب خطأ. ومن المثير للاهتمام أن النموذج الأساسي المدرب مسبقًا يتمتع بدرجة عالية من الدقة في التقدير، (حيث إن ثقته المتوقعة في الإجابة عادةً ما تتوافق مع احتمال صحتها). ومع ذلك، من خلال عملية ما بعد التدريب الحالية، يتم تقليل المعايرة.
لقد كنا نعمل على تطوير GPT‑4 لجعله أكثر أمانًا وتوافقًا منذ بداية التدريب، من خلال جهود تشمل اختيار بيانات التدريب المسبق وتصنيفها، وإجراء التقييمات والتشاور مع الخبراء، وتحسين سلامة النموذج، بالإضافة إلى المراقبة والتطبيق.
يُشكل GPT‑4 مخاطر مماثلة لتلك التي تشكلها النماذج السابقة، مثل تقديم نصائح ضارة أو كود برمجي به أخطاء أو معلومات غير دقيقة. ومع ذلك، فإن القدرات الإضافية لـ GPT‑4 تؤدي إلى ظهور مجالات مخاطر جديدة. لفهم مدى هذه المخاطر، قمنا بالاستعانة بأكثر من 50 خبيرًا من مجالات مثل مخاطر توافق الذكاء الاصطناعي والأمن الإلكتروني والمخاطر البيولوجية والثقة والسلامة والأمن الدولي لاختبار النموذج بطريقة معاكسة. وقد مكّنتنا نتائجهم بشكل خاص من اختبار سلوك النموذج في مجالات عالية المخاطر التي تتطلب خبرة لتقييمها. تم استخدام الملاحظات والبيانات من هؤلاء الخبراء في تطوير التدابير الوقائية وتحسين النموذج؛ على سبيل المثال، جمعنا بيانات إضافية لتعزيز قدرة GPT‑4 على رفض الطلبات المتعلقة بكيفية تصنيع المواد الكيميائية الخطرة.
يتضمن GPT‑4 إشارة مكافأة أمان إضافية في أثناء تدريب التعلم المعزز من خلال ملاحظات البشر(RLHF) لتقليل النتائج الضارة (كما هو محدد في إرشادات الاستخدام(يفتح في نافذة جديدة) الخاصة بنا) من خلال تدريب النموذج على رفض الطلبات لمثل هذا المحتوى. تُقدَّم المكافأة من خلال مصنف GPT‑4 من دون تدريب مسبق الذي يقيّم حدود السلامة وأسلوب الإجابة على الطلبات المتعلقة بالسلامة. لمنع النموذج من رفض الطلبات الصالحة، نجمع مجموعة بيانات متنوعة مستمدة من مصادر مختلفة (مثل بيانات الإنتاج المصنفة، وفرق اختبار تحدي المخاطر البشرية، والمطالبات المولدة من النموذج) ونطبق إشارة المكافأة الآمنة (بقيمة إيجابية أو سلبية) على كل من الفئات المسموح بها وغير المسموح بها.
لقد حسّنت إجراءات التخفيف لدينا بشكل كبير العديد من خصائص السلامة لـ GPT‑4 مقارنةً بـ GPT‑3.5. لقد قللنا ميل النموذج إلى الاستجابة لطلبات المحتوى غير المسموح به بنسبة 82% مقارنةً بنموذج GPT‑3.5، ويستجيب نموذج GPT‑4 للطلبات الحساسة (مثل المشورة الطبية وإيذاء النفس) وفقًا لسياساتنا بنسبة 29% أكثر من السابق.
بشكل عام، تزيد تدخلاتنا على مستوى النموذج من صعوبة استنباط السلوك السيئ، لكن لا يزال ذلك ممكنًا. بالإضافة إلى ذلك، لا تزال هناك "عمليات اختراق" لإنشاء محتوى يخالف إرشادات الاستخدام الخاصة بنا. مع زيادة "المخاطر لكل رمز" في أنظمة الذكاء الاصطناعي، سيصبح من الضروري تحقيق مستويات عالية جدًا من الموثوقية في هذه التدخلات؛ وفي الوقت الحالي، من المهم تكملة هذه القيود بتقنيات السلامة في أثناء النشر مثل المراقبة لمنع إساءة الاستخدام.
يمتلك GPT‑4 والنماذج اللاحقة القدرة على التأثير بشكل كبير في المجتمع سواء بطرق مفيدة أو ضارة. تعاون مع باحثين خارجيين لتحسين فهمنا وتقييمنا للتأثيرات المحتملة، إلى جانب إنشاء تقييمات القدرات الخطرة التي قد تظهر في الأنظمة المستقبلية. وسنشارك قريبًا المزيد من أفكارنا حول التأثيرات الاجتماعية والاقتصادية المحتملة لـ GPT‑4 وأنظمة الذكاء الاصطناعي الأخرى.
مثل نماذج GPT السابقة، تم تدريب النموذج الأساسي لـ GPT‑4 على التنبؤ بالكلمة التالية في المستند، وتم تدريبه باستخدام بيانات متاحة للجمهور (مثل بيانات الإنترنت) بالإضافة إلى البيانات التي حصلنا على ترخيص لاستخدامها. تُعد البيانات مجموعة ضخمة على مستوى الويب تشمل حلولاً صحيحة وغير صحيحة لمسائل رياضية، واستدلالاً ضعيفًا وقويًا، وبيانات متناقضة ومتسقة، وتمثل تنوعًا واسعًا من الأيديولوجيات والأفكار.
لذا عند طلب سؤال، يمكن للنموذج الأساسي أن يستجيب بطرق متنوعة قد تكون بعيدة كل البعد عن نية المستخدم. لمواءمته مع نية المستخدم ضمن حواجز الحماية، نضبط سلوك النموذج باستخدام أسلوب التعلّم المعزَّز من خلال ملاحظات البشر(RLHF).
جدير بالذكر أن قدرات النموذج يبدو أنها تأتي أساسًا من عملية التدريب المسبق، حيث إن التعلم المعزز من خلال ملاحظات البشر(RLHF) لا يحسن أداءه في الاختبارات، (من دون جهد نشط قد يؤدي فعليًا إلى تدهوره). لكن توجيه النموذج يأتي من عملية ما بعد التدريب—فالنموذج الأساسي يتطلب إنشاء الأوامر حتى يعرف أنه يجب أن يجيب عن الأسئلة.
يتمثل أحد الأهداف الرئيسية لمشروع GPT‑4 في بناء مجموعة من برامج التعلم العميق التي يمكن توسيع نطاقها بشكل متوقع. ويكمن السبب الرئيسي في أنه بالنسبة إلى عمليات التدريب الضخمة مثل GPT‑4، من غير الممكن إجراء ضبط مكثف خاص بالنموذج. لقد طورنا بنية تحتية وتحسينات تتميز بسلوك يمكن التنبؤ به عبر نطاقات متعددة. للتحقق من قابلية التوسع هذه، تنبأنا بدقة مسبقًا بالخسارة النهائية لـ GPT‑4 على قاعدة البيانات الداخلية الخاصة بنا (والتي لم تكن جزءًا من مجموعة التدريب)، من خلال الاستقراء باستخدام نماذج تم تدريبها بالمنهجية نفسها لكن باستخدام حوسبة أقل 10000 مرة:
الآن بعد أن أصبح بإمكاننا التنبؤ بدقة بالمقياس الذي نعمل على تحسينه في أثناء التدريب (الخسارة)، بدأنا بتطوير منهجيات للتنبؤ بمقاييس أكثر قابلية للفهم والتفسير. على سبيل المثال، نجحنا في التنبؤ بمعدل النجاح في مجموعة فرعية من مجموعة بيانات HumanEval(يفتح في نافذة جديدة)، من خلال الاستقراء من نماذج تستخدم حوسبة أقل بمقدار 1,000 مرة:
لا تزال بعض القدرات من الصعب التنبؤ بها. على سبيل المثال، كانت جائزة Inverse Scaling مسابقة لإيجاد مقياس يزداد سوءًا مع زيادة قدرة النموذج الحسابية، وكان إهمال الاسترجاع(يفتح في نافذة جديدة) أحد الفائزين. تمامًا كما هو الحال مع نتيجة(يفتح في نافذة جديدة) حديثة أخرى، يعكس GPT‑4 الاتجاه:
نعتقد أن التنبؤ الدقيق بقدرات التعلم الآلي المستقبلية هو جزء مهم من السلامة، لكنه لا يحظى بالاهتمام الكافي مقارنةً بتأثيره المحتمل (مع أننا نشعر بالتفاؤل تجاه الجهود المبذولة في عدة مؤسسات). ونعمل على توسيع جهودنا لتطوير أساليب توفر للمجتمع توجيهًا أفضل حول ما يمكن توقعه من الأنظمة المستقبلية، ونأمل أن يصبح هذا هدفًا مشتركًا في هذا المجال.
نطلق OpenAI Evals(يفتح في نافذة جديدة) كمصدر مفتوح، وهو إطار عمل برمجي خاص بنا لإنشاء معايير قياس وتشغيلها لتقييم نماذج مثل GPT‑4، مع فحص أدائها عينة تلو الأخرى. نستخدم Evals لتوجيه تطوير نماذجنا، سواء لتحديد نقاط الضعف أو لمنع التراجع في الأداء، ويمكن لمستخدمينا استخدامه لتتبع الأداء عبر إصدارات النماذج المختلفة (التي ستُصدر بانتظام الآن) وتطوير تكاملات المنتجات بشكل مستمر. على سبيل المثال، استخدمت Stripe برنامج Evals لتكملة تقييماتها البشرية لقياس دقة أداة التوثيق المدعومة بنموذج GPT.
نظرًا إلى أن الكود مفتوح المصدر بالكامل، فإن Evals يوفر دعمًا لكتابة فئات جديدة لتنفيذ منطق التقييم المخصص(يفتح في نافذة جديدة). لكن في تجربتنا الخاصة، تتبع العديد من المعايير أحد "القوالب" القليلة، لذا قمنا أيضًا بتضمين القوالب(يفتح في نافذة جديدة) التي كانت الأكثر فائدة داخليًا (بما في ذلك قالب لـ "التقييمات المصنفة حسب النموذج" - لقد وجدنا أن GPT‑4 قادر بشكل مدهش على التحقق من عمله الخاص). بشكل عام، تُعد الطريقة الأكثر فعالية لبناء تقييم جديد(يفتح في نافذة جديدة) هي تهيئة أحد هذه قوالب مع توفير البيانات. نحن متحمسون لرؤية ما يمكن للآخرين بناؤه باستخدام هذه القوالب واستخدام Evals بشكل عام.
نأمل أن يصبح Evals وسيلة لمشاركة المقاييس وجمعها من المجتمع، بحيث يمثل أكبر مجموعة ممكنة من حالات الفشل والمهام الصعبة. كمثال يُحتذى به، أنشأنا تقييم ألغاز منطقية(يفتح في نافذة جديدة) يحتوي على عشرة طلبات يفشل فيها GPT‑4. تتوافق Evals أيضًا مع تنفيذ المعايير الحالية؛ لقد قمنا بتضمين عدة دفاتر ملاحظات(يفتح في نافذة جديدة) تنفذ المعايير الأكاديمية وبعض الاختلافات في دمج (مجموعات فرعية صغيرة من) CoQA(يفتح في نافذة جديدة) كمثال.
ندعو الجميع إلى استخدام Evals لاختبار نماذجنا وإرسال الأمثلة الأكثر إثارة للاهتمام. نحن نؤمن بأن Evals ستكون جزءًا لا يتجزأ من عملية استخدام نماذجنا والبناء عليها، ونرحب بالإسهامات المباشرة والأسئلة والملاحظات(يفتح في نافذة جديدة).
سيحصل مشتركو ChatGPT Plus على إمكانية الوصول إلى GPT‑4 على chatgpt.com(يفتح في نافذة جديدة) مع حدود الاستخدام. وسنُعدل حدود الاستخدام الفعلي بناءً على الطلب وأداء النظام عمليًا، لكن نتوقع أن تكون القدرة محدودة بشكل كبير (مع ذلك، سنعمل على زيادة السعة وتحسين الأداء خلال الأشهر القادمة).
اعتمادًا على معدل الاستخدام الذي نلاحظه، قد نقدم مستوى اشتراك جديدًا لاستخدام GPT‑4 بكميات أكبر؛ كما نأمل في مرحلة ما أن نوفر بعض الاستعلامات المجانية لـ GPT‑4 حتى يتمكن الذين ليس لديهم اشتراك من تجربتها أيضًا.
للحصول على إمكانية الوصول إلى واجهة برمجة التطبيقات GPT‑4 (التي تستخدم واجهة برمجة تطبيقات ChatCompletions(يفتح في نافذة جديدة) نفسها مثل gpt-3.5-turbo)، يُرجى التسجيل في قائمة الانتظار الخاصة بنا. سنبدأ اليوم بدعوة عدد من المطورين، وسنزيد النطاق تدريجيًا لتحقيق توازن بين القدرة الاستيعابية والطلب. إذا كنت باحثًا يدرس التأثير المجتمعي للذكاء الاصطناعي أو قضايا مواءمة الذكاء الاصطناعي، فيمكنك أيضًا التقدم بطلب للحصول على وصول مدعوم من خلال برنامج وصول الباحثين.
بمجرد حصولك على حق الوصول، يمكنك إرسال طلبات نصية فقط إلى نموذج gpt-4 (لا يزال إدخال الصور في مرحلة الألفا المحدودة)، وسنحدث النموذج تلقائيًا إلى الإصدار المستقر الذي نوصي به كلما أصدرنا نسخًا جديدة بمرور الوقت (يمكنك تثبيت الإصدار الحالي باستخدام gpt-4-0314، والذي سنستمر في دعمه حتى 14 يونيو). الأسعار هي 0,03 دولار أمريكي لكل 1000 رمز في المُدخلات و0,06 دولار أمريكي لكل 1000 رمز في المخرجات. الحدود الافتراضية لمعدل الاستخدام هي 40 ألف رمز في الدقيقة و200 طلب في الدقيقة.
يمتلك نموذج GPT‑4 طول سياق يصل إلى 8,192 رمزًا. كما نوفر وصولاً محدودًا إلى نسختنا التي تضم 32768 سياقًا (حوالي 50 صفحة من النص)، وهي gpt-4-32k، والتي سيتم تحديثها تلقائيًا بمرور الوقت (الإصدار الحالي هو gpt-4-32k-0314، ويُدعم حتى 14 يونيو). الأسعار هي 0,06 دولار أمريكي لكل 1000 رمز في المُدخلات و0,12 دولار أمريكي لكل 1000 رمز في المخرجات. ما زلنا نعمل على تحسين جودة النموذج للسياقات الطويلة، ونسعد بالحصول على ملاحظاتكم حول كيفية أدائه لحالة الاستخدام الخاصة بكم. نعالج الطلبات لمحركات 8K و32K بمعدلات مختلفة بناءً على القدرة الاستيعابية، لذا قد تتمكن من الوصول إليها في أوقات مختلفة.
نتطلع إلى أن يصبح GPT‑4 أداة قيّمة في تحسين حياة الناس من خلال تشغيل العديد من التطبيقات. لا يزال هناك الكثير من العمل الذي يجب علينا القيام به، ونحن نتطلع إلى تحسين هذا النموذج من خلال الجهود الجماعية للمجتمع الذي سيبني عليه، ويستكشفه، ويسهم في تطويره.
مثال على أسئلة MMLU، مُترجمة إلى لغات أخرى. يُرجى ملاحظة أننا نستخدم الرموز المميزة للاختيار المتسق (أ–د):
الهوامش
- A
نقيّم هذا المعيار باستخدام أسلوب Chain-Of-Thought (سلسلة التفكير) مع أربعة أمثلة من مجموعة التدريب ضمن السياق. تم ضبط الطلب المحدد بدقة على مجموعة التحقق.
المراجع
- 1
P. Arredondo (Casetext/Stanford CodeX)، D. Katz (Stanford CodeX)، M. Bommarito (Stanford CodeX)، S. Gao (Casetext). يتوفر مزيد من التحليل في الورقة(يفتح في نافذة جديدة).


