30 نوفمبر 2022

نقدّم لكم ChatGPT

جاري التحميل...

لقد درّبنا نموذجًا يُعرف باسم ChatGPT، صُمّم ليفهمك ويتجاوب معك كما يفعل الإنسان في حوار طبيعي. بفضل أسلوب الحوار الذي يتمتع به، يستطيع ChatGPT متابعة النقاش بسلاسة، والاعتراف بالأخطاء وتصحيحها، ومناقشة الفرضيات الخاطئة في السؤال، ورفض الطلبات غير اللائقة.

ChatGPT هو شقيق لنموذج InstructGPT⁠، الذي تم تدريبه على اتباع التعليمات الواردة في الطلب وتقديم إجابات دقيقة وموسّعة.

يسعدنا إطلاق ChatGPT ودعوة المستخدمين لتجربته ومشاركتنا آرائهم حول نقاط قوّته والجوانب التي تحتاج إلى تحسين. وخلال مرحلة التجربة البحثية هذه، سيكون استخدام ChatGPT مجانًا. جرّبه الآن عبر الموقع chatgpt.com⁠(يفتح في نافذة جديدة).

عينات

User

this code is not working like i expect — how do i fix it?

resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
	defer cancel()
	resultWorkerErr <- b.resultWorker(ctx)
}()

err := b.worker(ctx)
cancel()
if err == nil {
	return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)

ChatGPT

It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Also, is this the entire code or just a part of it?

User

just part of it — the error never surfaces. I think there is something wrong with the channel

ChatGPT

It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that the resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.

To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:

close(resultworkerErr)

This would ensure that the resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?

الأساليب

قمنا بتدريب هذا النموذج باستخدام أسلوب التعلّم المعزَّز من خلال ملاحظات البشر (RLHF)، بالاعتماد على المنهجية نفسها التي استُخدمت في تدريب InstructGPT⁠، مع وجود بعض الاختلافات البسيطة في طريقة جمع البيانات. بدأنا بتدريب نموذج أولي عبر الضبط الدقيق الخاضع للإشراف، حيث قدّم المدرّبون البشريون محادثات لعبوا فيها كلا الدورين — دور المستخدم ودور المساعد الذكي. كما أتحنا للمدرّبين الوصول إلى اقتراحات مكتوبة من النموذج نفسه لمساعدتهم في صياغة ردودهم. بعد ذلك، دمجنا مجموعة بيانات الحوار الجديدة هذه مع مجموعة بيانات InstructGPT بعد تحويلها إلى تنسيق حواري.

ولإنشاء نموذج المكافأة المستخدم في عملية التعلّم المعزّز، كان علينا جمع بيانات مقارنة تتضمّن ردّين أو أكثر من النموذج مرتّبين حسب الجودة. ولجمع هذه البيانات، استخدمنا المحادثات التي أجراها المدرّبون مع روبوت المحادثة، ثم اخترنا عشوائيًا رسالة واحدة كتبها النموذج، واستخلصنا منها عدة ردود بديلة، وطلبنا من المدرّبين ترتيبها وفقًا لجودتها. وباستخدام هذه النماذج الخاصة بالمكافأة، استطعنا إجراء الضبط الدقيق للنموذج باستخدام خوارزمية تحسين السياسات التقريبية⁠ (Proximal Policy Optimization). وقد كرّرنا هذه العملية على مراحل متعددة حتى وصلنا إلى النتيجة النهائية.

رسم بياني يوضح المنهجية المكونة من ثلاث خطوات وراء تدريب ChatGPT.

تم تحسين ChatGPT بالاعتماد على أحد نماذج سلسلة GPT‑3.5 التي أُنجز تدريبها في أوائل عام 2022. ويمكنك الاطلاع على سلسلة 3.5 بالنقر على معرفة المزيد⁠(يفتح في نافذة جديدة). وقد تم تدريب كلٍّ من ChatGPT وGPT‑3.5 على بنية حوسبية فائقة من تطوير Azure AI.

القيود

في بعض الأحيان، يُنتج ChatGPT إجابات تبدو منطقية للوهلة الأولى لكنها في الواقع غير صحيحة أو غير مترابطة. ويُعدّ إصلاح هذه المشكلة تحديًا معقدًا للأسباب التالية: (1) أثناء التدريب بالتعلّم المعزَّز (RL)، لا يوجد مصدر "حقيقي مطلق" يمكن الاعتماد عليه للتحقق من صحة الإجابات؛ (2) تدريب النموذج ليكون أكثر حذرًا قد يجعله يرفض الإجابة عن أسئلة يعرف الإجابة الصحيحة لها بالفعل؛ (3) أما في التدريب الخاضع للإشراف، فقد ينخدع النموذج أحيانًا لأن الإجابة المثالية تعتمد على ما يعرفه هو⁠(يفتح في نافذة جديدة)، لا على ما يعرفه المدرب البشري.
يُظهر ChatGPT حساسية عالية تجاه تغييرات بسيطة في صياغة السؤال أو عند تكرار الطلب نفسه عدة مرات. فعلى سبيل المثال، قد يزعم النموذج في صيغة معينة أنه لا يعرف الإجابة، بينما يتمكّن من الإجابة الصحيحة عند إعادة صياغة السؤال بشكل بسيط.
غالبًا ما يكون النموذج مسهبًا بشكل مفرط ويبالغ في استخدام بعض العبارات، مثل إعادة ذكر أنه نموذج لغوي تم تدريبه بواسطة OpenAI. وتنبع هذه الإشكالات من تحيّزات في البيانات المستخدمة للتدريب (إذ يفضّل المدرّبون الردود الطويلة التي تبدو أعمق)، ومن مشكلات التحسين المفرط الشائعة.^{1 و2}
في الحالة المثالية، من المفترض أن يطرح النموذج أسئلة توضيحية عندما يقدّم المستخدم استفسارًا غامضًا. لكن في نسخته الحالية، غالبًا ما يحاول النموذج تخمين ما قصده المستخدم بدلًا من طلب التوضيح.
رغم الجهود المبذولة لجعل النموذج يرفض الطلبات غير اللائقة، إلا أنه قد يستجيب أحيانًا لتعليمات ضارّة أو يُظهر تحيّزًا غير مقصود. نستخدم واجهة Moderation API⁠ لتنبيه المستخدم أو حظر أنواع معيّنة من المحتوى غير الآمن، لكننا نتوقّع أن تظهر بعض الحالات الإيجابية أو السلبية الخاطئة مؤقتًا. نحن حريصون على جمع ملاحظات المستخدمين لدعم عملنا المستمر في تحسين هذا النظام.

الإطلاق المتكرر

يُعدّ الإصدار البحثي من ChatGPT اليوم أحدث خطوة في نهج OpenAI القائم على الإطلاق التكراري⁠ لأنظمة الذكاء الاصطناعي الآمنة والمفيدة على نحوٍ متزايد. ولقد ساهمت الدروس المستفادة والخبرات المكتسبة من إطلاق النماذج السابقة مثل GPT‑3 وCodex في تطوير إجراءات الأمان المطبَّقة في هذا الإصدار، بما في ذلك تقليص كبير في المخرجات الضارّة أو غير الدقيقة، وذلك بفضل استخدام أسلوب التعلّم المعزَّز من خلال ملاحظات البشر (RLHF).

User

Tell me about when Christopher Columbus came to the US in 2015

ChatGPT

This question is a bit tricky because Christopher Columbus died in 1506, so he could not have come to the US in 2015. But let’s pretend for a moment that he did!

If Columbus arrived in the US in 2015, he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For one, he would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americans, and that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technology, from the skyscrapers in our cities to the smartphones in our pockets. Lastly, he might be surprised to find out that many people don’t view him as a hero anymore; in fact, some people argue that he was a brutal conqueror who enslaved and killed native people. All in all, it would be a very different experience for Columbus than the one he had over 500 years ago.

InstructGPT

Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.

ندرك أن هناك العديد من الجوانب التي ما تزال بحاجة إلى تحسين، كما أشرنا سابقًا، ونسعى إلى إطلاق تحديثات منتظمة على النموذج لتحسين أدائه في تلك الجوانب. ومع ذلك، نأمل أيضًا أن يُسهم توفير واجهة استخدام سهلة الوصول إلى ChatGPT في جمع ملاحظات قيّمة من المستخدمين حول قضايا قد لا نكون على دراية بها بعد.

نشجّع المستخدمين على تقديم ملاحظاتهم بشأن المخرجات الإشكالية للنموذج مباشرةً عبر واجهة الاستخدام، وكذلك حول الحالات الخاطئة (الإيجابية أو السلبية) التي قد تنتج عن مرشّح المحتوى الخارجي المدمج في الواجهة نفسها. ونولي اهتمامًا خاصًا بالملاحظات التي ترصد المخرجات الضارّة في سيناريوهات واقعية غير مقصودة، وبكل ما يساعدنا على استبصار المخاطر المستجدة وفهمها لوضع حلول واستجابات أكثر فاعلية. يمكنك اختيار المشاركة في مسابقة ملاحظات ChatGPT⁠(يفتح في نافذة جديدة)³ للحصول على فرصة للفوز بما يصل إلى 500 دولار من أرصدة واجهة برمجة التطبيقات.^A يمكن للمستخدمين إرسال مشاركاتهم بسهولة عبر نموذج الملاحظات الموجود في واجهة ChatGPT.

نحن متحمسون لنقل الدروس المستفادة من هذا الإصدار إلى مراحل إطلاق أنظمة أكثر تطورًا، تمامًا كما أسهمت الإصدارات السابقة في توجيه تطوير هذا النظام.

الهوامش

A
المشاركة مجانية ولا تتطلّب شراء خطة، وستُلغى في الأماكن المحظورة. يجب أن يكون عمر المشارك 18 عامًا أو أكثر. للحصول على تفاصيل المسابقة، يُرجى مراجعة القواعد الرسمية⁠(يفتح في نافذة جديدة).

المراجع

1
Stiennon, Nisan, et al. “Learning to summarize with human feedback⁠(يفتح في نافذة جديدة).” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
2
Gao, Leo, John Schulman, and Jacob Hilton. “Scaling Laws for Reward Model Overoptimization⁠(يفتح في نافذة جديدة).” arXiv preprint arXiv:2210.10760 (2022).
3
تستند فكرة هذه المسابقة في جانب منها إلى مقالة Kenway، و Josh، و Camille François، و Sasha Costanza-Chock، و Inioluwa Deborah Raji، و Joy Buolamwini Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. January 2022. متوفرة على https://ajl.org/bugs⁠(يفتح في نافذة جديدة). انظر أيضا مقالة Brundage و Miles و Avin و Shahar و Wang و Jasmine و Belfield و Haydn و Gretchen Krueger et al. “Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims,” April 2020. متوفرة على https://arxiv.org/abs/2004.07213⁠(يفتح في نافذة جديدة). شاهد تجربة سابقة لهذا النوع من المسابقات على منصة HackerOne. 2021b. “Twitter Algorithmic Bias.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team⁠(يفتح في نافذة جديدة). أخيرًا، راجع العمل المنشور في وقت مبكر حول هذا الموضوع من Rubinovitz, JB, “Bias Bounty Programs as a Method of Combatting Bias in AI,” August 2018. متاح على https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting⁠(يفتح في نافذة جديدة).

المؤلف

OpenAI

الشكر والتقدير

John Schulman وBarret Zoph وChristina Kim وJacob Hilton وJacob Menick وJiayi Weng وJuan Felipe Ceron Uribe وLiam Fedus وLuke Metz وMichael Pokorny وRapha Gontijo Lopes وShengjia Zhao وArun Vijayvergiya وEric Sigler وAdam Perelman وChelsea Voss وMike Heaton وJoel Parish وDave Cummings وRajeev Nayak وValerie Balcom وDavid Schnurr وTomer Kaftan وChris Hallacy وNicholas Turley وNoah Deutsch وVik Goel وJonathan Ward وAris Konstantinidis وWojciech Zaremba وLong Ouyang وLeonard Bogdonoff وJoshua Gross وDavid Medina وSarah Yoo وTeddy Lee وRyan Lowe وDan Mossing وJoost Huizinga وRoger Jiang وCarroll Wainwright وDiogo Almeida وSteph Lin وMarvin Zhang وKai Xiao وKatarina Slama وSteven Bills وAlex Gray وJan Leike وJakub Pachocki وPhil Tillet وShantanu Jain وGreg Brockman وNick Ryder وAlex Paino وQiming Yuan وClemens Winter وBen Wang وMo Bavarian وIgor Babuschkin وSzymon Sidor وIngmar Kanitscheider وMikhail Pavlov وMatthias Plappert وNik Tezak وHeewoo Jun وWilliam Zhuk وVitchyr Pong وLukasz Kaiser وJerry Tworek وAndrew Carr وLilian Weng وSandhini Agarwal وKarl Cobbe وVineet Kosaraju وAlethea Power وStanislas Polu وJesse Han وRaul Puri وShawn Jain وBenjamin Chess وChristian Gibson وOleg Boiko وEmy Parparita وAmin Tootoonchian وKyle Kosic وChristopher Hesse

المقالات ذات الصلة

عرض الكل

Global news partnerships: Le Monde and Prisa Media

الشركة13 مارس 2024

News > Company carousel > Review completed > Media

Review completed & Altman, Brockman to continue to lead OpenAI

الشركة8 مارس 2024

OpenAI announces new members to board of directors

الشركة8 مارس 2024