پرش به محتوای اصلی
OpenAI

۵ فروردین ۱۴۰۵

تحقیقمقالات

محتوای رویکرد ما به جزئیات مدل

با توانمندتر و پرکاربردتر شدن سیستم‌های هوش مصنوعی، به یک چارچوب عمومی و روشن برای نحوه رفتار آن‌ها نیاز داریم.

در حال بارگذاری…

در OpenAI، ما بر این باوریم که هوش مصنوعی باید منصفانه، ایمن و به‌طور گسترده در دسترس باشد تا افراد بیشتری بتوانند از آن برای حل مسائل دشوار، خلق فرصت‌ها و بهره‌مند شدن در حوزه‌هایی مانند سلامت، علم، آموزش، کار و زندگی روزمره استفاده کنند. ما معتقدیم که دسترسی دموکراتیک به هوش مصنوعی بهترین مسیر رو به جلو است: نه هوش مصنوعی‌ای که منافع یا کنترل آن در دستان عده‌ای معدود متمرکز باشد، بلکه هوش مصنوعی‌ای که افراد بیشتری بتوانند به آن دسترسی داشته باشند، آن را درک کنند و به شکل‌گیری آن کمک کنند.

این یکی از دلایل اصلی وجود جزئیات مدل OpenAI است. جزئیات مدل(در یک پنجره جدید باز می‌شود) چارچوب رسمی ما برای رفتار مدل است. این مشخص می‌کند که ما می‌خواهیم مدل‌ها چگونه از دستورالعمل‌ها پیروی کنند، تعارض‌ها را حل‌وفصل کنند، به آزادی عمل کاربر احترام بگذارند و در طیف فوق‌العاده گسترده‌ای از پرسش‌هایی که کاربران هر روز از آن‌ها می‌پرسند، به‌صورت ایمن رفتار کنند. به طور کلی، این تلاش ما برای صریح و روشن کردن رفتار مورد نظر مدل است: نه فقط در داخل فرآیند آموزش‌مان، بلکه در قالبی که کاربران، توسعه‌دهندگان، پژوهشگران، سیاست‌گذاران و عموم مردم بتوانند واقعاً آن را بخوانند، بررسی کنند و درباره‌اش بحث کنند.

جزئیات مدل به این معنا نیست که مدل‌های ما همین امروز از پیش دقیقاً به این شکل رفتار می‌کنند. از بسیاری جهات، این توصیفی است، اما همچنین هدفی برای مسیری است که می‌خواهیم رفتار مدل به آن سمت حرکت کند. ما از آن استفاده می‌کنیم تا رفتارِ موردنظر را روشن‌تر کنیم، تا بتوانیم مدل را در جهت آن آموزش دهیم، آن را بر اساس آن ارزیابی کنیم و به‌مرور زمان بهبودش دهیم. 

این مطلب پیش‌زمینه‌ای را به اشتراک می‌گذارد که در خودِ جزئیات مدل نیامده است، از جمله فلسفه و سازوکارهای پشت آن: اینکه چگونه ساختاربندی شده است، چرا این انتخاب‌های ساختاری را انجام داده‌ایم و چگونه آن را در گذر زمان می‌نویسیم، پیاده‌سازی می‌کنیم و تکامل می‌دهیم.

چارچوبی عمومی برای رفتار مدل

جزئیات مدل بخشی از رویکرد گسترده‌تر OpenAI به هوش مصنوعی ایمن و پاسخ‌گو است. در حالی که چارچوب آمادگی بر ریسک‌های ناشی از قابلیت‌های پیشرو و تدابیر حفاظتی لازم با افزایش این ریسک‌ها تمرکز دارد، جزئیات مدل به پرسشی متفاوت اما مکمل می‌پردازد: این‌که مدل‌های ما باید در طیف گسترده‌ای از موقعیت‌ها چگونه رفتار کنند. در نگاهی کلان‌تر، تاب‌آوری هوش مصنوعی در پی پرداختن به چالش گسترده‌تر اجتماعیِ کمک به جامعه برای بهره‌مند شدن از مزایای هوش مصنوعی پیشرفته است، در عین کاهش اختلالات و ریسک‌های نوظهوری که هم‌زمان با استقرار سامانه‌هایی با قابلیت‌های روزافزون پدید می‌آیند. در مجموع، هدف این ابتکارها آن است که گذار به AGI را تدریجی، تکرارشونده و از نظر دموکراتیک قابل‌فهم کنند: به مردم و نهادها زمان می‌دهند تا سازگار شوند، و هم‌زمان محافظت‌ها، سازوکارهای پاسخ‌گویی و درک عمومیِ لازم را ایجاد می‌کنند تا هوش مصنوعی قدرتمند در راستای منافع انسانی باقی بماند.

شفافیت عمومی درباره رفتار مدل هم برای انصاف و هم برای ایمنی اهمیت دارد. این موضوع از نظر انصاف اهمیت دارد، زیرا مردم باید درک کنند که هوش مصنوعی چگونه و چرا با آن‌ها به آن شیوه رفتار می‌کند—و بتوانند نگرانی‌های مربوط به انصاف را، هنگامی که پیش می‌آیند، شناسایی کنند، مورد پرسش قرار دهند و برطرف کنند. و این موضوع از نظر ایمنی اهمیت دارد، زیرا با توانمندتر شدن سیستم‌های هوش مصنوعی، مردم و نهادها به انتظارات روشن‌تری نیاز دارند درباره اینکه قرار است این سیستم‌ها چگونه رفتار کنند، چه مصالحه‌هایی را در خود دارند و چگونه می‌توان این انتخاب‌ها را در گذر زمان بهبود داد. آن نوع خوانایی نیز با فراهم کردن چیزی ملموس برای افراد بیشتری تا آن را بررسی کنند، درباره‌اش پرسش کنند و بهبودش دهند، از تاب‌آوری پشتیبانی می‌کند.

از زمان نخستین نسخه در سال ۲۰۲۴، جزئیات مدل با یادگیری بیشتر درباره ترجیحات و نیازهای کاربران، گسترش و انطباق برای پوشش قابلیت‌های بیشتر و یادگیری از بازخورد عمومی درباره رفتارهای مدل و جزئیات مدل، به‌طور قابل‌توجهی تکامل یافته است. در راستای استقرار تدریجی، جزئیات مدل سندی پویا است که هم ارزش‌های زیربنایی و هم قواعد صریح و روشن را در بر می‌گیرد—همراه با فرآیندی برای اصلاح تک‌تک عناصر آن، هم‌زمان با آموختن از استقرار در دنیای واقعی و بازخوردها. ما همچنین در سازوکارهای بازخورد عمومی مانند همسوسازی جمعی سرمایه‌گذاری می‌کنیم تا به حفظ این موضوع کمک کنیم که بشریت همچنان کنترل نحوه استفاده از هوش مصنوعی و چگونگی شکل‌گیری رفتار آن را در دست داشته باشد.

در داخل سازمان، این امر برای ما به‌منزله قطب‌نمایی برای رفتار مورد انتظار و چارچوبی مشترک برای آموزش، ارزیابی و حاکمیت، عمل می‌کند. در بیرون از سازمان، این کار یک مرجع عمومی ایجاد می‌کند که مردم می‌توانند از آن برای درک رویکرد ما، نقد آن و کمک به بهبود آن در طول زمان استفاده کنند.

محتوای جزئیات مدل

جزئیات مدل شامل چندین نوع مختلف از راهنمایی‌های مدل است. این عمدی است. بخش‌های مختلف رفتار مدل باید به شیوه‌های متفاوتی مدیریت شوند و یک سند عمومی مفید باید کاری بیش از صرفاً فهرست کردن قواعد انجام دهد.

نیت‌های سطح بالا و تعهدات عمومی

جزئیات مدل با قصد کلی آغاز می‌شود: توضیحی روشن از اینکه می‌خواهیم در سطح سیستم چه چیزی را بهینه کنیم و چرا.

این مقدمه سه هدف را درباره چگونگی دنبال کردن رسالت‌مان روشن می‌کند:

  • استقرار تدریجی مدل‌هایی که توسعه‌دهندگان و کاربران را توانمند سازند
  • جلوگیری از وارد کردن آسیب جدی به کاربران یا دیگران توسط مدل‌های ما
  • حفظ مجوز فعالیت OpenAI

سپس توضیح می‌دهد که ما در عمل چگونه به ایجاد توازن میان این اهداف می‌اندیشیم و این مصالحه‌ها را به‌اندازه‌ای عینی می‌سازد که از اصول مفصل‌تری که در ادامه می‌آیند پشتیبانی کند.

نکته مهم اینکه، این مقدمه قرار نیست یک دستور مستقیم به مدل باشد. بهره‌مند شدن بشریت هدف OpenAI است، نه هدفی که بخواهیم مدل‌های ما آن را به‌طور خودمختار دنبال کنند. در عوض، ما می‌خواهیم مدل‌ها از یک زنجیره فرمان پیروی کنند که شامل جزئیات مدل و دستورالعمل‌های قابل‌اعمال از سوی OpenAI، توسعه‌دهندگان و کاربران است—حتی وقتی ممکن است برخی افراد در مورد نتیجه در یک مورد خاص اختلاف‌نظر داشته باشند.

ما فکر می‌کنیم این تعادل مناسبی است، زیرا برای خودمختاری انسان و آزادی فکری ارزش قائلیم. اگر مدل‌ها را طوری آموزش می‌دادیم که بر اساس دیدگاه خودمان درباره اینکه چه چیزی برای جامعه خوب است تصمیم بگیرند از کدام دستورالعمل‌ها پیروی کنند، OpenAI در جایگاهی قرار می‌گرفت که درباره اخلاق در سطحی بسیار گسترده داوری کند. با این حال، مقدمه همچنان اهمیت دارد. وقتی در نحوه اعمال جزئیات مدل ابهام وجود داشته باشد، مقدمه باید به رفع آن کمک کند.

جزئیات مدل همچنین شامل تعهدات عمومی‌ای است که فراتر از رفتار مدلِ مستقیماً قابل‌اندازه‌گیری، به قصد آموزشی و محدودیت‌های استقرار نیز می‌پردازند. برای مثال، اصول خط قرمز(در یک پنجره جدید باز می‌شود) ما شامل این تعهد است که در استقرارهای شخص اول مانند ChatGPT، هرگز از پیام‌های سیستمی برای به‌طور عمدی به خطر انداختن عینیت(در یک پنجره جدید باز می‌شود) یا اصول مرتبط استفاده نخواهیم کرد؛ و عدم وجود اهداف دیگر(در یک پنجره جدید باز می‌شود) تعهداتی را دربارهٔ قصد ما برای بهینه‌سازی پاسخ‌های مدل در راستای منفعت کاربر، و نه درآمد یا افزایش زمان حضور غیرمفید در سایت، بیان می‌کند.

سلسله مراتب فرماندهی

در هستهٔ جزئیات مدل، «زنجیرهٔ فرماندهی» قرار دارد: چارچوبی برای تصمیم‌گیری دربارهٔ اینکه کدام دستورالعمل‌ها باید در یک موقعیت مشخص اعمال شوند. همچنین در بر می‌گیرد که مدل چگونه باید با دستورالعمل‌های کم‌مشخص برخورد کند؛ به‌ویژه در محیط‌های عامل‌محور که از آن انتظار می‌رود جزئیات را به‌صورت خودمختار تکمیل کند و هم‌زمان اثرات جانبیِ دنیای واقعی را با دقت کنترل کند.

ایدهٔ اصلیِ تصمیم‌گیری دربارهٔ اینکه کدام دستورالعمل‌ها باید اعمال شوند، ساده است. دستورالعمل‌ها می‌توانند از منابع مختلفی از جمله OpenAI، توسعه‌دهندگان و کاربران ارائه شوند. آن دستورالعمل‌ها می‌توانند با هم در تضاد باشند. «زنجیرهٔ فرماندهی» توضیح می‌دهد که مدل چگونه باید آن تضادها را برطرف کند.  

به هر سیاست جزئیات مدل و هر دستورالعمل یک سطح اختیارات(در یک پنجره جدید باز می‌شود) اختصاص داده می‌شود. به مدل دستور داده شده است که در صورت بروز تعارض، هم متن و هم روحِ دستورالعمل‌های دارای مرجعیت بالاتر را در اولویت قرار دهد. اگر کاربری برای ساختن بمب درخواست کمک کند، مدل باید مرزهای ایمنی(در یک پنجره جدید باز می‌شود) سخت‌گیرانهٔ را در اولویت قرار دهد. اگر کاربری درخواست کند که او را دست بیندازند، مدل باید به‌طور کلی آن درخواست را بر سیاستِ علیه سوءاستفاده(در یک پنجره جدید باز می‌شود) جزئیات مدل که اقتدار پایین‌تری دارد، در اولویت قرار دهد.

این ساختار به ما امکان می‌دهد مجموعه‌ای نسبتاً کوچک از قواعدی که قابل بازنویسی نیستند را در کنار مجموعه‌ای بزرگ‌تر از مقادیر پیش‌فرض تعریف کنیم. به این ترتیب، تلاش می‌کنیم آزادی کاربران و کنترل توسعه‌دهندگان را در چارچوب محدودیت‌های ایمنی به حداکثر برسانیم.

  • قواعد سخت مرزهای صریحی هستند که کاربران یا توسعه‌دهندگان نمی‌توانند آن‌ها را نادیده بگیرند (در اصطلاح جزئیات مدل، این‌ها دستورالعمل‌های سطح «ریشه» یا «سیستم» هستند). آن‌ها عمدتاً بازدارنده هستند و مدل‌ها را ملزم می‌کنند از رفتارهایی که می‌توانند به ریسک‌های فاجعه‌بار یا آسیب جسمی مستقیم منجر شوند، قوانین را نقض کنند، یا زنجیره فرماندهی را تضعیف کنند، اجتناب کنند. ما انتظار داریم که هوش مصنوعی به فناوری‌ای زیربنایی برای جامعه تبدیل شود، مشابه زیرساخت‌های پایه اینترنت؛ بنابراین، تنها زمانی مقرراتی وضع می‌کنیم که ممکن است آزادی فکری را محدود کنند که باور داشته باشیم این مقررات برای طیف گسترده‌ای از توسعه‌دهندگان و کاربرانی که با آن تعامل خواهند داشت، ضروری هستند. در جزئیات مدل ، در چارچوب ماندن(در یک پنجره جدید باز می‌شود) شامل قوانین سخت‌گیرانه‌ای است که خطرات ایمنی مشخص در دنیای واقعی را هدف قرار می‌دهند و اصول زیر ۱۸ سال(در یک پنجره جدید باز می‌شود) نیز تدابیر حفاظتی اضافی را برای کاربران زیر ۱۸ سال اضافه می‌کند.
  • پیش‌فرض‌ها نقاط شروعی هستند که قابل تغییرند: رفتار «بهترین حدس» دستیار، زمانی که کاربر یا توسعه‌دهنده ترجیحی را مشخص نکرده باشد. ما از تنظیمات پیش‌فرض استفاده می‌کنیم تا رفتار در مقیاس، قابل پیش‌بینی و قابل‌کنترل باشد، تا افراد بتوانند بدون نوشتن مجموعه‌ای سفارشی از دستورالعمل‌ها در هر بار، پیش‌بینی کنند چه اتفاقی می‌افتد. تنظیمات پیش‌فرض قابلیت هدایت‌پذیری را حفظ می‌کنند: کاربران و توسعه‌دهندگان می‌توانند به‌صراحت لحن، عمق، قالب، و حتی زاویه دید را در چارچوب مرزهای ایمنی هدایت کنند. مقادیر پیش‌فرض در سطح دستورالعمل (مانند لحن یا سبک) طوری طراحی شده‌اند که به‌طور ضمنی هدایت‌پذیر باشند، در حالی که مقادیر پیش‌فرض در سطح کاربر (مانند حقیقت‌گویی و عینیت) مبنایی برای اعتماد و پیش‌بینی‌پذیری هستند و فقط با دستورالعمل‌های صریح قابل بازنویسی‌اند. آن‌ها نباید بی‌سروصدا و صرفاً بر اساس حس‌وحال تغییر کنند؛ اگر کاربر موضع واقع‌محور متفاوتی می‌خواهد، صریح کردن آن به‌صورت یک دستورالعمل صریح، این تغییر را شفاف و قابل‌فهم نگه می‌دارد. این پیش‌فرض‌ها در با هم در پی حقیقت(در یک پنجره جدید باز می‌شود)، انجام بهترین کار(در یک پنجره جدید باز می‌شود) و استفاده از سبک مناسب(در یک پنجره جدید باز می‌شود) بازتاب یافته‌اند، از جمله هنجارهای مربوط به صداقت و عینیت، پرهیز از تملق، و هنجارهای تعامل مانند صراحت و صمیمیت و حرفه‌ای‌گریِ متناسب با بافت.

ابزارهای تفسیری: معیارهای تصمیم‌گیری و مثال‌های عینی

فراتر از خودِ سلسله‌مراتب، جزئیات مدل از ابزارهای تفسیری برای کمک به مدل‌ها (و انسان‌ها) استفاده می‌کند تا آن را در موارد مبهم به‌طور یکسان اعمال کنند. این کمک‌ها شامل موارد زیر است: 

  • معیارهای تصمیم‌گیری که به مدل کمک می‌کنند در حوزه‌های خاکستری انتخاب‌های سازگار انجام دهد، بدون آنکه وانمود شود یک قاعده مکانیکی واحد وجود دارد. برای مثال، راهنمایی جزئیات مدل درباره کنترل اثرات جانبی(در یک پنجره جدید باز می‌شود) ملاحظاتی مانند به حداقل رساندن اقدامات برگشت‌ناپذیر، متناسب نگه داشتن اقدامات با هدف، کاهش غافلگیری‌های ناخوشایند، و ترجیح دادن رویکردهای برگشت‌پذیر را فهرست می‌کند که باید در برابر اهداف دیگری مانند تکمیل سریع و مؤثر وظیفه متوازن شوند.
  • مثال‌های عینی که نشان می‌دهند یک اصل چگونه باید در عمل اعمال شود. این‌ها نمونه‌های کوتاهی از اعلان و پاسخ هستند که معمولاً هم یک پاسخ مطابق و هم یک پاسخ غیرمطابق را شامل می‌شوند، و اغلب بر یک اعلان سخت در نزدیکی یک مرز تصمیم‌گیری مهم متمرکز هستند. هدف این نیست که یک مکالمهٔ کامل و واقع‌گرایانه شبیه‌سازی شود. هدف این است که تمایز کلیدی را روشن کند و این کار را به‌گونه‌ای انجام دهد که سبک مطلوبِ پاسخ‌گویی را نیز نشان دهد.

ما تعداد نمونه‌ها را نسبتاً کم نگه می‌داریم و بر مفیدترین آن‌ها تمرکز می‌کنیم. مجموعه‌های ارزیابی گسترده‌تر به پوشش موارد دُم بلند بیشتری کمک می‌کنند.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

نمونه‌ای که اصول آزادی فکری و قضاوت‌گر نبودن را از بخش فرض حسن نیت(در یک پنجره جدید باز می‌شود) در جزئیات مدل نشان می‌دهد.

چه چیزی در جزئیات مدل وجود ندارد

جزئیات مدل یک رابط است، نه یک پیاده‌سازی. این، رفتاری را که می‌خواهیم توصیف می‌کند، نه تمام جزئیاتِ چگونگی ایجاد آن رفتار. ما سعی می‌کنیم آن را به جزئیات پیاده‌سازی، مانند قالب‌های داخلی توکن یا فرایند دقیق آموزش برای یک رفتار خاص، گره نزنیم، زیرا این جزئیات ممکن است تغییر کنند، حتی وقتی رفتار مطلوب تغییر نکند. مخاطب اصلی جزئیات مدل نه خود مدل، بلکه انسان‌ها هستند: این سند برای کمک به کارمندان، کاربران، توسعه‌دهندگان، پژوهشگران و سیاست‌گذاران OpenAI در درک، بحث و تصمیم‌گیری درباره رفتار مورد نظر تهیه شده است.

این جزئیات همچنین مدل را توصیف می‌کند، نه کل محصول را. این سند با سیاست‌های استفاده ما تکمیل می‌شود که انتظارات ما را درباره نحوه استفاده افراد از API و ChatGPT مشخص می‌کنند. سیستمی که کاربران با آن تعامل دارند، فراتر از خود مدل را در بر می‌گیرد: ویژگی‌های محصول مانند دستورالعمل‌های سفارشی و حافظه، پایش، اجرای سیاست‌ها و لایه‌های دیگر نیز همگی اهمیت دارند. ایمنی بسیار فراتر از رفتار مدل است، و ما به دفاع در عمق باور داریم. 

و جزئیات، شرح کاملی از کل مجموعه آموزشی ما یا هر تمایز میان سیاست‌های داخلی نیست. هدف این نیست که همهٔ جزئیات ثبت شوند. هدف این است که مهم‌ترین تصمیم‌های رفتاری را به گونه‌ای قابل‌فهم کند که با رفتار مورد نظر مدل ما کاملاً سازگار باشد.

چگونه به این ساختار رسیدیم

چرا چیزهایی را در جزئیات مدل قرار می‌دهیم؟ 

دلایل متعددی برای گنجاندن این میزان از اطلاعات در جزئیات مدل وجود دارد، به‌جای آنکه فرض شود خواننده—یا مدل—می‌تواند همه‌چیز را از چند هدف کلی استنباط کند.

نخست، جزئیات مدل ابزاری برای شفافیت و پاسخ‌گویی است. این برای تشویق بازخورد عمومی معنادار طراحی شده است. یک هدف عمومیِ شفاف به افراد کمک می‌کند تشخیص دهند که آیا یک رفتار خطا است یا یک ویژگی. این به آن‌ها یک نقطهٔ ارجاعی پایدار برای نقد و بازخورد عینی می‌دهد. به همین دلیل ما کد منبع جزئیات مدل را منتشر کردیم(در یک پنجره جدید باز می‌شود) و تصمیم گرفتیم فرآیند توسعه را به‌صورت عمومی ادامه دهیم. از زمان اولین انتشار، تغییرات زیادی بر اساس بازخوردهای عمومی که از طریق سازوکارهای گوناگونی، از جمله فرم‌های بازخورد، نقدهای عمومی، و تلاش‌های آگاهانه برای گردآوری ورودی‌های دموکراتیک جمع‌آوری شده‌اند، اعمال شده است.

دوم، جزئیات مدل یک ابزار هماهنگی در داخل OpenAI است. این زبان مشترک به افراد در حوزه‌های پژوهش، محصول، ایمنی، سیاست‌گذاری، حقوقی، ارتباطات و سایر حوزه‌ها واژگان مشترک برای بحث درباره رفتار مدل و سازوکاری برای پیشنهاد و بررسی تغییرات ارائه می‌دهد.

سوم، سیاست‌های صریح می‌توانند کمبودهای عملی در هوشمندی مدل و زمینه زمان اجرا را جبران کنند و رفتار را قابل‌پیش‌بینی‌تر کنند. اگرچه با گذشت زمان این موضوع کمتر صادق است، برخی سیاست‌ها با هدف جبرانِ هوشمندیِ ناکافی طراحی شده‌اند؛ در مواردی که مدل‌ها ممکن است نتوانند به طور قابل‌اعتماد رفتار درست را از اصول سطح‌بالا استنتاج کنند. برای مثال، شفاف و صریح باشید(در یک پنجره جدید باز می‌شود) به مدل‌های پیشین توصیه می‌کرد که برای مسائل چالش‌برانگیزی که به محاسبات نیاز دارند، پیش از بیان پاسخ، مراحل کار خود را نشان دهند، اما امروزه مدل‌های ما به‌طور طبیعی این رفتار را از طریق یادگیری تقویتی می‌آموزند. 

سایر سیاست‌ها به زمینه محدود در زمان اجرا می‌پردازند: دستیار فقط می‌تواند به آنچه در تعامل فعلی قابل مشاهده است تکیه کند و به‌ندرت از وضعیت کامل کاربر، نیت او، نحوه استفاده در مراحل بعدی، یا اینکه چه تدابیر حفاظتی خارج از مدل وجود دارد، آگاه است. در آن موارد، حتی اگر مدل‌ها بتوانند با پژوهش و تفکر کافی رفتار درست را تشخیص دهند، مشخص‌بودن کارایی و پیش‌بینی‌پذیری را بهبود می‌بخشد—زیرا بسیاری از قضاوت‌های موردی را در قالب رهنمود فشرده می‌کند؛ رهنمودی که تنوع را در میان اعلان‌های مشابه کاهش می‌دهد و درک رفتار را برای کاربران و پژوهشگران به‌طور یکسان آسان‌تر می‌کند.

در نهایت، جزئیات مدل در پی آن است که فهرستی کامل از سیاست‌های کلانِ مرتبط با ارزیابی و اندازه‌گیری باشد. اگر می‌خواهید ارزیابی کنید که آیا یک مدل مطابق انتظار رفتار می‌کند یا نه، داشتن فهرستی عمومی از دسته‌بندی‌های اصلی رفتاری که برای شما اهمیت دارند، مفید است.

مگر نباید هوش مصنوعی پیشرفته بتواند خودش از پسِ این برآید؟

وسوسه‌انگیز است که فکر کنیم یک مدلِ به‌اندازهٔ کافی توانمند باید بتواند رفتار درست را از فهرست کوتاهی از هدف‌ها مانند «مفید و ایمن باشد» استنباط کند. تا حدی درست است. در حوزه‌هایی که معیارهای عینی برای موفقیت دارند، مانند ریاضیات، هوش اغلب می‌تواند جایگزین قواعد جزئی شود.

اما به‌طور کلی، رفتار مدل شبیه حل یک مسئله ساده ریاضی نیست؛ مدل‌ها اغلب در حوزه‌های پیچیده‌تری عمل می‌کنند که در آن‌ها هیچ پاسخ اخلاقاً درستِ واحدی وجود ندارد که همه بتوانند بر سر آن توافق کنند. این‌که برای مثال، «مفید و ایمن» بودنِ یک مدل چه معنایی دارد، به‌شدت وابسته به زمینه است و حاصلِ تصمیم‌گیری‌ای است که ذاتاً آغشته به ارزش‌داوری است. هوش به‌تنهایی به شما نمی‌گوید وقتی پای اخلاق و ارزش‌ها در میان است، چه موازنه‌ها و اولویت‌هایی را باید در نظر بگیرید. بنابراین، حتی با وجود این‌که مدل‌ها از نظر هوشمندی بهبود می‌یابند، ما همچنان به تلاش برای درک و هدایت قضاوت‌های ارزشی / این‌که در یک مورد مشخص، عمل کردن به‌صورت «اخلاقی» چه معنایی دارد، نیاز داریم. و بیشتر دلایلِ داشتنِ جزئیات مدل حتی زمانی که مدل‌ها بسیار توانمندتر می‌شوند نیز همچنان مرتبط می‌مانند: ما همچنان به یک هدف عمومی که افراد بتوانند حول آن هماهنگ شوند، راهی برای ارزیابی اینکه آیا رفتار با مقاصد ما مطابقت دارد یا نه، و سازوکاری برای بازنگری در قواعد هم‌زمان با یادگیری‌مان نیاز داریم. اگر تنها قاعده این باشد که «مفید و ایمن باشید»، در این صورت هیچ سازوکاری وجود ندارد که انسان‌ها بتوانند، برای مثال، درباره مرزهای محتوایی که مدل باید از ارائه آن امتناع کند بحث کنند، و همه این تصمیم‌ها به مدل واگذار می‌شود.

با توانمندتر، عامل‌محورتر و فراگیرتر شدن مدل‌ها، هزینه ابهام افزایش می‌یابد. این موضوع، داشتن یک چارچوب رفتاری شفاف را مهم‌تر می‌کند، نه کم‌اهمیت‌تر.

یک قیاس مفید، تفاوت میانِ قانون اساسیِ مدون و حقوقِ رویه‌ای است. اگرچه یک قانون اساسیِ مکتوب می‌تواند هم اصول کلی و هم قواعد مشخص را ارائه کند، نمی‌تواند همه موارد احتمالی‌ای را که ممکن است پیش بیایند و به هدایت آن نیاز داشته باشند پیش‌بینی کند. سیستم‌های حاکمیتی واقعی همچنین به سازوکارهای تفسیری، شفاف‌سازی‌ها و احکام صریح برای حل‌وفصل موارد پیچیده یا مسائل پیش‌بینی‌نشده نیاز دارند. قواعد منتشرشده به ذی‌نفعان مختلف کمک می‌کنند حتی زمانی که اختلاف‌نظر دارند، هماهنگ شوند، و با ملزم کردن صریح بودن هر تغییری، تغییر را محدود می‌کنند. جزئیات مدل قرار است همه این نقش‌ها را ایفا کند: بیانیه‌ای از اصول، یک چارچوب رفتاری عمومی، و فرایندی برای تغییر جزئیات مدل در گذر زمان.

با این حال، ما فکر نمی‌کنیم هر چیزی که در رفتارِ مدل اهمیت دارد، همیشه بتوان آن را به قواعدِ صریح فروکاست. با خودمختارتر شدن سیستم‌ها، اتکاپذیری و اعتماد بیش از پیش به مهارت‌ها و خصلت‌های گسترده‌تری وابسته خواهد بود: انتقالِ درستِ میزانِ عدم‌قطعیت، رعایتِ حدودِ خودمختاری، پرهیز از غافلگیری‌های ناخوشایند، پیگیریِ نیت در گذرِ زمان، و استدلالِ درست دربارهٔ ارزش‌های انسانی در متن.

چگونه جزئیات مدل را می‌نویسیم و اجرا می‌کنیم

واقع‌بینانه و در عین حال بلندپروازانه بودن

هنگام نگارش جزئیات مدل، طیفی میان توصیف رفتار واقعی امروزِ مدل، با همه کاستی‌هایش، و توصیف هدفی ایده‌آل در آینده‌ای دور وجود دارد. ما سعی می‌کنیم تعادلی برقرار کنیم و معمولاً بازه‌ای در حدود ۰ تا ۳ ماه جلوتر از زمان حال را هدف می‌گیریم. بنابراین، جزئیات مدل اغلب دست‌کم در چند حوزه از توسعه فعال از مدل جلوتر می‌ماند.

این، نقش جزئیات مدل را به‌عنوان توصیفی از رفتار مورد نظر منعکس می‌کند. باید ما را در مسیری منسجم هدایت کند و در عین حال همچنان مبتنی بر کارهایی بماند که یا از قبل انجام می‌دهیم یا برای پیاده‌سازی آن‌ها در کوتاه‌مدت برنامه‌های مشخصی داریم.

چه کسانی مشارکت می‌کنند (و چرا این موضوع اهمیت دارد)

جزئیات مدل از طریق یک فرایند داخلیِ باز تدوین می‌شود. هر کسی در OpenAI می‌تواند درباره آن نظر بدهد یا تغییراتی را پیشنهاد کند، و به‌روزرسانی‌های نهایی توسط مجموعه‌ای گسترده از ذینفعان بین‌بخشی تأیید می‌شوند. در عمل، ده‌ها نفر مستقیماً در نگارش متن مشارکت داشته‌اند و افراد بسیار بیشتری نیز در حوزه‌های پژوهش، مهندسی، محصول، ایمنی، سیاست‌گذاری، حقوقی، ارتباطات، امور جهانی و سایر حوزه‌ها نظر می‌دهند. ما همچنین از انتشارهای عمومی و بازخوردها می‌آموزیم، که به محک زدن این انتخاب‌ها در شرایط استقرار واقعی کمک می‌کنند.

این موضوع اهمیت دارد زیرا رفتار مدل — و پیامدهای آن در جهان — فوق‌العاده پیچیده است. هیچ‌کس نمی‌تواند مجموعه کامل رفتارها، فرآیند آموزش و پیامدهای پسینی را به‌طور کامل در ذهن خود جای دهد، اما با حضور مشارکت‌کنندگان و بازبینان بین‌وظیفه‌ای متعدد می‌توانیم کیفیت را بهبود بخشیم و اطمینان را افزایش دهیم.

یکی از شگفتی‌های خوشایند این بوده است که اجماع واقعی اغلب ممکن است—به‌ویژه وقتی خودمان را وادار می‌کنیم موازنه‌ها را با دقت کافی مکتوب کنیم تا اختلاف‌نظرها حالت مشخص و ملموس پیدا کنند.

جزئیات مدل نیز در خلأ نوشته نشده است. بخش زیادی از آنچه در آن می‌آید، خلاصه‌ای از کار گسترده‌تر در زمینه رفتار، ایمنی و خط‌مشی است. بخش بزرگی از نگارش جزئیات مدل در واقع نوعی ترجمه است: برداشتن کارهای موجود و ساده‌تر، منسجم‌تر، سازمان‌یافته‌تر و دسترس‌پذیرتر کردن آن‌ها، بدون آنکه نیت زیربنایی از دست برود.

چگونه شکاف‌ها را شناسایی می‌کنیم و به‌روزرسانی‌ها را پیش می‌بریم

مدل‌های تولیدی ما هنوز به‌طور کامل جزئیات مدل را به چند دلیل منعکس نمی‌کنند.

  • آموزش مدل ممکن است از به‌روزرسانی‌های جزئیات مدل عقب بماند. این متن رفتاری را توصیف می‌کند که ما در حال حرکت به‌سوی آن هستیم، بنابراین ممکن است فراتر از آنچه جدیدترین مدل ما برای انجام آن آموزش دیده است باشد.
  • آموزش می‌تواند ناخواسته رفتاری ناسازگار با جزئیات مدل را آموزش دهد. ما سخت تلاش می‌کنیم تا از این اتفاق جلوگیری کنیم، و وقتی رخ می‌دهد آن را یک باگ جدی تلقی می‌کنیم—با تلاش برای اصلاح رفتار یا جزئیات مدل تا آن‌ها را با یکدیگر همسو کنیم.
  • آموزش هرگز نمی‌تواند به‌طور کامل فضای همه رفتارهای ممکن را پوشش دهد. استفادهٔ واقعی شامل طیف بلندبالایی از زمینه‌ها و موارد لبه‌ای است که فقط در مقیاس بزرگ آشکار می‌شوند، و هیچ فرایند آموزشی‌ای نمی‌تواند همه‌چیز را پوشش دهد.
  • تعمیم می‌تواند با هدف ما متفاوت باشد. یک مدل می‌تواند در طول آموزش، به دلایل ناخواسته، خروجی‌های «درست» تولید کند، که این امر می‌تواند در موقعیت‌های جدیدی که با موقعیت‌های دیده‌شده در آموزش متفاوت‌اند، به رفتار ناخواسته منجر شود. تکنیک‌هایی مانند تطبیق اجباری کمک می‌کنند، اما راه‌حل کاملی نیستند.

به‌طور کلی‌تر، این واقعیت که جزئیات مدل طیف گسترده‌ای از رفتارهای مطلوب را توصیف می‌کند، به این معنا نیست که یک روش واحد برای آموزش همه آن‌ها وجود دارد. جنبه‌های مختلف رفتار—از جمله پیروی از دستورالعمل‌ها، مرزهای ایمنی، شخصیت، ابراز سنجیده عدم‌قطعیت، و موارد دیگر—اغلب به تکنیک‌های متفاوتی نیازمند هستند و حالت‌های شکست متفاوتی دارند. جزئیات مدل به درک و نقد رفتار مورد نظر کمک می‌کند، اما پیاده‌سازی خوب آن همچنان هم یک هنر است و هم حوزه‌ای فعال از پژوهش.

هم‌زمان با انتشار این پست، ارزیابی‌های جزئیات مدل(در یک پنجره جدید باز می‌شود) را نیز منتشر می‌کنیم: مجموعه‌ای از ارزیابی‌های مبتنی بر سناریو که می‌کوشد با تعداد کمی نمونه نماینده، تا حد امکان گزاره‌های موجود در جزئیات مدل را پوشش دهد. این به ما کمک می‌کند ردیابی کنیم که رفتار مدل و جزئیات مدل کجا ممکن است هم‌راستا نباشند، و همچنین به ما کمک می‌کند بررسی کنیم که آیا مدل‌ها جزئیات مدل را همان‌طور که مدنظرمان بوده تفسیر می‌کنند یا نه. این ارزیابی‌ها تنها بخشی از یک راهبرد ارزیابی گسترده‌تر هستند که همچنین شامل ارزیابی‌های هدفمندتر در ابعاد متعدد رفتار می‌شود؛ از جمله حوزه‌های مشخص ایمنی، راستگویی و تملق، شخصیت و سبک، و قابلیت‌ها.

نمودار انطباق جزئیات مدل به تفکیک بخش برای مدل‌های OpenAI در گذر زمان. برای جزئیات ارزیابی‌ها و نحوه تفسیر آن‌ها، به پست وبلاگ همراه(در یک پنجره جدید باز می‌شود) مراجعه کنید. به‌طور خلاصه، ما معتقدیم که این نتایج بازتاب بهسازی‌های واقعی و گسترده در هم‌راستاسازی مدل‌ها در گذر زمان هستند—اگرچه همچنین بازتاب‌دهندهٔ اثر کوچکی نیز هستند که ناشی از سنجش مدل‌های قدیمی‌تر در برابر سیاست‌های جدیدتر است.

در عمل، بیشتر به‌روزرسانی‌های جزئیات مدل ناشی از مجموعه‌ای از ورودی‌های تکرارشونده هستند:

چه چیزی محتوای خوبِ Spec را می‌سازد؟

چند اصل طراحی، نحوه نگارش و بازبینی جزئیات مدل را هدایت می‌کنند.

  • وضوح و دقت. «صادق باش» ارزش خوبی است، اما یک رویهٔ کامل برای تصمیم‌گیری نیست. جزئیات مدل باید اختلاف‌نظرها را روشن‌تر کند، نه اینکه آن‌ها را پشت زبانی خوشایند پنهان کند. هر جا که عملی باشد، باید به‌صراحت به تعارض‌های احتمالی میان قواعد اشاره کنیم و راهنمایی یا مثال‌هایی دربارهٔ نحوهٔ رفع آن‌ها ارائه دهیم. برای مثال، دروغ نگویید(در یک پنجره جدید باز می‌شود) به تعارض احتمالی با صمیمی باشید(در یک پنجره جدید باز می‌شود) اشاره می‌کند و توضیح می‌دهد که دستیار باید هنجارهای ادب را رعایت کند، اما از دروغ‌های مصلحتی‌ای که ممکن است به تملق(در یک پنجره جدید باز می‌شود) بینجامند و به نفع کاربر نباشند، پرهیز کند.
  • قوانین محتوایی. یک خواننده باید بتواند یک اعلان واقع‌بینانه را بگیرد و پاسخی تولید کند که خواننده‌ای دیگر آن را به‌وضوح در چارچوب یا خارج از چارچوب تشخیص دهد (حتی اگر در موارد مرزی، قضاوت‌هایی دخیل باشد).
  • نمونه‌هایی که نسبت سیگنال به نویز را به حداکثر می‌رسانند. مثال‌های خوب اغلب نقش محوری در تدوین یک به‌روزرسانی باکیفیت جزئیات ایفا می‌کنند. مثال‌ها باید به عمق دشواری‌های تعیین رفتار مدل بپردازند، تضادهای دشوار را آشکار کنند و موضعی روشن درباره نحوه حل آن‌ها اتخاذ کنند. در وهلهٔ دوم، باید بکوشند نمونه‌هایی از لحن و سبک مطلوب باشند که انتقال آن در نثر می‌تواند دشوار باشد.
  • مقاومت و استحکام. تلاش می‌کنیم از مثال‌هایی با ابهام یا پیچیدگی غیرضروری پرهیز کنیم تا تعارض اصلی و راه‌حل موردنظر روشن باشد.
  • انسجام و سازمان‌دهی واضح. ما می‌کوشیم که قواعد جزئیات مدل به‌طور کامل با یکدیگر و با رفتار مورد نظر ما برای مدل سازگار باشند و سازمان‌دهی کلی سند نیز روشن و قابل‌فهم باشد.

آنچه در پیش است

جزئیات مدل ادعایی نیست که بتوانیم همه چیزهای مهم را مکتوب کنیم یا اینکه مدل‌ها همیشه دقیقاً به هدف برسند. این ادعایی است که رفتار مورد نظر به‌اندازه‌ای مهم است که روشن، قابل اجرا و قابل بازنگری باشد.

سه معیار موفقیت، نحوه تکامل آن را هدایت می‌کنند.

  • خوانایی. افراد در داخل و خارج از OpenAI می‌توانند انتظارات دقیقی درباره رفتار شکل دهند و می‌توانند هنگام غافلگیر شدن از رفتار، به متن ارجاع دهند.
  • قابلیت اقدام‌پذیری. جزئیات مدل را می‌توان برای طراحی ارزیابی‌ها، عیب‌یابی رخدادها، و اتخاذ تصمیمات سازگار دربارهٔ محصول به کار برد—نه فقط برای بیان ارزش‌ها.
  • قابلیت بازبینی. جزئیات مدل می‌تواند هم‌زمان با یادگیری ما تکامل یابد، بی‌آنکه به هدفی متحرک و بی‌ثبات تبدیل شود.

با تکامل مدل‌ها و محصولات، انتظار داریم جزئیات مدل نیز همگام با قابلیت‌ها و زمینه‌های استقرار جدید، گسترش یابد و شفاف‌تر شود. هدف این است که مشخصات رفتاری منسجم، قابل‌آزمون و همسو با ماموریت‌مان برای اطمینان از اینکه AGI به نفع همهٔ بشریت باشد، حفظ شود.