در OpenAI، ما بر این باوریم که هوش مصنوعی باید منصفانه، ایمن و بهطور گسترده در دسترس باشد تا افراد بیشتری بتوانند از آن برای حل مسائل دشوار، خلق فرصتها و بهرهمند شدن در حوزههایی مانند سلامت، علم، آموزش، کار و زندگی روزمره استفاده کنند. ما معتقدیم که دسترسی دموکراتیک به هوش مصنوعی بهترین مسیر رو به جلو است: نه هوش مصنوعیای که منافع یا کنترل آن در دستان عدهای معدود متمرکز باشد، بلکه هوش مصنوعیای که افراد بیشتری بتوانند به آن دسترسی داشته باشند، آن را درک کنند و به شکلگیری آن کمک کنند.
این یکی از دلایل اصلی وجود جزئیات مدل OpenAI است. جزئیات مدل(در یک پنجره جدید باز میشود) چارچوب رسمی ما برای رفتار مدل است. این مشخص میکند که ما میخواهیم مدلها چگونه از دستورالعملها پیروی کنند، تعارضها را حلوفصل کنند، به آزادی عمل کاربر احترام بگذارند و در طیف فوقالعاده گستردهای از پرسشهایی که کاربران هر روز از آنها میپرسند، بهصورت ایمن رفتار کنند. به طور کلی، این تلاش ما برای صریح و روشن کردن رفتار مورد نظر مدل است: نه فقط در داخل فرآیند آموزشمان، بلکه در قالبی که کاربران، توسعهدهندگان، پژوهشگران، سیاستگذاران و عموم مردم بتوانند واقعاً آن را بخوانند، بررسی کنند و دربارهاش بحث کنند.
جزئیات مدل به این معنا نیست که مدلهای ما همین امروز از پیش دقیقاً به این شکل رفتار میکنند. از بسیاری جهات، این توصیفی است، اما همچنین هدفی برای مسیری است که میخواهیم رفتار مدل به آن سمت حرکت کند. ما از آن استفاده میکنیم تا رفتارِ موردنظر را روشنتر کنیم، تا بتوانیم مدل را در جهت آن آموزش دهیم، آن را بر اساس آن ارزیابی کنیم و بهمرور زمان بهبودش دهیم.
این مطلب پیشزمینهای را به اشتراک میگذارد که در خودِ جزئیات مدل نیامده است، از جمله فلسفه و سازوکارهای پشت آن: اینکه چگونه ساختاربندی شده است، چرا این انتخابهای ساختاری را انجام دادهایم و چگونه آن را در گذر زمان مینویسیم، پیادهسازی میکنیم و تکامل میدهیم.
جزئیات مدل بخشی از رویکرد گستردهتر OpenAI به هوش مصنوعی ایمن و پاسخگو است. در حالی که چارچوب آمادگی بر ریسکهای ناشی از قابلیتهای پیشرو و تدابیر حفاظتی لازم با افزایش این ریسکها تمرکز دارد، جزئیات مدل به پرسشی متفاوت اما مکمل میپردازد: اینکه مدلهای ما باید در طیف گستردهای از موقعیتها چگونه رفتار کنند. در نگاهی کلانتر، تابآوری هوش مصنوعی در پی پرداختن به چالش گستردهتر اجتماعیِ کمک به جامعه برای بهرهمند شدن از مزایای هوش مصنوعی پیشرفته است، در عین کاهش اختلالات و ریسکهای نوظهوری که همزمان با استقرار سامانههایی با قابلیتهای روزافزون پدید میآیند. در مجموع، هدف این ابتکارها آن است که گذار به AGI را تدریجی، تکرارشونده و از نظر دموکراتیک قابلفهم کنند: به مردم و نهادها زمان میدهند تا سازگار شوند، و همزمان محافظتها، سازوکارهای پاسخگویی و درک عمومیِ لازم را ایجاد میکنند تا هوش مصنوعی قدرتمند در راستای منافع انسانی باقی بماند.
شفافیت عمومی درباره رفتار مدل هم برای انصاف و هم برای ایمنی اهمیت دارد. این موضوع از نظر انصاف اهمیت دارد، زیرا مردم باید درک کنند که هوش مصنوعی چگونه و چرا با آنها به آن شیوه رفتار میکند—و بتوانند نگرانیهای مربوط به انصاف را، هنگامی که پیش میآیند، شناسایی کنند، مورد پرسش قرار دهند و برطرف کنند. و این موضوع از نظر ایمنی اهمیت دارد، زیرا با توانمندتر شدن سیستمهای هوش مصنوعی، مردم و نهادها به انتظارات روشنتری نیاز دارند درباره اینکه قرار است این سیستمها چگونه رفتار کنند، چه مصالحههایی را در خود دارند و چگونه میتوان این انتخابها را در گذر زمان بهبود داد. آن نوع خوانایی نیز با فراهم کردن چیزی ملموس برای افراد بیشتری تا آن را بررسی کنند، دربارهاش پرسش کنند و بهبودش دهند، از تابآوری پشتیبانی میکند.
از زمان نخستین نسخه در سال ۲۰۲۴، جزئیات مدل با یادگیری بیشتر درباره ترجیحات و نیازهای کاربران، گسترش و انطباق برای پوشش قابلیتهای بیشتر و یادگیری از بازخورد عمومی درباره رفتارهای مدل و جزئیات مدل، بهطور قابلتوجهی تکامل یافته است. در راستای استقرار تدریجی، جزئیات مدل سندی پویا است که هم ارزشهای زیربنایی و هم قواعد صریح و روشن را در بر میگیرد—همراه با فرآیندی برای اصلاح تکتک عناصر آن، همزمان با آموختن از استقرار در دنیای واقعی و بازخوردها. ما همچنین در سازوکارهای بازخورد عمومی مانند همسوسازی جمعی سرمایهگذاری میکنیم تا به حفظ این موضوع کمک کنیم که بشریت همچنان کنترل نحوه استفاده از هوش مصنوعی و چگونگی شکلگیری رفتار آن را در دست داشته باشد.
در داخل سازمان، این امر برای ما بهمنزله قطبنمایی برای رفتار مورد انتظار و چارچوبی مشترک برای آموزش، ارزیابی و حاکمیت، عمل میکند. در بیرون از سازمان، این کار یک مرجع عمومی ایجاد میکند که مردم میتوانند از آن برای درک رویکرد ما، نقد آن و کمک به بهبود آن در طول زمان استفاده کنند.
جزئیات مدل شامل چندین نوع مختلف از راهنماییهای مدل است. این عمدی است. بخشهای مختلف رفتار مدل باید به شیوههای متفاوتی مدیریت شوند و یک سند عمومی مفید باید کاری بیش از صرفاً فهرست کردن قواعد انجام دهد.
جزئیات مدل با قصد کلی آغاز میشود: توضیحی روشن از اینکه میخواهیم در سطح سیستم چه چیزی را بهینه کنیم و چرا.
این مقدمه سه هدف را درباره چگونگی دنبال کردن رسالتمان روشن میکند:
- استقرار تدریجی مدلهایی که توسعهدهندگان و کاربران را توانمند سازند
- جلوگیری از وارد کردن آسیب جدی به کاربران یا دیگران توسط مدلهای ما
- حفظ مجوز فعالیت OpenAI
سپس توضیح میدهد که ما در عمل چگونه به ایجاد توازن میان این اهداف میاندیشیم و این مصالحهها را بهاندازهای عینی میسازد که از اصول مفصلتری که در ادامه میآیند پشتیبانی کند.
نکته مهم اینکه، این مقدمه قرار نیست یک دستور مستقیم به مدل باشد. بهرهمند شدن بشریت هدف OpenAI است، نه هدفی که بخواهیم مدلهای ما آن را بهطور خودمختار دنبال کنند. در عوض، ما میخواهیم مدلها از یک زنجیره فرمان پیروی کنند که شامل جزئیات مدل و دستورالعملهای قابلاعمال از سوی OpenAI، توسعهدهندگان و کاربران است—حتی وقتی ممکن است برخی افراد در مورد نتیجه در یک مورد خاص اختلافنظر داشته باشند.
ما فکر میکنیم این تعادل مناسبی است، زیرا برای خودمختاری انسان و آزادی فکری ارزش قائلیم. اگر مدلها را طوری آموزش میدادیم که بر اساس دیدگاه خودمان درباره اینکه چه چیزی برای جامعه خوب است تصمیم بگیرند از کدام دستورالعملها پیروی کنند، OpenAI در جایگاهی قرار میگرفت که درباره اخلاق در سطحی بسیار گسترده داوری کند. با این حال، مقدمه همچنان اهمیت دارد. وقتی در نحوه اعمال جزئیات مدل ابهام وجود داشته باشد، مقدمه باید به رفع آن کمک کند.
جزئیات مدل همچنین شامل تعهدات عمومیای است که فراتر از رفتار مدلِ مستقیماً قابلاندازهگیری، به قصد آموزشی و محدودیتهای استقرار نیز میپردازند. برای مثال، اصول خط قرمز(در یک پنجره جدید باز میشود) ما شامل این تعهد است که در استقرارهای شخص اول مانند ChatGPT، هرگز از پیامهای سیستمی برای بهطور عمدی به خطر انداختن عینیت(در یک پنجره جدید باز میشود) یا اصول مرتبط استفاده نخواهیم کرد؛ و عدم وجود اهداف دیگر(در یک پنجره جدید باز میشود) تعهداتی را دربارهٔ قصد ما برای بهینهسازی پاسخهای مدل در راستای منفعت کاربر، و نه درآمد یا افزایش زمان حضور غیرمفید در سایت، بیان میکند.
در هستهٔ جزئیات مدل، «زنجیرهٔ فرماندهی» قرار دارد: چارچوبی برای تصمیمگیری دربارهٔ اینکه کدام دستورالعملها باید در یک موقعیت مشخص اعمال شوند. همچنین در بر میگیرد که مدل چگونه باید با دستورالعملهای کممشخص برخورد کند؛ بهویژه در محیطهای عاملمحور که از آن انتظار میرود جزئیات را بهصورت خودمختار تکمیل کند و همزمان اثرات جانبیِ دنیای واقعی را با دقت کنترل کند.
ایدهٔ اصلیِ تصمیمگیری دربارهٔ اینکه کدام دستورالعملها باید اعمال شوند، ساده است. دستورالعملها میتوانند از منابع مختلفی از جمله OpenAI، توسعهدهندگان و کاربران ارائه شوند. آن دستورالعملها میتوانند با هم در تضاد باشند. «زنجیرهٔ فرماندهی» توضیح میدهد که مدل چگونه باید آن تضادها را برطرف کند.
به هر سیاست جزئیات مدل و هر دستورالعمل یک سطح اختیارات(در یک پنجره جدید باز میشود) اختصاص داده میشود. به مدل دستور داده شده است که در صورت بروز تعارض، هم متن و هم روحِ دستورالعملهای دارای مرجعیت بالاتر را در اولویت قرار دهد. اگر کاربری برای ساختن بمب درخواست کمک کند، مدل باید مرزهای ایمنی(در یک پنجره جدید باز میشود) سختگیرانهٔ را در اولویت قرار دهد. اگر کاربری درخواست کند که او را دست بیندازند، مدل باید بهطور کلی آن درخواست را بر سیاستِ علیه سوءاستفاده(در یک پنجره جدید باز میشود) جزئیات مدل که اقتدار پایینتری دارد، در اولویت قرار دهد.
این ساختار به ما امکان میدهد مجموعهای نسبتاً کوچک از قواعدی که قابل بازنویسی نیستند را در کنار مجموعهای بزرگتر از مقادیر پیشفرض تعریف کنیم. به این ترتیب، تلاش میکنیم آزادی کاربران و کنترل توسعهدهندگان را در چارچوب محدودیتهای ایمنی به حداکثر برسانیم.
- قواعد سخت مرزهای صریحی هستند که کاربران یا توسعهدهندگان نمیتوانند آنها را نادیده بگیرند (در اصطلاح جزئیات مدل، اینها دستورالعملهای سطح «ریشه» یا «سیستم» هستند). آنها عمدتاً بازدارنده هستند و مدلها را ملزم میکنند از رفتارهایی که میتوانند به ریسکهای فاجعهبار یا آسیب جسمی مستقیم منجر شوند، قوانین را نقض کنند، یا زنجیره فرماندهی را تضعیف کنند، اجتناب کنند. ما انتظار داریم که هوش مصنوعی به فناوریای زیربنایی برای جامعه تبدیل شود، مشابه زیرساختهای پایه اینترنت؛ بنابراین، تنها زمانی مقرراتی وضع میکنیم که ممکن است آزادی فکری را محدود کنند که باور داشته باشیم این مقررات برای طیف گستردهای از توسعهدهندگان و کاربرانی که با آن تعامل خواهند داشت، ضروری هستند. در جزئیات مدل ، در چارچوب ماندن(در یک پنجره جدید باز میشود) شامل قوانین سختگیرانهای است که خطرات ایمنی مشخص در دنیای واقعی را هدف قرار میدهند و اصول زیر ۱۸ سال(در یک پنجره جدید باز میشود) نیز تدابیر حفاظتی اضافی را برای کاربران زیر ۱۸ سال اضافه میکند.
- پیشفرضها نقاط شروعی هستند که قابل تغییرند: رفتار «بهترین حدس» دستیار، زمانی که کاربر یا توسعهدهنده ترجیحی را مشخص نکرده باشد. ما از تنظیمات پیشفرض استفاده میکنیم تا رفتار در مقیاس، قابل پیشبینی و قابلکنترل باشد، تا افراد بتوانند بدون نوشتن مجموعهای سفارشی از دستورالعملها در هر بار، پیشبینی کنند چه اتفاقی میافتد. تنظیمات پیشفرض قابلیت هدایتپذیری را حفظ میکنند: کاربران و توسعهدهندگان میتوانند بهصراحت لحن، عمق، قالب، و حتی زاویه دید را در چارچوب مرزهای ایمنی هدایت کنند. مقادیر پیشفرض در سطح دستورالعمل (مانند لحن یا سبک) طوری طراحی شدهاند که بهطور ضمنی هدایتپذیر باشند، در حالی که مقادیر پیشفرض در سطح کاربر (مانند حقیقتگویی و عینیت) مبنایی برای اعتماد و پیشبینیپذیری هستند و فقط با دستورالعملهای صریح قابل بازنویسیاند. آنها نباید بیسروصدا و صرفاً بر اساس حسوحال تغییر کنند؛ اگر کاربر موضع واقعمحور متفاوتی میخواهد، صریح کردن آن بهصورت یک دستورالعمل صریح، این تغییر را شفاف و قابلفهم نگه میدارد. این پیشفرضها در با هم در پی حقیقت(در یک پنجره جدید باز میشود)، انجام بهترین کار(در یک پنجره جدید باز میشود) و استفاده از سبک مناسب(در یک پنجره جدید باز میشود) بازتاب یافتهاند، از جمله هنجارهای مربوط به صداقت و عینیت، پرهیز از تملق، و هنجارهای تعامل مانند صراحت و صمیمیت و حرفهایگریِ متناسب با بافت.
فراتر از خودِ سلسلهمراتب، جزئیات مدل از ابزارهای تفسیری برای کمک به مدلها (و انسانها) استفاده میکند تا آن را در موارد مبهم بهطور یکسان اعمال کنند. این کمکها شامل موارد زیر است:
- معیارهای تصمیمگیری که به مدل کمک میکنند در حوزههای خاکستری انتخابهای سازگار انجام دهد، بدون آنکه وانمود شود یک قاعده مکانیکی واحد وجود دارد. برای مثال، راهنمایی جزئیات مدل درباره کنترل اثرات جانبی(در یک پنجره جدید باز میشود) ملاحظاتی مانند به حداقل رساندن اقدامات برگشتناپذیر، متناسب نگه داشتن اقدامات با هدف، کاهش غافلگیریهای ناخوشایند، و ترجیح دادن رویکردهای برگشتپذیر را فهرست میکند که باید در برابر اهداف دیگری مانند تکمیل سریع و مؤثر وظیفه متوازن شوند.
- مثالهای عینی که نشان میدهند یک اصل چگونه باید در عمل اعمال شود. اینها نمونههای کوتاهی از اعلان و پاسخ هستند که معمولاً هم یک پاسخ مطابق و هم یک پاسخ غیرمطابق را شامل میشوند، و اغلب بر یک اعلان سخت در نزدیکی یک مرز تصمیمگیری مهم متمرکز هستند. هدف این نیست که یک مکالمهٔ کامل و واقعگرایانه شبیهسازی شود. هدف این است که تمایز کلیدی را روشن کند و این کار را بهگونهای انجام دهد که سبک مطلوبِ پاسخگویی را نیز نشان دهد.
ما تعداد نمونهها را نسبتاً کم نگه میداریم و بر مفیدترین آنها تمرکز میکنیم. مجموعههای ارزیابی گستردهتر به پوشش موارد دُم بلند بیشتری کمک میکنند.
نمونهای که اصول آزادی فکری و قضاوتگر نبودن را از بخش فرض حسن نیت(در یک پنجره جدید باز میشود) در جزئیات مدل نشان میدهد.
جزئیات مدل یک رابط است، نه یک پیادهسازی. این، رفتاری را که میخواهیم توصیف میکند، نه تمام جزئیاتِ چگونگی ایجاد آن رفتار. ما سعی میکنیم آن را به جزئیات پیادهسازی، مانند قالبهای داخلی توکن یا فرایند دقیق آموزش برای یک رفتار خاص، گره نزنیم، زیرا این جزئیات ممکن است تغییر کنند، حتی وقتی رفتار مطلوب تغییر نکند. مخاطب اصلی جزئیات مدل نه خود مدل، بلکه انسانها هستند: این سند برای کمک به کارمندان، کاربران، توسعهدهندگان، پژوهشگران و سیاستگذاران OpenAI در درک، بحث و تصمیمگیری درباره رفتار مورد نظر تهیه شده است.
این جزئیات همچنین مدل را توصیف میکند، نه کل محصول را. این سند با سیاستهای استفاده ما تکمیل میشود که انتظارات ما را درباره نحوه استفاده افراد از API و ChatGPT مشخص میکنند. سیستمی که کاربران با آن تعامل دارند، فراتر از خود مدل را در بر میگیرد: ویژگیهای محصول مانند دستورالعملهای سفارشی و حافظه، پایش، اجرای سیاستها و لایههای دیگر نیز همگی اهمیت دارند. ایمنی بسیار فراتر از رفتار مدل است، و ما به دفاع در عمق باور داریم.
و جزئیات، شرح کاملی از کل مجموعه آموزشی ما یا هر تمایز میان سیاستهای داخلی نیست. هدف این نیست که همهٔ جزئیات ثبت شوند. هدف این است که مهمترین تصمیمهای رفتاری را به گونهای قابلفهم کند که با رفتار مورد نظر مدل ما کاملاً سازگار باشد.
دلایل متعددی برای گنجاندن این میزان از اطلاعات در جزئیات مدل وجود دارد، بهجای آنکه فرض شود خواننده—یا مدل—میتواند همهچیز را از چند هدف کلی استنباط کند.
نخست، جزئیات مدل ابزاری برای شفافیت و پاسخگویی است. این برای تشویق بازخورد عمومی معنادار طراحی شده است. یک هدف عمومیِ شفاف به افراد کمک میکند تشخیص دهند که آیا یک رفتار خطا است یا یک ویژگی. این به آنها یک نقطهٔ ارجاعی پایدار برای نقد و بازخورد عینی میدهد. به همین دلیل ما کد منبع جزئیات مدل را منتشر کردیم(در یک پنجره جدید باز میشود) و تصمیم گرفتیم فرآیند توسعه را بهصورت عمومی ادامه دهیم. از زمان اولین انتشار، تغییرات زیادی بر اساس بازخوردهای عمومی که از طریق سازوکارهای گوناگونی، از جمله فرمهای بازخورد، نقدهای عمومی، و تلاشهای آگاهانه برای گردآوری ورودیهای دموکراتیک جمعآوری شدهاند، اعمال شده است.
دوم، جزئیات مدل یک ابزار هماهنگی در داخل OpenAI است. این زبان مشترک به افراد در حوزههای پژوهش، محصول، ایمنی، سیاستگذاری، حقوقی، ارتباطات و سایر حوزهها واژگان مشترک برای بحث درباره رفتار مدل و سازوکاری برای پیشنهاد و بررسی تغییرات ارائه میدهد.
سوم، سیاستهای صریح میتوانند کمبودهای عملی در هوشمندی مدل و زمینه زمان اجرا را جبران کنند و رفتار را قابلپیشبینیتر کنند. اگرچه با گذشت زمان این موضوع کمتر صادق است، برخی سیاستها با هدف جبرانِ هوشمندیِ ناکافی طراحی شدهاند؛ در مواردی که مدلها ممکن است نتوانند به طور قابلاعتماد رفتار درست را از اصول سطحبالا استنتاج کنند. برای مثال، شفاف و صریح باشید(در یک پنجره جدید باز میشود) به مدلهای پیشین توصیه میکرد که برای مسائل چالشبرانگیزی که به محاسبات نیاز دارند، پیش از بیان پاسخ، مراحل کار خود را نشان دهند، اما امروزه مدلهای ما بهطور طبیعی این رفتار را از طریق یادگیری تقویتی میآموزند.
سایر سیاستها به زمینه محدود در زمان اجرا میپردازند: دستیار فقط میتواند به آنچه در تعامل فعلی قابل مشاهده است تکیه کند و بهندرت از وضعیت کامل کاربر، نیت او، نحوه استفاده در مراحل بعدی، یا اینکه چه تدابیر حفاظتی خارج از مدل وجود دارد، آگاه است. در آن موارد، حتی اگر مدلها بتوانند با پژوهش و تفکر کافی رفتار درست را تشخیص دهند، مشخصبودن کارایی و پیشبینیپذیری را بهبود میبخشد—زیرا بسیاری از قضاوتهای موردی را در قالب رهنمود فشرده میکند؛ رهنمودی که تنوع را در میان اعلانهای مشابه کاهش میدهد و درک رفتار را برای کاربران و پژوهشگران بهطور یکسان آسانتر میکند.
در نهایت، جزئیات مدل در پی آن است که فهرستی کامل از سیاستهای کلانِ مرتبط با ارزیابی و اندازهگیری باشد. اگر میخواهید ارزیابی کنید که آیا یک مدل مطابق انتظار رفتار میکند یا نه، داشتن فهرستی عمومی از دستهبندیهای اصلی رفتاری که برای شما اهمیت دارند، مفید است.
وسوسهانگیز است که فکر کنیم یک مدلِ بهاندازهٔ کافی توانمند باید بتواند رفتار درست را از فهرست کوتاهی از هدفها مانند «مفید و ایمن باشد» استنباط کند. تا حدی درست است. در حوزههایی که معیارهای عینی برای موفقیت دارند، مانند ریاضیات، هوش اغلب میتواند جایگزین قواعد جزئی شود.
اما بهطور کلی، رفتار مدل شبیه حل یک مسئله ساده ریاضی نیست؛ مدلها اغلب در حوزههای پیچیدهتری عمل میکنند که در آنها هیچ پاسخ اخلاقاً درستِ واحدی وجود ندارد که همه بتوانند بر سر آن توافق کنند. اینکه برای مثال، «مفید و ایمن» بودنِ یک مدل چه معنایی دارد، بهشدت وابسته به زمینه است و حاصلِ تصمیمگیریای است که ذاتاً آغشته به ارزشداوری است. هوش بهتنهایی به شما نمیگوید وقتی پای اخلاق و ارزشها در میان است، چه موازنهها و اولویتهایی را باید در نظر بگیرید. بنابراین، حتی با وجود اینکه مدلها از نظر هوشمندی بهبود مییابند، ما همچنان به تلاش برای درک و هدایت قضاوتهای ارزشی / اینکه در یک مورد مشخص، عمل کردن بهصورت «اخلاقی» چه معنایی دارد، نیاز داریم. و بیشتر دلایلِ داشتنِ جزئیات مدل حتی زمانی که مدلها بسیار توانمندتر میشوند نیز همچنان مرتبط میمانند: ما همچنان به یک هدف عمومی که افراد بتوانند حول آن هماهنگ شوند، راهی برای ارزیابی اینکه آیا رفتار با مقاصد ما مطابقت دارد یا نه، و سازوکاری برای بازنگری در قواعد همزمان با یادگیریمان نیاز داریم. اگر تنها قاعده این باشد که «مفید و ایمن باشید»، در این صورت هیچ سازوکاری وجود ندارد که انسانها بتوانند، برای مثال، درباره مرزهای محتوایی که مدل باید از ارائه آن امتناع کند بحث کنند، و همه این تصمیمها به مدل واگذار میشود.
با توانمندتر، عاملمحورتر و فراگیرتر شدن مدلها، هزینه ابهام افزایش مییابد. این موضوع، داشتن یک چارچوب رفتاری شفاف را مهمتر میکند، نه کماهمیتتر.
یک قیاس مفید، تفاوت میانِ قانون اساسیِ مدون و حقوقِ رویهای است. اگرچه یک قانون اساسیِ مکتوب میتواند هم اصول کلی و هم قواعد مشخص را ارائه کند، نمیتواند همه موارد احتمالیای را که ممکن است پیش بیایند و به هدایت آن نیاز داشته باشند پیشبینی کند. سیستمهای حاکمیتی واقعی همچنین به سازوکارهای تفسیری، شفافسازیها و احکام صریح برای حلوفصل موارد پیچیده یا مسائل پیشبینینشده نیاز دارند. قواعد منتشرشده به ذینفعان مختلف کمک میکنند حتی زمانی که اختلافنظر دارند، هماهنگ شوند، و با ملزم کردن صریح بودن هر تغییری، تغییر را محدود میکنند. جزئیات مدل قرار است همه این نقشها را ایفا کند: بیانیهای از اصول، یک چارچوب رفتاری عمومی، و فرایندی برای تغییر جزئیات مدل در گذر زمان.
با این حال، ما فکر نمیکنیم هر چیزی که در رفتارِ مدل اهمیت دارد، همیشه بتوان آن را به قواعدِ صریح فروکاست. با خودمختارتر شدن سیستمها، اتکاپذیری و اعتماد بیش از پیش به مهارتها و خصلتهای گستردهتری وابسته خواهد بود: انتقالِ درستِ میزانِ عدمقطعیت، رعایتِ حدودِ خودمختاری، پرهیز از غافلگیریهای ناخوشایند، پیگیریِ نیت در گذرِ زمان، و استدلالِ درست دربارهٔ ارزشهای انسانی در متن.
هنگام نگارش جزئیات مدل، طیفی میان توصیف رفتار واقعی امروزِ مدل، با همه کاستیهایش، و توصیف هدفی ایدهآل در آیندهای دور وجود دارد. ما سعی میکنیم تعادلی برقرار کنیم و معمولاً بازهای در حدود ۰ تا ۳ ماه جلوتر از زمان حال را هدف میگیریم. بنابراین، جزئیات مدل اغلب دستکم در چند حوزه از توسعه فعال از مدل جلوتر میماند.
این، نقش جزئیات مدل را بهعنوان توصیفی از رفتار مورد نظر منعکس میکند. باید ما را در مسیری منسجم هدایت کند و در عین حال همچنان مبتنی بر کارهایی بماند که یا از قبل انجام میدهیم یا برای پیادهسازی آنها در کوتاهمدت برنامههای مشخصی داریم.
جزئیات مدل از طریق یک فرایند داخلیِ باز تدوین میشود. هر کسی در OpenAI میتواند درباره آن نظر بدهد یا تغییراتی را پیشنهاد کند، و بهروزرسانیهای نهایی توسط مجموعهای گسترده از ذینفعان بینبخشی تأیید میشوند. در عمل، دهها نفر مستقیماً در نگارش متن مشارکت داشتهاند و افراد بسیار بیشتری نیز در حوزههای پژوهش، مهندسی، محصول، ایمنی، سیاستگذاری، حقوقی، ارتباطات، امور جهانی و سایر حوزهها نظر میدهند. ما همچنین از انتشارهای عمومی و بازخوردها میآموزیم، که به محک زدن این انتخابها در شرایط استقرار واقعی کمک میکنند.
این موضوع اهمیت دارد زیرا رفتار مدل — و پیامدهای آن در جهان — فوقالعاده پیچیده است. هیچکس نمیتواند مجموعه کامل رفتارها، فرآیند آموزش و پیامدهای پسینی را بهطور کامل در ذهن خود جای دهد، اما با حضور مشارکتکنندگان و بازبینان بینوظیفهای متعدد میتوانیم کیفیت را بهبود بخشیم و اطمینان را افزایش دهیم.
یکی از شگفتیهای خوشایند این بوده است که اجماع واقعی اغلب ممکن است—بهویژه وقتی خودمان را وادار میکنیم موازنهها را با دقت کافی مکتوب کنیم تا اختلافنظرها حالت مشخص و ملموس پیدا کنند.
جزئیات مدل نیز در خلأ نوشته نشده است. بخش زیادی از آنچه در آن میآید، خلاصهای از کار گستردهتر در زمینه رفتار، ایمنی و خطمشی است. بخش بزرگی از نگارش جزئیات مدل در واقع نوعی ترجمه است: برداشتن کارهای موجود و سادهتر، منسجمتر، سازمانیافتهتر و دسترسپذیرتر کردن آنها، بدون آنکه نیت زیربنایی از دست برود.
مدلهای تولیدی ما هنوز بهطور کامل جزئیات مدل را به چند دلیل منعکس نمیکنند.
- آموزش مدل ممکن است از بهروزرسانیهای جزئیات مدل عقب بماند. این متن رفتاری را توصیف میکند که ما در حال حرکت بهسوی آن هستیم، بنابراین ممکن است فراتر از آنچه جدیدترین مدل ما برای انجام آن آموزش دیده است باشد.
- آموزش میتواند ناخواسته رفتاری ناسازگار با جزئیات مدل را آموزش دهد. ما سخت تلاش میکنیم تا از این اتفاق جلوگیری کنیم، و وقتی رخ میدهد آن را یک باگ جدی تلقی میکنیم—با تلاش برای اصلاح رفتار یا جزئیات مدل تا آنها را با یکدیگر همسو کنیم.
- آموزش هرگز نمیتواند بهطور کامل فضای همه رفتارهای ممکن را پوشش دهد. استفادهٔ واقعی شامل طیف بلندبالایی از زمینهها و موارد لبهای است که فقط در مقیاس بزرگ آشکار میشوند، و هیچ فرایند آموزشیای نمیتواند همهچیز را پوشش دهد.
- تعمیم میتواند با هدف ما متفاوت باشد. یک مدل میتواند در طول آموزش، به دلایل ناخواسته، خروجیهای «درست» تولید کند، که این امر میتواند در موقعیتهای جدیدی که با موقعیتهای دیدهشده در آموزش متفاوتاند، به رفتار ناخواسته منجر شود. تکنیکهایی مانند تطبیق اجباری کمک میکنند، اما راهحل کاملی نیستند.
بهطور کلیتر، این واقعیت که جزئیات مدل طیف گستردهای از رفتارهای مطلوب را توصیف میکند، به این معنا نیست که یک روش واحد برای آموزش همه آنها وجود دارد. جنبههای مختلف رفتار—از جمله پیروی از دستورالعملها، مرزهای ایمنی، شخصیت، ابراز سنجیده عدمقطعیت، و موارد دیگر—اغلب به تکنیکهای متفاوتی نیازمند هستند و حالتهای شکست متفاوتی دارند. جزئیات مدل به درک و نقد رفتار مورد نظر کمک میکند، اما پیادهسازی خوب آن همچنان هم یک هنر است و هم حوزهای فعال از پژوهش.
همزمان با انتشار این پست، ارزیابیهای جزئیات مدل(در یک پنجره جدید باز میشود) را نیز منتشر میکنیم: مجموعهای از ارزیابیهای مبتنی بر سناریو که میکوشد با تعداد کمی نمونه نماینده، تا حد امکان گزارههای موجود در جزئیات مدل را پوشش دهد. این به ما کمک میکند ردیابی کنیم که رفتار مدل و جزئیات مدل کجا ممکن است همراستا نباشند، و همچنین به ما کمک میکند بررسی کنیم که آیا مدلها جزئیات مدل را همانطور که مدنظرمان بوده تفسیر میکنند یا نه. این ارزیابیها تنها بخشی از یک راهبرد ارزیابی گستردهتر هستند که همچنین شامل ارزیابیهای هدفمندتر در ابعاد متعدد رفتار میشود؛ از جمله حوزههای مشخص ایمنی، راستگویی و تملق، شخصیت و سبک، و قابلیتها.
نمودار انطباق جزئیات مدل به تفکیک بخش برای مدلهای OpenAI در گذر زمان. برای جزئیات ارزیابیها و نحوه تفسیر آنها، به پست وبلاگ همراه(در یک پنجره جدید باز میشود) مراجعه کنید. بهطور خلاصه، ما معتقدیم که این نتایج بازتاب بهسازیهای واقعی و گسترده در همراستاسازی مدلها در گذر زمان هستند—اگرچه همچنین بازتابدهندهٔ اثر کوچکی نیز هستند که ناشی از سنجش مدلهای قدیمیتر در برابر سیاستهای جدیدتر است.
در عمل، بیشتر بهروزرسانیهای جزئیات مدل ناشی از مجموعهای از ورودیهای تکرارشونده هستند:
- مسائل عمومی و بازخورد. ابهامها، موارد مرزی یا حالتهای خرابی—چه در زبان جزئیات مدل و چه در رفتار مدلهای ما.
- مسائل داخلی. الگوهایی که در طول توسعه و آزمایش مشاهده میکنیم، از جمله ابهاماتی که در آنها تفسیرهای متفاوتِ معقول به رفتارهای متفاوت منجر میشوند.
- بهروزرسانیهای خطمشی رفتار و ایمنی. وقتی محدودیتها یا تعهدات سطحبالا تغییر میکنند، Spec باید آن ساختار جدید را بهوضوح منعکس کند.
- قابلیتها و محصولات جدید. با توانمندتر شدن مدلها در بروز رفتارهای جدید و با عرضه محصولات جدید، میخواهیم جزئیات مدل نیز از نظر محتوا و پوشش همگام بماند—برای مثال، با افزودن قوانینی برای تعاملات چندوجهی(در یک پنجره جدید باز میشود)، عوامل خودمختار(در یک پنجره جدید باز میشود) و کاربران زیر ۱۸ سال(در یک پنجره جدید باز میشود).
چند اصل طراحی، نحوه نگارش و بازبینی جزئیات مدل را هدایت میکنند.
- وضوح و دقت. «صادق باش» ارزش خوبی است، اما یک رویهٔ کامل برای تصمیمگیری نیست. جزئیات مدل باید اختلافنظرها را روشنتر کند، نه اینکه آنها را پشت زبانی خوشایند پنهان کند. هر جا که عملی باشد، باید بهصراحت به تعارضهای احتمالی میان قواعد اشاره کنیم و راهنمایی یا مثالهایی دربارهٔ نحوهٔ رفع آنها ارائه دهیم. برای مثال، دروغ نگویید(در یک پنجره جدید باز میشود) به تعارض احتمالی با صمیمی باشید(در یک پنجره جدید باز میشود) اشاره میکند و توضیح میدهد که دستیار باید هنجارهای ادب را رعایت کند، اما از دروغهای مصلحتیای که ممکن است به تملق(در یک پنجره جدید باز میشود) بینجامند و به نفع کاربر نباشند، پرهیز کند.
- قوانین محتوایی. یک خواننده باید بتواند یک اعلان واقعبینانه را بگیرد و پاسخی تولید کند که خوانندهای دیگر آن را بهوضوح در چارچوب یا خارج از چارچوب تشخیص دهد (حتی اگر در موارد مرزی، قضاوتهایی دخیل باشد).
- نمونههایی که نسبت سیگنال به نویز را به حداکثر میرسانند. مثالهای خوب اغلب نقش محوری در تدوین یک بهروزرسانی باکیفیت جزئیات ایفا میکنند. مثالها باید به عمق دشواریهای تعیین رفتار مدل بپردازند، تضادهای دشوار را آشکار کنند و موضعی روشن درباره نحوه حل آنها اتخاذ کنند. در وهلهٔ دوم، باید بکوشند نمونههایی از لحن و سبک مطلوب باشند که انتقال آن در نثر میتواند دشوار باشد.
- مقاومت و استحکام. تلاش میکنیم از مثالهایی با ابهام یا پیچیدگی غیرضروری پرهیز کنیم تا تعارض اصلی و راهحل موردنظر روشن باشد.
- انسجام و سازماندهی واضح. ما میکوشیم که قواعد جزئیات مدل بهطور کامل با یکدیگر و با رفتار مورد نظر ما برای مدل سازگار باشند و سازماندهی کلی سند نیز روشن و قابلفهم باشد.
جزئیات مدل ادعایی نیست که بتوانیم همه چیزهای مهم را مکتوب کنیم یا اینکه مدلها همیشه دقیقاً به هدف برسند. این ادعایی است که رفتار مورد نظر بهاندازهای مهم است که روشن، قابل اجرا و قابل بازنگری باشد.
سه معیار موفقیت، نحوه تکامل آن را هدایت میکنند.
- خوانایی. افراد در داخل و خارج از OpenAI میتوانند انتظارات دقیقی درباره رفتار شکل دهند و میتوانند هنگام غافلگیر شدن از رفتار، به متن ارجاع دهند.
- قابلیت اقدامپذیری. جزئیات مدل را میتوان برای طراحی ارزیابیها، عیبیابی رخدادها، و اتخاذ تصمیمات سازگار دربارهٔ محصول به کار برد—نه فقط برای بیان ارزشها.
- قابلیت بازبینی. جزئیات مدل میتواند همزمان با یادگیری ما تکامل یابد، بیآنکه به هدفی متحرک و بیثبات تبدیل شود.
با تکامل مدلها و محصولات، انتظار داریم جزئیات مدل نیز همگام با قابلیتها و زمینههای استقرار جدید، گسترش یابد و شفافتر شود. هدف این است که مشخصات رفتاری منسجم، قابلآزمون و همسو با ماموریتمان برای اطمینان از اینکه AGI به نفع همهٔ بشریت باشد، حفظ شود.


