۸ خرداد ۱۴۰۵

راهنمایی مشترک برای ارزیابی‌های قابل‌اعتمادِ شخص ثالث

آنچه برای ارزیابی‌های مستقل و مؤثرِ محافظ‌ها و قابلیت‌های مدل‌های پیشرو اهمیت دارد.

در حال بارگذاری…

ارزیابی‌های مستقل و قابل‌اعتمادِ شخص ثالث نقشی حیاتی⁠ در تقویت اکوسیستم ایمنی ایفا می‌کنند. این ارزیابی‌ها روی مدل‌های پیشرو انجام می‌شوند تا شواهد بیشتری برای ادعاهای مربوط به قابلیت‌های حیاتی و کاهش‌دهنده‌های ایمنی فراهم کنند. در این مطلب، درس‌هایی را که تاکنون آموخته‌ایم به اشتراک می‌گذاریم و رویکردهایی را برای طراحی ارزیابی‌هایی پیشنهاد می‌کنیم که بتوانند مدل‌های پیشرو را به‌طور معتبر بسنجند؛ رویکردهایی که امیدواریم به شکل‌گیری استانداردهای نوظهور در این حوزه کمک کنند.

پیش‌تر، بسیاری از ارزیابی‌ها با مدل‌ها مانند چت‌بات‌ها برخورد می‌کردند: ارزیابی، به مدل طوری اعلان می‌داد که گویی کاربری در حال پرسیدن سؤال است؛ مدل پاسخ می‌داد؛ و ارزیاب خروجی را داوری می‌کرد. مدل‌های پیشتاز امروزی می‌توانند کارهای بسیار بیشتری انجام دهند: آن‌ها می‌توانند از ابزارها استفاده کنند، اطلاعات را در گام‌های متعدد دنبال کنند، و در چارچوب یک گردش‌کار بزرگ‌تر عمل کنند. این یعنی عملکرد فقط به مدل وابسته نیست، بلکه به محیطی که وظیفه در آن انجام می‌شود و به چیدمانی که اقدامات آن را تسهیل می‌کند نیز بستگی دارد. این چیدمان پیرامونی، که آن را «هارنس» می‌نامیم، می‌تواند جنبه‌های کلیدی عملکرد سیستم را تغییر دهد، از جمله اینکه چگونه از ابزارها استفاده می‌کند، اطلاعات را دنبال می‌کند، یا از خطاها بازیابی می‌شود.

نموداری مقایسه‌ای از گردش‌کار اعلان–پاسخ و گردش‌کار عامل‌محور که نشان می‌دهد چگونه حلقه‌های کنترل، ابزارها، زمینه، بودجه و سازوکارهای حفاظتی، اجرای خودمختار وظایف را امکان‌پذیر می‌کنند.

این موضوع هم نحوه انجام ارزیابی‌ها را تغییر می‌دهد و هم آنچه خوانندگان باید در گزارش‌های ارزیابی به دنبالش باشند. از نظر ما، مفیدترین گزارش‌ها دو چیز را فراتر از خود نتیجه به‌صراحت توصیف می‌کنند: نخست، مشخص می‌کنند تنظیم ارزیابی برای آزمودن چه ادعایی طراحی شده است؛ و دوم، شواهد موجود را به اشتراک می‌گذارند که نشان دهد نتیجه ارزیابی معتبر است.

ادعاهایی که در ارزیابی‌ها آزموده می‌شوند معمولاً در یکی از این سه دسته قرار می‌گیرند¹:

استخراج قابلیت: آیا یک مدل می‌تواند به‌طور معقول قابلیتِ در حال ارزیابی را تولید کند؟
عملکرد محافظ: محافظ‌های آزموده‌شده در برابر رفتار یا حمله‌ای که ارزیابی می‌شود چقدر مقاوم‌اند؟
مقایسه: مدل‌های مختلف تحت شرایط یکسان چگونه عمل می‌کنند؟

گزارش‌های ارزیابی همچنین باید توضیح دهند که ارزیابان چگونه اثراتی را بررسی کرده‌اند که می‌توانند بر اعتبار یک نتیجه تأثیر بگذارند. این موارد شامل موارد زیر هستند:

دستکاری پاداش: سوءاستفاده از میان‌برها در وظیفه یا امتیازدهنده، به‌طوری‌که سامانه بدون نشان دادن رفتاری که ارزیابی قرار است بسنجد، اعتبار بگیرد.
امتناع‌ها: امتناع به‌گونه‌ای که رفتار مورد آزمون را مبهم کند.
آلودگی داده‌ای: عملکرد بیش‌ازحد خوب به این دلیل که وظایف ارزیابی، پاسخ‌ها یا گونه‌های بسیار مشابه آن‌ها در داده‌های آموزشی وجود داشته‌اند یا در طول ارزیابی، مثلاً از طریق مرور وب، قابل کشف بوده‌اند.
مسائل معیوب: عملکرد ضعیف‌تر به این دلیل که وظایف نامعتبرند. دلایل می‌تواند شامل امتیازدهی ناعادلانه باشد (مثلاً پاسخ درست به جزئیات پیاده‌سازیِ بیان‌نشده نیاز دارد) و محیط‌های حل‌نشدنی (مثلاً فایل‌های حیاتیِ مفقود یا ابزارهای غیرقابل‌اعتماد).
کم‌کاری راهبردی: عملکرد عامدانه پایین‌تر از توان واقعی، زمانی که مدل‌ها نشان می‌دهند از ارزیابی‌شدن آگاه‌اند.

انتخاب هارنس مناسب برای یک ارزیابی برای دستیابی به نتایج بهینه حیاتی است

مشاهده کرده‌ایم که نقش هارنس برای سامانه‌هایی که در مسیرهای طولانی‌تر عمل می‌کنند، اهمیت ویژه‌ای دارد. وقتی مدل‌ها می‌توانند از ابزارها استفاده کنند، وضعیت را حفظ کنند و در گام‌های متعدد از خطاها بازیابی شوند، هارنس می‌تواند سطح عملکرد مشاهده‌شده را تغییر دهد و حتی تعیین کند که آیا توانمندیِ مورد ارزیابی اساساً در ارزیابی ظاهر می‌شود یا خیر. برای مثال، هارنسی که وضعیت را حفظ می‌کند و اقدامات ناموفق را دوباره امتحان می‌کند، ممکن است به مدل اجازه دهد وظیفه‌ای چندمرحله‌ای را کامل کند که همان مدل در یک هارنس ساده‌تر هرگز کامل نمی‌کند.

در جدول زیر، سه نوع ادعایی را که ارزیابان ممکن است بخواهند مطرح کنند و هارنسی را که به باور ما هر نوع ادعا به آن نیاز دارد از هم جدا می‌کنیم.

ادعا کنید که ارزیابی سعی در پشتیبانی از آن دارد	انتخاب هارنس مناسب	شواهد برای گزارش
توانمندی تحت استخراج قوی: سیستم A می‌تواند وظایف نوع X را زمانی کامل کند که چیدمان برای بیرون‌کشیدن قوی‌ترین عملکرد معتبر آن طراحی شده باشد.	از قوی‌ترین چیدمان معتبرِ استخراج توانمندی برای سیستم استفاده کنید؛ شامل هارنس، ابزارها، سازوکارهای پشتیبان و بودجه‌ای که یک کاربر توانمند به‌طور منطقی به کار می‌گیرد.	هارنس و چیدمان ابزارها، راهنماییِ استخراج توانمندی، بودجه/تلاش مجاز، توکن‌ها/هزینه/زمان، و اینکه چرا این چیدمان نماینده‌ای معتبر برای توانمندیِ ادعاشده است. اگر سامانه‌ها را تحت تنظیمات بهینه مختلف مقایسه می‌کنید، آن را به عنوان مقایسه سامانه به سامانه یا مقایسه استخراج قوی برچسب‌گذاری کنید.
مقایسه کنترل‌شده: سیستم A تحت یک چیدمان ارزیابی مشترک، عملکرد بهتری نسبت به سیستم B دارد.	وظایف، امتیازدهی و بودجه را ثابت نگه دارید. یا از یک هارنس/چیدمان ابزار مشترک استفاده کنید، یا از مجموعه‌ای ثابت از هارنس‌های استاندارد که از پیش انتخاب شده‌اند تا برای سیستم‌های مورد مقایسه، بیشینه‌سازی استخراج توانمندیِ معقولی فراهم کنند.	مجموعه وظایف مشترک، ابزارها، روش امتیازدهی، هارنس، بودجه، کارایی/هزینه توکن و محدودیت‌های شناخته‌شده. برای ارزیابی‌های عامل کدگذاری، یک ابزار متن‌باز مانند Codex CLI می‌تواند یک حلقه عامل ثابت و رابط ابزار را در سراسر سیستم‌ها فراهم کند. رویکرد ایده‌آل برای حداکثر بهره‌وری، بهینه‌سازی یک هارنس سفارشی برای هر وظیفه و سامانه است، اما انجام این کار در حال حاضر در عمل غیرعملی است.
استحکام سازوکارهای حفاظتی در برابر حملهٔ استخراج‌شده: سازوکارهای حفاظتی سیستم A برای رفتار مدل یا حملهٔ استخراج‌شدهٔ مربوطه کافی هستند.	از چیدمان آزمونِ سازوکارهای حفاظتی استفاده کنید که برای استخراج قوی‌ترین حملهٔ معتبر تحت مدل مهاجمِ مربوطه طراحی شده باشد.	اینکه ارزیابان رفتار مربوطهٔ مدل، پیکربندی سازوکارهای حفاظتیِ آزموده‌شده، راهبرد استخراج، هارنسی که برای اجرای آن استفاده شده، و بودجه یا تلاش مجاز را چگونه توصیف کرده‌اند.

ادعاهای مربوط به توانمندی فقط به اندازهٔ استخراج توانمندیِ پشت آن‌ها معتبر هستند: ارزیابان باید هارنسی را انتخاب کنند که بیشترین تناسب را با وظیفه و توانمندی‌ای داشته باشد که ارزیابی در پی سنجش آن است. یک هارنس استاندارد ممکن است برای مقایسهٔ سامانه‌ها تحت شرایط یکسان مناسب باشد، اما اگر برخی ویژگی‌های هارنس را که به مدل در انجام وظیفه کمک می‌کنند حذف کند، می‌تواند توانمندی را کمتر از واقع نشان دهد. برای مثال، عملکرد GPT‑5.5 در بازه‌های سایبری OpenAI نشان می‌دهد که انتخاب هارنس چگونه می‌تواند توانمندیِ اندازه‌گیری‌شده را در وظایفی که به استفادهٔ طولانی و چندمرحله‌ای از ابزارها نیاز دارند، به‌طور چشمگیری تغییر دهد: این مدل زمانی عملکرد بهتری دارد که هارنس از فشرده‌سازی⁠ برای حفظ زمینهٔ مرتبط با وظیفه در طولانی‌تر شدن تعامل استفاده کند. این موضوع نشان می‌دهد که برای برخی مدل‌ها، هارنسی که فشرده‌سازی را نادیده می‌گیرد، عملکرد را کمتر از حد واقعی استخراج می‌کند.

نرخ‌های موفقیت بالاتر بهتر هستند

سایر ارزیابی‌های منتشرشده² نیز نشان می‌دهند که انتخاب‌های مربوط به هارنس و بودجه، نتایج ارزیابی را تغییر می‌دهند. افزایش محاسبات در زمان آزمون می‌تواند توانمندی‌ای را که ارزیابی استخراج می‌کند، به‌طور چشمگیری تغییر دهد، به‌ویژه در حوزه‌هایی که راستی‌آزمایی موفقیت آسان است، مانند بسیاری از وظایف سایبری. در ارزیابی بازهٔ سایبری UK AISI⁠(در یک پنجره جدید باز می‌شود)، افزایش بودجه از ۱۰ میلیون به ۱۰۰ میلیون توکن، عملکرد را تا ۵۹٪ بهبود داد و عملکرد همچنان در بالاترین بودجهٔ آزموده‌شده رو به افزایش بود. شرح این موضوع، ارزیابی را قابل‌تفسیرتر می‌کند: به خوانندگان نشان می‌دهد که نتیجه چگونه به چیدمانِ استخراجِ آزموده‌شده وابسته است. وقتی عملکرد همچنان با بودجهٔ اضافی بهتر می‌شود، امتیاز باید به‌عنوان عملکرد تحت همان هارنس و بودجه توصیف شود، نه به‌عنوان سقف توانمندیِ اندازه‌گیری‌شده. توانمندی اغلب به منابع وابسته است، نه کمیتی ثابت که بتوان آن را یک‌بار برای همیشه به‌طور تمیز اندازه‌گیری کرد. در مواردی که موفقیت را می‌توان در تلاش‌های تکراری سنجید، گزارش‌ها باید هزینهٔ مورد انتظار برای هر حلِ موفق را نیز در نظر بگیرند، نه فقط نرخ موفقیت در یک بودجهٔ ثابتِ توکن. این کار می‌تواند تفسیر شدت را آسان‌تر کند: نرخ موفقیت پایین ممکن است همچنان از نظر عملی معنادار باشد، اگر هزینهٔ تلاش‌های تکراری در چارچوب مدل تهدید مربوطه قرار داشته باشد. برای ادعاهای مربوط به توانمندی، استخراجِ ناکافیِ قابل‌اجتناب یک شکست در اندازه‌گیری است: اگر هارنس یا بودجه مانع شود که سیستم رفتاری را نشان دهد که در غیر این صورت می‌توانست تولید کند، امتیاز، توانمندیِ ادعاشده را اندازه‌گیری نمی‌کند. در مواردی که ارزیابان استخراج را تا حد امکان پیش برده‌اند و عملکرد همچنان رو به بهبود است، گزارش‌ها باید این موضوع را روشن بیان کنند و مشخص کنند که نتیجه فقط یک برآوردِ حد پایین است.

آزمون سازوکارهای حفاظتی ممکن است در صورت در نظر نگرفتن منابع در دسترس مهاجمان، از جمله هارنس‌های سفارشی، میزان موفقیت‌پذیری یک حمله و شدت بالقوهٔ آن را کمتر از واقع نشان دهد. در ارزیابی سایبری GPT‑5.5 توسط UK AISI⁠(در یک پنجره جدید باز می‌شود)، تیم قرمز متخصص آن‌ها یک جیل‌بریک فراگیر پیدا کرد که در تمام پرسش‌های سایبری مخربی که OpenAI ارائه کرده بود، از جمله در محیط‌های عامل‌محورِ چندنوبتی، محتوای سایبریِ ناقض سیاست‌ها را استخراج می‌کرد. آن‌ها برای تقویت عملکرد حملهٔ مدل از Codex جهت ساخت یک هارنس سفارشی استفاده کردند: این هارنس یک الگوی قابل‌استفادهٔ مجدد برای دور زدن سازوکارهای حفاظتی را در تعامل جاسازی می‌کرد، آن الگو را در طول نوبت‌ها و بلوک‌های مختلف حفظ می‌کرد و آن را در تمامی پرسش‌های سایبری مخربی که OpenAI ارائه کرده بود به کار می‌برد. آزمون سازوکارهای حفاظتی باید با مدل مهاجم متناسب باشد. اگر ادعا دربارهٔ مقاومت در برابر سوءاستفادهٔ متخصصان است، آزمون باید قوی‌ترین راهبرد حملهٔ سرتاسریِ معتبر را تحت یک بودجهٔ مشخص ارزیابی کند؛ از جمله هر هارنسی که برای حفظ و استفادهٔ مجدد از آن راهبرد لازم است. در غیر این صورت، نتایج در معرض برآورد نادرست قرار می‌گیرند: ممکن است فقط از ادعای محدودتری دربارهٔ مقاومت در برابر اعلان‌دهی ساده‌تر پشتیبانی کنند، ممکن است هم شدت حمله و هم احتمال موفقیت آن را پس از عملیاتی‌شدن روش استخراج نادیده بگیرند، و همچنین اگر بودجهٔ بیش از حد در نظر گرفته شود، ممکن است احتمال وقوع یا شدت یک مشکل را بیش از واقع نشان دهند.

برای مقایسه‌های مبتنی بر هارنس‌های استاندارد، زمان و جایگاه مشخصی وجود دارد، اما ارزیابان باید صریح توضیح دهند که چرا استفاده از مجموعه‌ای یکسان از هارنس‌ها مناسب است و از چه ادعایی می‌تواند پشتیبانی کند.ارزیابی افق زمانی METR⁠(در یک پنجره جدید باز می‌شود) نمونه‌ای از یک چیدمان ارزیابی گسترده‌تر و به‌درستی ثابت است: این ارزیابی برای تولید نتایج قابل‌مقایسه میان سامانه‌هایی طراحی شده است که ارزیابی می‌کند. METR یک خروجی مشترک تعریف می‌کند: مدت‌زمان معمولِ یک وظیفهٔ انسانی که در آن پیش‌بینی می‌شود یک عامل AI با سطح اطمینان مشخصی موفق شود. این ارزیابی در هر دسته از برآوردهایی که با هم گزارش می‌شوند، از مجموعه‌وظایف مشترک، روش امتیازدهی، روش برازش و مجموعهٔ کوچکی از سازوکارهای پشتیبانِ قابل‌استفادهٔ مجدد مانند Triframe و ReAct⁠(در یک پنجره جدید باز می‌شود) استفاده می‌کند. وقتی METR مجموعه‌وظایف را گسترش داد و زیرساخت ارزیابی را از چارچوبی به نام Vivaria به چارچوبی به نام Inspect منتقل کرد، این تغییر را گزارش کرد (به‌روزرسانی Time Horizon 1.1⁠(در یک پنجره جدید باز می‌شود)) و مدل‌ها را تحت چیدمان ارزیابی جدید دوباره ارزیابی کرد. این ارزش یک چیدمان ارزیابی استاندارد، از جمله مجموعه‌ای ثابت از هارنس‌هاست: می‌تواند به خوانندگان اطمینان دهد که تفاوت در امتیازها واقعاً بازتاب‌دهندهٔ تفاوت میان سامانه‌های مورد مقایسه است، نه تغییر در چیدمان اندازه‌گیری.

پیشنهاد می‌کنیم گزارش‌های ارزیابیِ اشخاص ثالث بیان کنند که چیدمان ارزیابی آن‌ها قرار است از چه نوع ادعایی پشتیبانی کند؛ توضیح دهند آنچه آزموده شده تا چه حد بازتاب‌دهندهٔ آن ادعای گسترده‌تر است؛ انتخاب‌های مربوط به هارنس را که نتیجه را شکل داده‌اند توصیف کنند؛ مواردی را که این انتخاب‌ها میان ارزیابی‌ها تغییر می‌کنند شرح دهند؛ و شواهد پشتیبان ارائه کنند تا نشان دهند نتیجه چگونه به دست آمده و تا چه حد به آن ادعا تعمیم‌پذیر است.

اعتبار را با بررسی خطرات شناخته‌شده‌ای بسنجید که می‌توانند نتایج را مخدوش کنند

با توانمندتر شدن مدل‌ها، تفسیر نادرست امتیازهای ارزیابی آسان‌تر می‌شود. نسبت به توانمندی‌های واقعی، اگر مدلی تشخیص دهد که در حال ارزیابی است و به‌صورت راهبردی عملکردی پایین‌تر از توان واقعی خود نشان دهد، امتیازهای ارزیابی می‌توانند به‌طور مصنوعی کاهش یابند. اگر مدل از میان‌بُری در وظیفه، اعلان، امتیازدهنده یا هارنس سوءاستفاده کند، این امتیازها می‌توانند بیش از واقع افزایش یابند. همچنین ممکن است این امتیازها بر اثر آلودگی داده‌ای، یعنی جایی که مدل از پیش پاسخ را می‌داند یا می‌تواند بدون حل‌کردن وظیفه آن را پیدا کند، یا بر اثر مسائل «معیوب» که مبهم، نادرست امتیازدهی‌شده، حل‌نشدنی یا آسیب‌پذیر در برابر میان‌بُرهای ناخواسته هستند، دچار اعوجاج شوند. بنابراین گزارش‌های ارزیابی باید امتیازهای اصلی را همراه با بحثی دربارهٔ این خطرات ارائه کنند تا خوانندگان بتوانند ارزیابی کنند که آیا امتیازها بازتاب‌دهندهٔ رفتار موردنظر هستند یا خیر.

هارنس‌ها، بودجه‌ها، ابزارها، قواعد امتیازدهی، ناظرها و رویه‌های بازبینی همگی بر این اثر می‌گذارند که آیا یک عامل در حال حل وظیفه موردنظر است، از آن اجتناب می‌کند، آن را از حفظ می‌داند یا راهی برای دور زدنش پیدا می‌کند. یک گزارش قابل‌اعتماد این بررسی‌ها را آشکار می‌کند: ارزیابان باید هر بار که یک ارزیابی کلی اجرا می‌شود، نمونه‌ها را از نظر این رفتارها بازبینی کنند.

دستکاری پاداش

دستکاری پاداش به معنای دستیابی به امتیازهای بالای ارزیابی از راه‌هایی است که بازتاب‌دهندهٔ توانمندیِ موردنظر نیستند. در اینجا نگرانی این است که سیستم به‌جای انجام کاری که ارزیابی برای سنجش آن طراحی شده، با سوءاستفاده از وظیفه، امتیازدهنده، اعلان یا هارنس اعتبار کسب کند. ارزیابی GPT 5.4 توسط METR⁠(در یک پنجره جدید باز می‌شود) نشان می‌دهد که چرا این موضوع اهمیت دارد: با وجود اینکه مدل در نگاه نخست در وظایف با نرخی موفق می‌شد که معادل افق زمانی حدود ۱۳ ساعت محسوب می‌شد، بررسی انسانی نشان داد که بخشی از این موفقیت‌ها ناشی از دستکاری پاداش بوده‌اند؛ و بازنگری نتایج به‌گونه‌ای که فقط موارد فاقد دستکاری پاداش را در نظر بگیرد، این برآورد را به حدود ۶ ساعت کاهش داد. ارزیابان باید نیاز به چنین تعدیل‌هایی را بررسی کنند و هرگاه این تعدیل‌ها لازم باشند، آن‌ها را به‌روشنی گزارش دهند: برآورد یک توانمندی زمانی بسیار مفیدتر است که خوانندگان بتوانند ببینند کدام موفقیت‌های ظاهری کنار گذاشته شده‌اند، چرا کنار گذاشته شده‌اند، و نتیجه تا چه اندازه به این قضاوت وابسته است.

نموداری که عملکرد مدل AI را در طول زمان همراه با یک خط روند و بازه‌های اطمینان نشان می‌دهد.

امتناع‌ها

مدل‌ها همچنین ممکن است به دلیل سازوکارهای حفاظتی، در ارزیابی‌های توانمندی عملکردی پایین‌تر از توان واقعی خود نشان دهند. یک مدل ممکن است به‌جای کامل‌کردن وظایف ارزیابی، از انجام آن‌ها امتناع کند و به همین دلیل عملکرد ارزیابی پایین‌تری نسبت به توان واقعی خود داشته باشد. بنابراین گزارش‌ها باید توضیح دهند که آیا امتناع‌ها بخشی از نتایج ارزیابی بوده‌اند یا خیر؛ و اگر بوده‌اند، چه تعداد نمونه به دلیل آن‌ها مخدوش شده‌اند.

آلودگی داده‌ای

آلودگی داده‌ای بیشترین اهمیت را برای بنچمارک‌های عمومی یا استفاده‌شدهٔ مجدد⁠ دارد. اگر وظایف، پاسخ‌ها یا گونه‌های بسیار مشابه آن‌ها در داده‌های آموزشی ظاهر شده باشند یا عاملی با قابلیت مرور وب بتواند آن‌ها را پیدا کند، عملکرد ممکن است بازتاب‌دهندهٔ حفظ‌کردن یا بازیابی اطلاعات باشد، نه عملکرد مدل. ارزیابان باید در صورت امکان وظایف خصوصی یا تازه‌ساخته‌شده را ترجیح دهند و بررسی کنند که آیا مدل‌ها پیش از حل‌کردن، جزئیات ویژهٔ وظیفه را بازتولید می‌کنند یا خیر.

مسائل معیوب

مسائل معیوب شامل موقعیت‌هایی مانند مسئله‌ای هستند که به‌طور تصادفی قابل حل نیست. مسائل معیوب آن‌قدر رایج⁠(در یک پنجره جدید باز می‌شود) هستند که باید به‌عنوان یک ریسک استانداردِ اعتبار در نظر گرفته شوند. این‌ها شامل پاسخ صحیحِ مرجعِ نادرست، اعلان‌های مبهم، فایل‌های مفقود، سرویس‌های ناپایدار، معیارهای امتیازدهی ناعادلانه و محیط‌هایی می‌شوند که میان‌برهایی مانند فایل‌های پاسخ پنهان یا تاریخچه محل نگهداری حاوی پچ مرجع را آشکار می‌کنند.

کم‌کاری راهبردی

کم‌کاری راهبردی توسط یک مدل یا سامانه به معنای عملکرد عامدانه پایین‌تر از توان واقعی است، زمانی که عملکرد قوی با هدفی دیگر در تعارض باشد. ارزیابی GPT‑5.5 توسط Apollo⁠(در یک پنجره جدید باز می‌شود) این موضوع را با ایجاد زمینه‌ای آزمود که در آن مدل درک می‌کرد امتیازهای بالای ارزیابی ممکن است به یادگیری‌زدایی یا جلوگیری از استقرار منجر شوند. با این حال، GPT‑5.5 همچنان پاسخ‌های درست ارائه داد که نشان‌دهندهٔ شواهد رفتاری اندک از کم‌کاری راهبردی بود³. اما بررسی ردپاهای استدلال، زمینهٔ مهمی به این نتیجه افزود: Apollo در ۵۲٪ از نمونه‌های مربوط به شرایط کم‌کاری راهبردی، نشانه‌هایی با شدت متوسط یا بیشتر از آگاهی نسبت به ارزیابی هم‌راستایی یافت، در حالی که این میزان در نمونه‌های خلاف‌واقع ۰٪ بود. این شواهد تفسیر نتیجه را پیچیده‌تر می‌کنند، اما در نهایت اطلاعات بیشتری در اختیار خوانندگان قرار می‌دهند: خوانندگان می‌توانند هم نتیجهٔ رفتاری اطمینان‌بخش را ببینند و هم دلیلی را که ایجاب می‌کند در تفسیر بیش‌ازحد آن محتاط باشند.

چگونه از ارزیابی‌های قوی‌تر پشتیبانی می‌کنیم

ادعاهای قوی هم به هارنس مناسب برای استخراج رفتار نیاز دارند و هم به بررسی‌های اعتبارسنجی برای نشان‌دادن اینکه نتیجه معتبر است. دیدگاه ما مبنی بر اینکه هارنس‌ها و بررسی‌های اعتبارسنجی بخشی از نتیجهٔ ارزیابی هستند، نحوهٔ پشتیبانی عملی ما از ارزیابی‌های اشخاص ثالث را شکل می‌دهد:

ما راهنمایی‌های مشخصی دربارهٔ بیشینه‌سازی استخراج توانمندی در اختیار ارزیابان قرار می‌دهیم.
از ارزیابان توانمندی می‌خواهیم از Codex به‌عنوان حداقل مبنای مشترک برای مدل‌های OpenAI استفاده کنند: آزمون‌ها باید دست‌کم یک خط مبنا را از طریق همان رابط عامل‌محوری اجرا کنند که کاربران احتمالاً به آن تکیه خواهند کرد، نه فقط از طریق یک رابط ساده‌سازی‌شدهٔ مدل.
همچنین در مواردی که برای ارزیابی فریب، کم‌کاری راهبردی یا آگاهی از ارزیابی لازم باشد، ردپاهای استدلال و سایر مصنوعات میانی را در دسترس قرار می‌دهیم. METR و Apollo از زمان GPT‑5 در ارزیابی‌های OpenAI از این دسترسی استفاده کرده‌اند.
در نهایت، ما پژوهش برای درک عمیق‌تر این موضوع را در اولویت قرار می‌دهیم که انتخاب‌های هارنس چه زمانی و چگونه به‌طور معنادار نتایج را تغییر می‌دهند؛ از مدیریت زمینه و دسترسی به ابزار گرفته تا رفتار تلاش مجدد، امتیازدهی و بودجه‌های منابع.

این موضوع برای استانداردهای ارزیابی و مسیرهای آینده پژوهش چه معنایی دارد

هدف این توصیه‌ها فقط بهبود گزارش‌های ارزیابیِ فردی نیست، بلکه کمک به شکل‌گیری استانداردهای نوظهور ملی ⁠(در یک پنجره جدید باز می‌شود)و بین‌المللی ⁠(در یک پنجره جدید باز می‌شود)برای ارزیابی و گزارش‌دهی دربارهٔ AI پیشرو نیز هست. از این پس، استانداردهای ارزیابی اشخاص ثالث باید جزئیات کافی را الزام کنند تا تصمیم‌گیران بتوانند بفهمند ارزیابی‌های مشخص از چه ادعاهایی پشتیبانی می‌کنند، چه سیستمی آزموده شده، نتیجه چگونه استخراج شده، و ارزیابان چگونه اعتبار آن را بررسی کرده‌اند. برای سیستم‌های پیشرو که روی وظایفی آزموده می‌شوند که در آن‌ها توانمندی‌های عامل‌محور اهمیت دارد، جزئیات باید شامل موارد زیر باشد (مشروط به ملاحظات امنیتی یا محرمانگی):

ادعا: اینکه ارزیابی سامانه‌ها را مقایسه می‌کند، سقف توانمندی را برآورد می‌کند، یا سازوکارهای حفاظتی را می‌آزماید.
زمینه ارزیابی: جزئیات کافی دربارهٔ وظایف یا توزیع وظایف، تا خوانندگان بفهمند ارزیابی دقیقاً چه مهارت‌ها، رفتارها یا حالت‌های شکستی را می‌آزماید.
سامانه آزموده‌شده: مدل، تنظیمات استدلال، دسترسی به ابزارها، هارنس و سازوکارهای حفاظتی.
بودجه: نوبت‌ها، توکن‌ها، تلاش‌ها/تلاش‌های مجدد، زمان سپری‌شده واقعی، هزینه استنتاج، و در صورت کاربرد، هزینه مورد انتظار برای هر حل موفق.
روش‌های استخراج قابلیت: انتخاب‌های هارنسِ به‌کاررفته برای استخراج نتیجه، و اینکه آنچه آزموده شده تا چه اندازه بازتاب ادعای گسترده‌تری است که مطرح می‌شود.
بررسی‌های اعتبارسنجی: اینکه ارزیابان چگونه دستکاری پاداش، آگاهی از ارزیابی، آلودگی داده‌ای، امتناع‌ها، کم‌کاری راهبردی و سایر رفتارهایی را بررسی کرده‌اند که می‌توانند نتیجه را تضعیف کنند؛ از جمله اینکه موارد تأییدشده چگونه بر امتیازدهی یا تفسیر اثر گذاشته‌اند.

استانداردهایی که انتخاب‌های مربوط به هارنس یا بررسی‌های اعتبارسنجی را نادیده می‌گیرند، ممکن است توانایی‌های یک سامانه را کمتر از واقع نشان دهند یا اطمینان نسبت به یک ادعای ایمنی را بیش از حد جلوه دهند. ساخت هارنس‌های قوی و روش‌های استخراج توانمندی همچنان یک حوزهٔ پژوهشی باز است و باید محور بررسی‌ها و سرمایه‌گذاری‌های بیشتر قرار گیرد.

۲۰۲۶

نویسنده

OpenAI

واژه‌نامه

از آنجا که در این مطلب از چندین اصطلاح تخصصی استفاده می‌کنیم، در ادامه واژه‌نامه‌ای آورده‌ایم که به زبان ساده توضیح می‌دهد منظورمان از آن‌ها چیست:

سامانه عامل‌محور: سامانه‌ای که می‌تواند یک وظیفه را در چندین گام پیش ببرد، از ابزارها استفاده کند، وضعیت وظیفه را حفظ کند و در یک محیط عمل کند، نه اینکه فقط یک پاسخ واحد به یک اعلان برگرداند.
ارزیابی جامع: داوری گسترده‌تر دربارهٔ اینکه آیا شواهد از یک ادعا، نتیجه‌گیری دربارهٔ ریسک، یا موضع اطمینان‌بخشی پشتیبانی می‌کنند یا خیر که ممکن است بر داده‌های ارزیابی، بررسی اسناد، مصاحبه، بررسی فرایند و سایر مستندات و شواهد مرتبط مبتنی باشد.
فشرده‌سازی زمینه: روشی برای حفظ زمینه مرتبط با وظیفه در اجرای طولانی.
پیکربندی: سامانه دقیقِ آزموده‌شده و شرایط ارزیابی، فراتر از نام مدل.
آلودگی: وقتی وظایف ارزیابی، پاسخ‌ها یا گونه‌های بسیار نزدیک آن‌ها در داده‌های آموزشی یک مدل ظاهر شده باشند یا هنگام ارزیابی قابل کشف باشند (مثلاً از طریق ابزارهایی مانند مرور وب)، به‌طوری‌که عملکرد، توان تعمیم واقعی مدل را بیش‌ازحد نشان دهد.
استخراج قابلیت: فرایند تلاش برای استخراج یک قابلیت یا رفتار از یک سامانه در طول یک ارزیابی کلی.
محیط: بستر وظیفه‌ای که در آن یک سامانه آزموده می‌شود. این شامل مواردی مانند وضعیت بیرونی‌ای است که عامل در طول ارزیابی با آن تعامل می‌کند و آن را تغییر می‌دهد، مانند یک محیط ترمینال یا یک بازی ویدیویی.
ارزیابی: آزمون یا سنجش مشخص درون یک ارزیابی کلی.
آگاهی از ارزیابی: آگاهی از ارزیابی به این اشاره دارد که یک مدل تشخیص دهد، یا به نظر برسد تشخیص می‌دهد، که در حال ارزیابی شدن است و احتمالاً رفتار خود را در پاسخ به آن زمینه تنظیم کند. این می‌تواند به این صورت ظاهر شود که مدل به‌طور صریح درباره آزموده شدن خود استدلال کند، هدف ارزیابی را استنباط کند، یا چون انتظار دارد نتیجه بر نحوه قضاوت یا استقرار آن اثر بگذارد، رفتار خود را تغییر دهد.
هارنس: ساختاری رو‌به‌روی مدل که به یک مدل امکان می‌دهد یک وظیفه را انجام دهد: اعلان‌ها، ابزارها، رابط‌ها، منطق کنترلی، حافظه، تلاش‌های مجدد، اعتبارسنج‌ها و دیگر ساختارهای پشتیبان پیرامون مدل.
بیشینه‌سازی استخراج توانمندی: آزمونی با هدف یافتن قوی‌ترین عملکرد معتبر یا حالت شکست معتبری که یک سامانه می‌تواند در چارچوب بودجه‌ای تعریف‌شده بروز دهد، به‌جای اینکه سیستم صرفاً یک‌بار از طریق یک هارنس استاندارد اجرا شود.
ردپاهای استدلال: سوابق استدلال میانی مدل در طول یک آزمون.
دستکاری پاداش: کسب امتیاز بالا از طریق میان‌بُر یا رفتاری خارج از مقصود ارزیاب.
محافظ‌ها: فیلترها، ناظرها، سامانه‌های مسدودکننده و دیگر حفاظت‌هایی که پیرامون یک مدل یا محصول اعمال می‌شوند.
کم‌کاری راهبردی: عملکرد عامدانه پایین‌تر از توان واقعی در یک ارزیابی، به‌گونه‌ای که اعتبار نتیجه را تضعیف کند.
امتیازدهی: روشی که برای تعیین نحوه سنجش عملکرد یا موفقیت یک وظیفه استفاده می‌شود.
هارنس استاندارد: هارنسی که میان سامانه‌ها یکسان نگه داشته می‌شود، نه اینکه برای یک مدل یا وظیفه خاص سفارشی‌سازی شود، تا تفاوت نتایج آسان‌تر به مدلِ آزموده‌شده نسبت داده شود.
افق زمانی: طولِ وظیفه‌ای که یک سیستم می‌تواند با میزان اطمینان مشخصی کامل کند؛ اغلب به‌صورت مدت‌زمانی بیان می‌شود که همان وظیفه برای یک انسان طول می‌کشد.
دسترسی به ابزار: ابزارهای بیرونیِ در دسترس مدل در طول ارزیابی کلی.
مسیرهای اجرا: مسیرهای گام‌به‌گامی که یک سامانه هنگام پیش بردن یک وظیفه دنبال می‌کند.
جیل‌بریک فراگیر: الگوی حمله‌ای واحد که باعث می‌شود یک سیستم در اعلان‌ها یا وظایف متعدد، سازوکارهای حفاظتی را دور بزند.

پانویس‌ها

1
این مطلب تلاش نمی‌کند تعیین کند که اشخاص ثالث باید ادعاهای مربوط به ناهم‌راستایی یا گرایش‌های رفتاری را چگونه ارزیابی کنند. برای فهم اینکه انتخاب‌های هارنس چگونه بر این ارزیابی‌ها اثر می‌گذارند، کار بیشتری لازم است؛ به‌ویژه چون هارنس‌هایی که از رفتارهای دارای افق زمانی بلندتر پشتیبانی می‌کنند، ممکن است انواع رفتارهای ناخواسته‌ای را هم تغییر دهند که ارزیابان باید پایش کنند.
2
HAL⁠(در یک پنجره جدید باز می‌شود) نمونه دیگری از ارزیابی‌های عامل ارائه می‌کند: در CORE-Bench⁠(در یک پنجره جدید باز می‌شود)، تغییر هارنس به Claude Code هم عملکرد اندازه‌گیری‌شده و هم نمایه هزینه را روی همان بنچمارک تغییر داد. نمونه‌های عمومی دیگر شامل SWE-agent⁠(در یک پنجره جدید باز می‌شود)، SeeAct⁠(در یک پنجره جدید باز می‌شود)، ScienceAgentBench⁠(در یک پنجره جدید باز می‌شود)، CORE-Bench⁠(در یک پنجره جدید باز می‌شود) و Inspect Cyber⁠(در یک پنجره جدید باز می‌شود) هستند؛ هرکدام به خوانندگان می‌گویند چه رابط یا هارنسی آن امتیاز را تولید کرده است.
3
کسب امتیاز ۱۰۰٪ در هر دو گونهٔ پرسش‌وپاسخِ کم‌کاری راهبردی و ۹۹٬۶٪ در وظیفهٔ کم‌کاری راهبردیِ مبتنی بر فریب راهبردی.

به خواندن ادامه بده

مشاهده همه

Safety and alignment in an era of long-horizon models

ایمنی۲۹ تیر ۱۴۰۵

Why teens deserve access to safe AI

ایمنی۲۵ تیر ۱۴۰۵

GPT-Red: فعال‌سازی خودبهبودی برای افزایش استحکام

ایمنی۲۴ تیر ۱۴۰۵