راهنمایی مشترک برای ارزیابیهای قابلاعتمادِ شخص ثالث
آنچه برای ارزیابیهای مستقل و مؤثرِ محافظها و قابلیتهای مدلهای پیشرو اهمیت دارد.
ارزیابیهای مستقل و قابلاعتمادِ شخص ثالث نقشی حیاتی در تقویت اکوسیستم ایمنی ایفا میکنند. این ارزیابیها روی مدلهای پیشرو انجام میشوند تا شواهد بیشتری برای ادعاهای مربوط به قابلیتهای حیاتی و کاهشدهندههای ایمنی فراهم کنند. در این مطلب، درسهایی را که تاکنون آموختهایم به اشتراک میگذاریم و رویکردهایی را برای طراحی ارزیابیهایی پیشنهاد میکنیم که بتوانند مدلهای پیشرو را بهطور معتبر بسنجند؛ رویکردهایی که امیدواریم به شکلگیری استانداردهای نوظهور در این حوزه کمک کنند.
پیشتر، بسیاری از ارزیابیها با مدلها مانند چتباتها برخورد میکردند: ارزیابی، به مدل طوری اعلان میداد که گویی کاربری در حال پرسیدن سؤال است؛ مدل پاسخ میداد؛ و ارزیاب خروجی را داوری میکرد. مدلهای پیشتاز امروزی میتوانند کارهای بسیار بیشتری انجام دهند: آنها میتوانند از ابزارها استفاده کنند، اطلاعات را در گامهای متعدد دنبال کنند، و در چارچوب یک گردشکار بزرگتر عمل کنند. این یعنی عملکرد فقط به مدل وابسته نیست، بلکه به محیطی که وظیفه در آن انجام میشود و به چیدمانی که اقدامات آن را تسهیل میکند نیز بستگی دارد. این چیدمان پیرامونی، که آن را «هارنس» مینامیم، میتواند جنبههای کلیدی عملکرد سیستم را تغییر دهد، از جمله اینکه چگونه از ابزارها استفاده میکند، اطلاعات را دنبال میکند، یا از خطاها بازیابی میشود.
این موضوع هم نحوه انجام ارزیابیها را تغییر میدهد و هم آنچه خوانندگان باید در گزارشهای ارزیابی به دنبالش باشند. از نظر ما، مفیدترین گزارشها دو چیز را فراتر از خود نتیجه بهصراحت توصیف میکنند: نخست، مشخص میکنند تنظیم ارزیابی برای آزمودن چه ادعایی طراحی شده است؛ و دوم، شواهد موجود را به اشتراک میگذارند که نشان دهد نتیجه ارزیابی معتبر است.
ادعاهایی که در ارزیابیها آزموده میشوند معمولاً در یکی از این سه دسته قرار میگیرند1:
- استخراج قابلیت: آیا یک مدل میتواند بهطور معقول قابلیتِ در حال ارزیابی را تولید کند؟
- عملکرد محافظ: محافظهای آزمودهشده در برابر رفتار یا حملهای که ارزیابی میشود چقدر مقاوماند؟
- مقایسه: مدلهای مختلف تحت شرایط یکسان چگونه عمل میکنند؟
گزارشهای ارزیابی همچنین باید توضیح دهند که ارزیابان چگونه اثراتی را بررسی کردهاند که میتوانند بر اعتبار یک نتیجه تأثیر بگذارند. این موارد شامل موارد زیر هستند:
- دستکاری پاداش: سوءاستفاده از میانبرها در وظیفه یا امتیازدهنده، بهطوریکه سامانه بدون نشان دادن رفتاری که ارزیابی قرار است بسنجد، اعتبار بگیرد.
- امتناعها: امتناع بهگونهای که رفتار مورد آزمون را مبهم کند.
- آلودگی دادهای: عملکرد بیشازحد خوب به این دلیل که وظایف ارزیابی، پاسخها یا گونههای بسیار مشابه آنها در دادههای آموزشی وجود داشتهاند یا در طول ارزیابی، مثلاً از طریق مرور وب، قابل کشف بودهاند.
- مسائل معیوب: عملکرد ضعیفتر به این دلیل که وظایف نامعتبرند. دلایل میتواند شامل امتیازدهی ناعادلانه باشد (مثلاً پاسخ درست به جزئیات پیادهسازیِ بیاننشده نیاز دارد) و محیطهای حلنشدنی (مثلاً فایلهای حیاتیِ مفقود یا ابزارهای غیرقابلاعتماد).
- کمکاری راهبردی: عملکرد عامدانه پایینتر از توان واقعی، زمانی که مدلها نشان میدهند از ارزیابیشدن آگاهاند.
مشاهده کردهایم که نقش هارنس برای سامانههایی که در مسیرهای طولانیتر عمل میکنند، اهمیت ویژهای دارد. وقتی مدلها میتوانند از ابزارها استفاده کنند، وضعیت را حفظ کنند و در گامهای متعدد از خطاها بازیابی شوند، هارنس میتواند سطح عملکرد مشاهدهشده را تغییر دهد و حتی تعیین کند که آیا توانمندیِ مورد ارزیابی اساساً در ارزیابی ظاهر میشود یا خیر. برای مثال، هارنسی که وضعیت را حفظ میکند و اقدامات ناموفق را دوباره امتحان میکند، ممکن است به مدل اجازه دهد وظیفهای چندمرحلهای را کامل کند که همان مدل در یک هارنس سادهتر هرگز کامل نمیکند.
در جدول زیر، سه نوع ادعایی را که ارزیابان ممکن است بخواهند مطرح کنند و هارنسی را که به باور ما هر نوع ادعا به آن نیاز دارد از هم جدا میکنیم.
ادعا کنید که ارزیابی سعی در پشتیبانی از آن دارد | انتخاب هارنس مناسب | شواهد برای گزارش |
توانمندی تحت استخراج قوی: سیستم A میتواند وظایف نوع X را زمانی کامل کند که چیدمان برای بیرونکشیدن قویترین عملکرد معتبر آن طراحی شده باشد. | از قویترین چیدمان معتبرِ استخراج توانمندی برای سیستم استفاده کنید؛ شامل هارنس، ابزارها، سازوکارهای پشتیبان و بودجهای که یک کاربر توانمند بهطور منطقی به کار میگیرد. | هارنس و چیدمان ابزارها، راهنماییِ استخراج توانمندی، بودجه/تلاش مجاز، توکنها/هزینه/زمان، و اینکه چرا این چیدمان نمایندهای معتبر برای توانمندیِ ادعاشده است. اگر سامانهها را تحت تنظیمات بهینه مختلف مقایسه میکنید، آن را به عنوان مقایسه سامانه به سامانه یا مقایسه استخراج قوی برچسبگذاری کنید. |
مقایسه کنترلشده: سیستم A تحت یک چیدمان ارزیابی مشترک، عملکرد بهتری نسبت به سیستم B دارد. | وظایف، امتیازدهی و بودجه را ثابت نگه دارید. یا از یک هارنس/چیدمان ابزار مشترک استفاده کنید، یا از مجموعهای ثابت از هارنسهای استاندارد که از پیش انتخاب شدهاند تا برای سیستمهای مورد مقایسه، بیشینهسازی استخراج توانمندیِ معقولی فراهم کنند. | مجموعه وظایف مشترک، ابزارها، روش امتیازدهی، هارنس، بودجه، کارایی/هزینه توکن و محدودیتهای شناختهشده. برای ارزیابیهای عامل کدگذاری، یک ابزار متنباز مانند Codex CLI میتواند یک حلقه عامل ثابت و رابط ابزار را در سراسر سیستمها فراهم کند. رویکرد ایدهآل برای حداکثر بهرهوری، بهینهسازی یک هارنس سفارشی برای هر وظیفه و سامانه است، اما انجام این کار در حال حاضر در عمل غیرعملی است. |
استحکام سازوکارهای حفاظتی در برابر حملهٔ استخراجشده: سازوکارهای حفاظتی سیستم A برای رفتار مدل یا حملهٔ استخراجشدهٔ مربوطه کافی هستند. | از چیدمان آزمونِ سازوکارهای حفاظتی استفاده کنید که برای استخراج قویترین حملهٔ معتبر تحت مدل مهاجمِ مربوطه طراحی شده باشد. | اینکه ارزیابان رفتار مربوطهٔ مدل، پیکربندی سازوکارهای حفاظتیِ آزمودهشده، راهبرد استخراج، هارنسی که برای اجرای آن استفاده شده، و بودجه یا تلاش مجاز را چگونه توصیف کردهاند. |
ادعاهای مربوط به توانمندی فقط به اندازهٔ استخراج توانمندیِ پشت آنها معتبر هستند: ارزیابان باید هارنسی را انتخاب کنند که بیشترین تناسب را با وظیفه و توانمندیای داشته باشد که ارزیابی در پی سنجش آن است. یک هارنس استاندارد ممکن است برای مقایسهٔ سامانهها تحت شرایط یکسان مناسب باشد، اما اگر برخی ویژگیهای هارنس را که به مدل در انجام وظیفه کمک میکنند حذف کند، میتواند توانمندی را کمتر از واقع نشان دهد. برای مثال، عملکرد GPT‑5.5 در بازههای سایبری OpenAI نشان میدهد که انتخاب هارنس چگونه میتواند توانمندیِ اندازهگیریشده را در وظایفی که به استفادهٔ طولانی و چندمرحلهای از ابزارها نیاز دارند، بهطور چشمگیری تغییر دهد: این مدل زمانی عملکرد بهتری دارد که هارنس از فشردهسازی برای حفظ زمینهٔ مرتبط با وظیفه در طولانیتر شدن تعامل استفاده کند. این موضوع نشان میدهد که برای برخی مدلها، هارنسی که فشردهسازی را نادیده میگیرد، عملکرد را کمتر از حد واقعی استخراج میکند.
نرخهای موفقیت بالاتر بهتر هستند
سایر ارزیابیهای منتشرشده2 نیز نشان میدهند که انتخابهای مربوط به هارنس و بودجه، نتایج ارزیابی را تغییر میدهند. افزایش محاسبات در زمان آزمون میتواند توانمندیای را که ارزیابی استخراج میکند، بهطور چشمگیری تغییر دهد، بهویژه در حوزههایی که راستیآزمایی موفقیت آسان است، مانند بسیاری از وظایف سایبری. در ارزیابی بازهٔ سایبری UK AISI(در یک پنجره جدید باز میشود)، افزایش بودجه از ۱۰ میلیون به ۱۰۰ میلیون توکن، عملکرد را تا ۵۹٪ بهبود داد و عملکرد همچنان در بالاترین بودجهٔ آزمودهشده رو به افزایش بود. شرح این موضوع، ارزیابی را قابلتفسیرتر میکند: به خوانندگان نشان میدهد که نتیجه چگونه به چیدمانِ استخراجِ آزمودهشده وابسته است. وقتی عملکرد همچنان با بودجهٔ اضافی بهتر میشود، امتیاز باید بهعنوان عملکرد تحت همان هارنس و بودجه توصیف شود، نه بهعنوان سقف توانمندیِ اندازهگیریشده. توانمندی اغلب به منابع وابسته است، نه کمیتی ثابت که بتوان آن را یکبار برای همیشه بهطور تمیز اندازهگیری کرد. در مواردی که موفقیت را میتوان در تلاشهای تکراری سنجید، گزارشها باید هزینهٔ مورد انتظار برای هر حلِ موفق را نیز در نظر بگیرند، نه فقط نرخ موفقیت در یک بودجهٔ ثابتِ توکن. این کار میتواند تفسیر شدت را آسانتر کند: نرخ موفقیت پایین ممکن است همچنان از نظر عملی معنادار باشد، اگر هزینهٔ تلاشهای تکراری در چارچوب مدل تهدید مربوطه قرار داشته باشد. برای ادعاهای مربوط به توانمندی، استخراجِ ناکافیِ قابلاجتناب یک شکست در اندازهگیری است: اگر هارنس یا بودجه مانع شود که سیستم رفتاری را نشان دهد که در غیر این صورت میتوانست تولید کند، امتیاز، توانمندیِ ادعاشده را اندازهگیری نمیکند. در مواردی که ارزیابان استخراج را تا حد امکان پیش بردهاند و عملکرد همچنان رو به بهبود است، گزارشها باید این موضوع را روشن بیان کنند و مشخص کنند که نتیجه فقط یک برآوردِ حد پایین است.
آزمون سازوکارهای حفاظتی ممکن است در صورت در نظر نگرفتن منابع در دسترس مهاجمان، از جمله هارنسهای سفارشی، میزان موفقیتپذیری یک حمله و شدت بالقوهٔ آن را کمتر از واقع نشان دهد. در ارزیابی سایبری GPT‑5.5 توسط UK AISI(در یک پنجره جدید باز میشود)، تیم قرمز متخصص آنها یک جیلبریک فراگیر پیدا کرد که در تمام پرسشهای سایبری مخربی که OpenAI ارائه کرده بود، از جمله در محیطهای عاملمحورِ چندنوبتی، محتوای سایبریِ ناقض سیاستها را استخراج میکرد. آنها برای تقویت عملکرد حملهٔ مدل از Codex جهت ساخت یک هارنس سفارشی استفاده کردند: این هارنس یک الگوی قابلاستفادهٔ مجدد برای دور زدن سازوکارهای حفاظتی را در تعامل جاسازی میکرد، آن الگو را در طول نوبتها و بلوکهای مختلف حفظ میکرد و آن را در تمامی پرسشهای سایبری مخربی که OpenAI ارائه کرده بود به کار میبرد. آزمون سازوکارهای حفاظتی باید با مدل مهاجم متناسب باشد. اگر ادعا دربارهٔ مقاومت در برابر سوءاستفادهٔ متخصصان است، آزمون باید قویترین راهبرد حملهٔ سرتاسریِ معتبر را تحت یک بودجهٔ مشخص ارزیابی کند؛ از جمله هر هارنسی که برای حفظ و استفادهٔ مجدد از آن راهبرد لازم است. در غیر این صورت، نتایج در معرض برآورد نادرست قرار میگیرند: ممکن است فقط از ادعای محدودتری دربارهٔ مقاومت در برابر اعلاندهی سادهتر پشتیبانی کنند، ممکن است هم شدت حمله و هم احتمال موفقیت آن را پس از عملیاتیشدن روش استخراج نادیده بگیرند، و همچنین اگر بودجهٔ بیش از حد در نظر گرفته شود، ممکن است احتمال وقوع یا شدت یک مشکل را بیش از واقع نشان دهند.
برای مقایسههای مبتنی بر هارنسهای استاندارد، زمان و جایگاه مشخصی وجود دارد، اما ارزیابان باید صریح توضیح دهند که چرا استفاده از مجموعهای یکسان از هارنسها مناسب است و از چه ادعایی میتواند پشتیبانی کند.ارزیابی افق زمانی METR(در یک پنجره جدید باز میشود) نمونهای از یک چیدمان ارزیابی گستردهتر و بهدرستی ثابت است: این ارزیابی برای تولید نتایج قابلمقایسه میان سامانههایی طراحی شده است که ارزیابی میکند. METR یک خروجی مشترک تعریف میکند: مدتزمان معمولِ یک وظیفهٔ انسانی که در آن پیشبینی میشود یک عامل AI با سطح اطمینان مشخصی موفق شود. این ارزیابی در هر دسته از برآوردهایی که با هم گزارش میشوند، از مجموعهوظایف مشترک، روش امتیازدهی، روش برازش و مجموعهٔ کوچکی از سازوکارهای پشتیبانِ قابلاستفادهٔ مجدد مانند Triframe و ReAct(در یک پنجره جدید باز میشود) استفاده میکند. وقتی METR مجموعهوظایف را گسترش داد و زیرساخت ارزیابی را از چارچوبی به نام Vivaria به چارچوبی به نام Inspect منتقل کرد، این تغییر را گزارش کرد (بهروزرسانی Time Horizon 1.1(در یک پنجره جدید باز میشود)) و مدلها را تحت چیدمان ارزیابی جدید دوباره ارزیابی کرد. این ارزش یک چیدمان ارزیابی استاندارد، از جمله مجموعهای ثابت از هارنسهاست: میتواند به خوانندگان اطمینان دهد که تفاوت در امتیازها واقعاً بازتابدهندهٔ تفاوت میان سامانههای مورد مقایسه است، نه تغییر در چیدمان اندازهگیری.
پیشنهاد میکنیم گزارشهای ارزیابیِ اشخاص ثالث بیان کنند که چیدمان ارزیابی آنها قرار است از چه نوع ادعایی پشتیبانی کند؛ توضیح دهند آنچه آزموده شده تا چه حد بازتابدهندهٔ آن ادعای گستردهتر است؛ انتخابهای مربوط به هارنس را که نتیجه را شکل دادهاند توصیف کنند؛ مواردی را که این انتخابها میان ارزیابیها تغییر میکنند شرح دهند؛ و شواهد پشتیبان ارائه کنند تا نشان دهند نتیجه چگونه به دست آمده و تا چه حد به آن ادعا تعمیمپذیر است.
با توانمندتر شدن مدلها، تفسیر نادرست امتیازهای ارزیابی آسانتر میشود. نسبت به توانمندیهای واقعی، اگر مدلی تشخیص دهد که در حال ارزیابی است و بهصورت راهبردی عملکردی پایینتر از توان واقعی خود نشان دهد، امتیازهای ارزیابی میتوانند بهطور مصنوعی کاهش یابند. اگر مدل از میانبُری در وظیفه، اعلان، امتیازدهنده یا هارنس سوءاستفاده کند، این امتیازها میتوانند بیش از واقع افزایش یابند. همچنین ممکن است این امتیازها بر اثر آلودگی دادهای، یعنی جایی که مدل از پیش پاسخ را میداند یا میتواند بدون حلکردن وظیفه آن را پیدا کند، یا بر اثر مسائل «معیوب» که مبهم، نادرست امتیازدهیشده، حلنشدنی یا آسیبپذیر در برابر میانبُرهای ناخواسته هستند، دچار اعوجاج شوند. بنابراین گزارشهای ارزیابی باید امتیازهای اصلی را همراه با بحثی دربارهٔ این خطرات ارائه کنند تا خوانندگان بتوانند ارزیابی کنند که آیا امتیازها بازتابدهندهٔ رفتار موردنظر هستند یا خیر.
هارنسها، بودجهها، ابزارها، قواعد امتیازدهی، ناظرها و رویههای بازبینی همگی بر این اثر میگذارند که آیا یک عامل در حال حل وظیفه موردنظر است، از آن اجتناب میکند، آن را از حفظ میداند یا راهی برای دور زدنش پیدا میکند. یک گزارش قابلاعتماد این بررسیها را آشکار میکند: ارزیابان باید هر بار که یک ارزیابی کلی اجرا میشود، نمونهها را از نظر این رفتارها بازبینی کنند.
دستکاری پاداش
دستکاری پاداش به معنای دستیابی به امتیازهای بالای ارزیابی از راههایی است که بازتابدهندهٔ توانمندیِ موردنظر نیستند. در اینجا نگرانی این است که سیستم بهجای انجام کاری که ارزیابی برای سنجش آن طراحی شده، با سوءاستفاده از وظیفه، امتیازدهنده، اعلان یا هارنس اعتبار کسب کند. ارزیابی GPT 5.4 توسط METR(در یک پنجره جدید باز میشود) نشان میدهد که چرا این موضوع اهمیت دارد: با وجود اینکه مدل در نگاه نخست در وظایف با نرخی موفق میشد که معادل افق زمانی حدود ۱۳ ساعت محسوب میشد، بررسی انسانی نشان داد که بخشی از این موفقیتها ناشی از دستکاری پاداش بودهاند؛ و بازنگری نتایج بهگونهای که فقط موارد فاقد دستکاری پاداش را در نظر بگیرد، این برآورد را به حدود ۶ ساعت کاهش داد. ارزیابان باید نیاز به چنین تعدیلهایی را بررسی کنند و هرگاه این تعدیلها لازم باشند، آنها را بهروشنی گزارش دهند: برآورد یک توانمندی زمانی بسیار مفیدتر است که خوانندگان بتوانند ببینند کدام موفقیتهای ظاهری کنار گذاشته شدهاند، چرا کنار گذاشته شدهاند، و نتیجه تا چه اندازه به این قضاوت وابسته است.

امتناعها
مدلها همچنین ممکن است به دلیل سازوکارهای حفاظتی، در ارزیابیهای توانمندی عملکردی پایینتر از توان واقعی خود نشان دهند. یک مدل ممکن است بهجای کاملکردن وظایف ارزیابی، از انجام آنها امتناع کند و به همین دلیل عملکرد ارزیابی پایینتری نسبت به توان واقعی خود داشته باشد. بنابراین گزارشها باید توضیح دهند که آیا امتناعها بخشی از نتایج ارزیابی بودهاند یا خیر؛ و اگر بودهاند، چه تعداد نمونه به دلیل آنها مخدوش شدهاند.
آلودگی دادهای
آلودگی دادهای بیشترین اهمیت را برای بنچمارکهای عمومی یا استفادهشدهٔ مجدد دارد. اگر وظایف، پاسخها یا گونههای بسیار مشابه آنها در دادههای آموزشی ظاهر شده باشند یا عاملی با قابلیت مرور وب بتواند آنها را پیدا کند، عملکرد ممکن است بازتابدهندهٔ حفظکردن یا بازیابی اطلاعات باشد، نه عملکرد مدل. ارزیابان باید در صورت امکان وظایف خصوصی یا تازهساختهشده را ترجیح دهند و بررسی کنند که آیا مدلها پیش از حلکردن، جزئیات ویژهٔ وظیفه را بازتولید میکنند یا خیر.
مسائل معیوب
مسائل معیوب شامل موقعیتهایی مانند مسئلهای هستند که بهطور تصادفی قابل حل نیست. مسائل معیوب آنقدر رایج(در یک پنجره جدید باز میشود) هستند که باید بهعنوان یک ریسک استانداردِ اعتبار در نظر گرفته شوند. اینها شامل پاسخ صحیحِ مرجعِ نادرست، اعلانهای مبهم، فایلهای مفقود، سرویسهای ناپایدار، معیارهای امتیازدهی ناعادلانه و محیطهایی میشوند که میانبرهایی مانند فایلهای پاسخ پنهان یا تاریخچه محل نگهداری حاوی پچ مرجع را آشکار میکنند.
کمکاری راهبردی
کمکاری راهبردی توسط یک مدل یا سامانه به معنای عملکرد عامدانه پایینتر از توان واقعی است، زمانی که عملکرد قوی با هدفی دیگر در تعارض باشد. ارزیابی GPT‑5.5 توسط Apollo(در یک پنجره جدید باز میشود) این موضوع را با ایجاد زمینهای آزمود که در آن مدل درک میکرد امتیازهای بالای ارزیابی ممکن است به یادگیریزدایی یا جلوگیری از استقرار منجر شوند. با این حال، GPT‑5.5 همچنان پاسخهای درست ارائه داد که نشاندهندهٔ شواهد رفتاری اندک از کمکاری راهبردی بود3. اما بررسی ردپاهای استدلال، زمینهٔ مهمی به این نتیجه افزود: Apollo در ۵۲٪ از نمونههای مربوط به شرایط کمکاری راهبردی، نشانههایی با شدت متوسط یا بیشتر از آگاهی نسبت به ارزیابی همراستایی یافت، در حالی که این میزان در نمونههای خلافواقع ۰٪ بود. این شواهد تفسیر نتیجه را پیچیدهتر میکنند، اما در نهایت اطلاعات بیشتری در اختیار خوانندگان قرار میدهند: خوانندگان میتوانند هم نتیجهٔ رفتاری اطمینانبخش را ببینند و هم دلیلی را که ایجاب میکند در تفسیر بیشازحد آن محتاط باشند.
ادعاهای قوی هم به هارنس مناسب برای استخراج رفتار نیاز دارند و هم به بررسیهای اعتبارسنجی برای نشاندادن اینکه نتیجه معتبر است. دیدگاه ما مبنی بر اینکه هارنسها و بررسیهای اعتبارسنجی بخشی از نتیجهٔ ارزیابی هستند، نحوهٔ پشتیبانی عملی ما از ارزیابیهای اشخاص ثالث را شکل میدهد:
- ما راهنماییهای مشخصی دربارهٔ بیشینهسازی استخراج توانمندی در اختیار ارزیابان قرار میدهیم.
- از ارزیابان توانمندی میخواهیم از Codex بهعنوان حداقل مبنای مشترک برای مدلهای OpenAI استفاده کنند: آزمونها باید دستکم یک خط مبنا را از طریق همان رابط عاملمحوری اجرا کنند که کاربران احتمالاً به آن تکیه خواهند کرد، نه فقط از طریق یک رابط سادهسازیشدهٔ مدل.
- همچنین در مواردی که برای ارزیابی فریب، کمکاری راهبردی یا آگاهی از ارزیابی لازم باشد، ردپاهای استدلال و سایر مصنوعات میانی را در دسترس قرار میدهیم. METR و Apollo از زمان GPT‑5 در ارزیابیهای OpenAI از این دسترسی استفاده کردهاند.
- در نهایت، ما پژوهش برای درک عمیقتر این موضوع را در اولویت قرار میدهیم که انتخابهای هارنس چه زمانی و چگونه بهطور معنادار نتایج را تغییر میدهند؛ از مدیریت زمینه و دسترسی به ابزار گرفته تا رفتار تلاش مجدد، امتیازدهی و بودجههای منابع.
هدف این توصیهها فقط بهبود گزارشهای ارزیابیِ فردی نیست، بلکه کمک به شکلگیری استانداردهای نوظهور ملی (در یک پنجره جدید باز میشود)و بینالمللی (در یک پنجره جدید باز میشود)برای ارزیابی و گزارشدهی دربارهٔ AI پیشرو نیز هست. از این پس، استانداردهای ارزیابی اشخاص ثالث باید جزئیات کافی را الزام کنند تا تصمیمگیران بتوانند بفهمند ارزیابیهای مشخص از چه ادعاهایی پشتیبانی میکنند، چه سیستمی آزموده شده، نتیجه چگونه استخراج شده، و ارزیابان چگونه اعتبار آن را بررسی کردهاند. برای سیستمهای پیشرو که روی وظایفی آزموده میشوند که در آنها توانمندیهای عاملمحور اهمیت دارد، جزئیات باید شامل موارد زیر باشد (مشروط به ملاحظات امنیتی یا محرمانگی):
- ادعا: اینکه ارزیابی سامانهها را مقایسه میکند، سقف توانمندی را برآورد میکند، یا سازوکارهای حفاظتی را میآزماید.
- زمینه ارزیابی: جزئیات کافی دربارهٔ وظایف یا توزیع وظایف، تا خوانندگان بفهمند ارزیابی دقیقاً چه مهارتها، رفتارها یا حالتهای شکستی را میآزماید.
- سامانه آزمودهشده: مدل، تنظیمات استدلال، دسترسی به ابزارها، هارنس و سازوکارهای حفاظتی.
- بودجه: نوبتها، توکنها، تلاشها/تلاشهای مجدد، زمان سپریشده واقعی، هزینه استنتاج، و در صورت کاربرد، هزینه مورد انتظار برای هر حل موفق.
- روشهای استخراج قابلیت: انتخابهای هارنسِ بهکاررفته برای استخراج نتیجه، و اینکه آنچه آزموده شده تا چه اندازه بازتاب ادعای گستردهتری است که مطرح میشود.
- بررسیهای اعتبارسنجی: اینکه ارزیابان چگونه دستکاری پاداش، آگاهی از ارزیابی، آلودگی دادهای، امتناعها، کمکاری راهبردی و سایر رفتارهایی را بررسی کردهاند که میتوانند نتیجه را تضعیف کنند؛ از جمله اینکه موارد تأییدشده چگونه بر امتیازدهی یا تفسیر اثر گذاشتهاند.
استانداردهایی که انتخابهای مربوط به هارنس یا بررسیهای اعتبارسنجی را نادیده میگیرند، ممکن است تواناییهای یک سامانه را کمتر از واقع نشان دهند یا اطمینان نسبت به یک ادعای ایمنی را بیش از حد جلوه دهند. ساخت هارنسهای قوی و روشهای استخراج توانمندی همچنان یک حوزهٔ پژوهشی باز است و باید محور بررسیها و سرمایهگذاریهای بیشتر قرار گیرد.
نویسنده
واژهنامه
از آنجا که در این مطلب از چندین اصطلاح تخصصی استفاده میکنیم، در ادامه واژهنامهای آوردهایم که به زبان ساده توضیح میدهد منظورمان از آنها چیست:
سامانه عاملمحور: سامانهای که میتواند یک وظیفه را در چندین گام پیش ببرد، از ابزارها استفاده کند، وضعیت وظیفه را حفظ کند و در یک محیط عمل کند، نه اینکه فقط یک پاسخ واحد به یک اعلان برگرداند.
ارزیابی جامع: داوری گستردهتر دربارهٔ اینکه آیا شواهد از یک ادعا، نتیجهگیری دربارهٔ ریسک، یا موضع اطمینانبخشی پشتیبانی میکنند یا خیر که ممکن است بر دادههای ارزیابی، بررسی اسناد، مصاحبه، بررسی فرایند و سایر مستندات و شواهد مرتبط مبتنی باشد.
فشردهسازی زمینه: روشی برای حفظ زمینه مرتبط با وظیفه در اجرای طولانی.
پیکربندی: سامانه دقیقِ آزمودهشده و شرایط ارزیابی، فراتر از نام مدل.
آلودگی: وقتی وظایف ارزیابی، پاسخها یا گونههای بسیار نزدیک آنها در دادههای آموزشی یک مدل ظاهر شده باشند یا هنگام ارزیابی قابل کشف باشند (مثلاً از طریق ابزارهایی مانند مرور وب)، بهطوریکه عملکرد، توان تعمیم واقعی مدل را بیشازحد نشان دهد.
استخراج قابلیت: فرایند تلاش برای استخراج یک قابلیت یا رفتار از یک سامانه در طول یک ارزیابی کلی.
محیط: بستر وظیفهای که در آن یک سامانه آزموده میشود. این شامل مواردی مانند وضعیت بیرونیای است که عامل در طول ارزیابی با آن تعامل میکند و آن را تغییر میدهد، مانند یک محیط ترمینال یا یک بازی ویدیویی.
ارزیابی: آزمون یا سنجش مشخص درون یک ارزیابی کلی.
آگاهی از ارزیابی: آگاهی از ارزیابی به این اشاره دارد که یک مدل تشخیص دهد، یا به نظر برسد تشخیص میدهد، که در حال ارزیابی شدن است و احتمالاً رفتار خود را در پاسخ به آن زمینه تنظیم کند. این میتواند به این صورت ظاهر شود که مدل بهطور صریح درباره آزموده شدن خود استدلال کند، هدف ارزیابی را استنباط کند، یا چون انتظار دارد نتیجه بر نحوه قضاوت یا استقرار آن اثر بگذارد، رفتار خود را تغییر دهد.
هارنس: ساختاری روبهروی مدل که به یک مدل امکان میدهد یک وظیفه را انجام دهد: اعلانها، ابزارها، رابطها، منطق کنترلی، حافظه، تلاشهای مجدد، اعتبارسنجها و دیگر ساختارهای پشتیبان پیرامون مدل.
بیشینهسازی استخراج توانمندی: آزمونی با هدف یافتن قویترین عملکرد معتبر یا حالت شکست معتبری که یک سامانه میتواند در چارچوب بودجهای تعریفشده بروز دهد، بهجای اینکه سیستم صرفاً یکبار از طریق یک هارنس استاندارد اجرا شود.
ردپاهای استدلال: سوابق استدلال میانی مدل در طول یک آزمون.
دستکاری پاداش: کسب امتیاز بالا از طریق میانبُر یا رفتاری خارج از مقصود ارزیاب.
محافظها: فیلترها، ناظرها، سامانههای مسدودکننده و دیگر حفاظتهایی که پیرامون یک مدل یا محصول اعمال میشوند.
کمکاری راهبردی: عملکرد عامدانه پایینتر از توان واقعی در یک ارزیابی، بهگونهای که اعتبار نتیجه را تضعیف کند.
امتیازدهی: روشی که برای تعیین نحوه سنجش عملکرد یا موفقیت یک وظیفه استفاده میشود.
هارنس استاندارد: هارنسی که میان سامانهها یکسان نگه داشته میشود، نه اینکه برای یک مدل یا وظیفه خاص سفارشیسازی شود، تا تفاوت نتایج آسانتر به مدلِ آزمودهشده نسبت داده شود.
افق زمانی: طولِ وظیفهای که یک سیستم میتواند با میزان اطمینان مشخصی کامل کند؛ اغلب بهصورت مدتزمانی بیان میشود که همان وظیفه برای یک انسان طول میکشد.
دسترسی به ابزار: ابزارهای بیرونیِ در دسترس مدل در طول ارزیابی کلی.
مسیرهای اجرا: مسیرهای گامبهگامی که یک سامانه هنگام پیش بردن یک وظیفه دنبال میکند.
جیلبریک فراگیر: الگوی حملهای واحد که باعث میشود یک سیستم در اعلانها یا وظایف متعدد، سازوکارهای حفاظتی را دور بزند.
پانویسها
- 1
این مطلب تلاش نمیکند تعیین کند که اشخاص ثالث باید ادعاهای مربوط به ناهمراستایی یا گرایشهای رفتاری را چگونه ارزیابی کنند. برای فهم اینکه انتخابهای هارنس چگونه بر این ارزیابیها اثر میگذارند، کار بیشتری لازم است؛ بهویژه چون هارنسهایی که از رفتارهای دارای افق زمانی بلندتر پشتیبانی میکنند، ممکن است انواع رفتارهای ناخواستهای را هم تغییر دهند که ارزیابان باید پایش کنند.
- 2
HAL(در یک پنجره جدید باز میشود) نمونه دیگری از ارزیابیهای عامل ارائه میکند: در CORE-Bench(در یک پنجره جدید باز میشود)، تغییر هارنس به Claude Code هم عملکرد اندازهگیریشده و هم نمایه هزینه را روی همان بنچمارک تغییر داد. نمونههای عمومی دیگر شامل SWE-agent(در یک پنجره جدید باز میشود)، SeeAct(در یک پنجره جدید باز میشود)، ScienceAgentBench(در یک پنجره جدید باز میشود)، CORE-Bench(در یک پنجره جدید باز میشود) و Inspect Cyber(در یک پنجره جدید باز میشود) هستند؛ هرکدام به خوانندگان میگویند چه رابط یا هارنسی آن امتیاز را تولید کرده است.
- 3
کسب امتیاز ۱۰۰٪ در هر دو گونهٔ پرسشوپاسخِ کمکاری راهبردی و ۹۹٬۶٪ در وظیفهٔ کمکاری راهبردیِ مبتنی بر فریب راهبردی.


