۵ فروردین ۱۴۰۵

معرفی برنامه OpenAI Safety Bug Bounty

آزمایش مسائل ایمنی و سوءاستفاده در سراسر OpenAI

امروز، OpenAI یک برنامهٔ عمومی Safety Bug Bounty⁠(در یک پنجره جدید باز می‌شود) را با تمرکز بر شناسایی سوءاستفاده از هوش مصنوعی و خطرات ایمنی در سراسر محصولات خود راه‌اندازی می‌کند. با پیشرفت سریع فناوری هوش مصنوعی، راه‌های بالقوه سوءاستفاده از آن نیز افزایش می‌یابد. هدف ما این است که اطمینان حاصل کنیم سیستم‌های ما در برابر استفاده نادرست یا سوءاستفاده‌ای که می‌تواند به آسیب واقعی منجر شود، ایمن و امن باقی بمانند.

این برنامه جدید با پذیرش مواردی که خطرات سوءاستفاده و ایمنی معناداری ایجاد می‌کنند، حتی اگر معیارهای یک آسیب‌پذیری امنیتی را نداشته باشند، مکمل Security Bug Bounty⁠(در یک پنجره جدید باز می‌شود) شرکت OpenAI خواهد بود. از طریق این برنامه، ما مشتاقانه منتظر ادامه همکاری با پژوهشگران حوزه ایمنی و امنیت هستیم تا به ما در شناسایی و رسیدگی به مسائلی کمک کنند که خارج از چارچوب آسیب‌پذیری‌های امنیتی متعارف قرار می‌گیرند اما همچنان خطرات واقعی ایجاد می‌کنند. موارد ارسالی توسط تیم‌های ایمنی و امنیتی Bug Bounty در OpenAI بررسی و اولویت‌بندی خواهند شد و بسته به دامنه و مسئولیت، ممکن است بین این دو برنامه جابه‌جا شوند.

نمای کلی برنامه

این برنامه جدید Safety Bug Bounty⁠(در یک پنجره جدید باز می‌شود) بر سناریوهای ایمنی مختص هوش مصنوعی که در زیر ذکر شده‌اند متمرکز است:

خطرات عامل‌محور، از جمله MCP

تزریق اعلان و استخراج داده توسط اشخاص ثالث: زمانی که متن مهاجم بتواند به‌طور قابل‌اعتماد عامل قربانی (از جمله مرورگر، عامل ChatGPT و محصولات عامل‌محور مشابه) را در اختیار بگیرد و آن را فریب دهد تا اقدامی زیان‌بار انجام دهد یا اطلاعات حساس کاربر را افشا کند. این رفتار باید حداقل در ۵۰٪ مواقع بازتولید شود.
یک محصول عامل‌محور OpenAI در وب‌سایت OpenAI در مقیاس وسیع یک اقدام غیرمجاز انجام می‌دهد.
یک محصول عامل‌محور OpenAI اقدامی بالقوه مضر را که در بالا ذکر نشده است، انجام می‌دهد. گزارش‌های معتبر در اینجا باید آسیب محتمل و قابل‌توجه را نشان دهند.
هرگونه آزمایش برای خطر MCP باید با شرایط خدمات هر شخص ثالثی مطابقت داشته باشد.

اطلاعات اختصاصی OpenAI

خروجی‌های مدل‌هایی که اطلاعات اختصاصی مرتبط با استدلال را برمی‌گردانند.
آسیب‌پذیری‌هایی که سایر اطلاعات اختصاصی OpenAI را افشا می‌کنند.

یکپارچگی حساب و پلتفرم

آسیب‌پذیری‌ها در یکپارچگی حساب کاربری و سیگنال‌های یکپارچگی پلتفرم، مانند دور زدن کنترل‌های ضد خودکارسازی، دستکاری سیگنال‌های اعتماد حساب کاربری، فرار از محدودیت‌ها/تعلیق‌ها/مسدودسازی‌های حساب کاربری، و مسائل مشابه.
مسائلی که به کاربران اجازه می‌دهند به ویژگی‌ها، داده‌ها یا قابلیت‌هایی فراتر از مجوزهای مجاز دسترسی پیدا کنند، باید به Security Bug Bounty⁠(در یک پنجره جدید باز می‌شود) گزارش شوند.

اگرچه جیلبریک‌ها خارج از دامنهٔ این برنامه است، اما به‌صورت دوره‌ای کمپین‌های خصوصی جایزه کشف باگ را با تمرکز بر انواع خاصی از آسیب‌ها مانند مسائل مربوط به محتوای Biorisk در عامل ChatGPT⁠ و GPT‑5⁠ اجرا می‌کنیم. از پژوهشگران علاقه‌مند دعوت می‌کنیم هر زمان که این برنامه‌ها ارائه شوند، برای آن‌ها درخواست دهند.

خارج از دسته‌بندی‌های فوق، اگر پژوهشگران نقص‌هایی را شناسایی کنند که مسیرهای مستقیمی برای آسیب‌زدن به کاربران فراهم می‌کنند و گام‌های اصلاحی مشخص، مجزا و قابل‌اجرا دارند، این موارد ممکن است به‌صورت موردی در دامنهٔ دریافت پاداش در نظر گرفته شوند. دور زدن‌های کلیِ سیاست‌های محتوایی، بدون تأثیر قابل‌اثبات بر ایمنی یا سوءاستفاده، خارج از دامنهٔ این برنامه هستند. مثلاً «جیلبریک‌ها» که باعث می‌شوند مدل از زبان توهین‌آمیز استفاده کند یا اطلاعاتی ارائه دهد که به‌راحتی از طریق موتورهای جست‌وجو قابل یافتن است، خارج از دامنه هستند.

نحوه مشارکت

پژوهشگرانی که مایل به شرکت هستند، می‌توانند از طریق برنامه Safety Bug Bounty⁠(در یک پنجره جدید باز می‌شود) درخواست دهند. ما مشتاقانه منتظر همکاری با پژوهشگران، هکرهای اخلاق‌مدار و جامعه ایمنی و امنیت در مسیر دستیابی به یک اکوسیستم امن هوش مصنوعی هستیم.

۲۰۲۶

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

OpenAI و Hugging Face به رخداد امنیتی رسیدگی می‌کنند

امنیت۳۰ تیر ۱۴۰۵

Safety and alignment in an era of long-horizon models

ایمنی۲۹ تیر ۱۴۰۵

Why teens deserve access to safe AI

ایمنی۲۵ تیر ۱۴۰۵