کمک به توسعهدهندگان در ساخت تجربههای امنتر AI برای نوجوانان
معرفی مجموعهای از سیاستهای ایمنی نوجوانان که بهصورت اعلان برای gpt-oss-safeguard قالببندی شدهاند
امروز، سیاستهای ایمنی مبتنی بر اعلان(در یک پنجره جدید باز میشود) را منتشر میکنیم تا به توسعهدهندگان کمک کنیم محافظتهای متناسب با سن برای نوجوانان ایجاد کنند. این سیاستها که برای کار با مدل ایمنی با وزنهای باز ما، gpt-oss-safeguard(در یک پنجره جدید باز میشود)، ساخته شدهاند، فرایند تبدیل الزامات ایمنی به ردهبندهای قابلاستفاده برای سیستمهای دنیای واقعی را برای توسعهدهندگان سادهتر میکنند.
ما الگوهای وزن باز را منتشر کردیم تا دسترسی به هوش مصنوعی قدرتمند را دموکراتیک کنیم و از نوآوری گسترده حمایت کنیم. در عین حال، ما معتقدیم که ایمنی و نوآوری دست در دست هم پیش میروند و توسعهدهندگان باید به مدلهای توانمند، و نیز ابزارها و سیاستهای لازم برای استقرار ایمن و مسئولانهٔ آنها، دسترسی داشته باشند. ما این سیاستها را برای حمایت از توسعهدهندگان در تلاشهای ایمنیشان برای محافظت از کاربران جوان، با دریافت نظرات از سازمانهای خارجی معتبری از جمله Common Sense Media(در یک پنجره جدید باز میشود) و everyone.ai(در یک پنجره جدید باز میشود) تدوین کردیم.
ما میدانیم که نوجوانان و بزرگسالان نیازهای متفاوتی دارند و نوجوانان به محافظتهای بیشتری نیاز دارند. این سیاستها طراحی شدهاند تا به توسعهدهندگان کمک کنند این تفاوتها را در نظر بگیرند و تجربیاتی ایجاد کنند که هم توانمندساز و هم برای کاربران کمسنتر مناسب باشند.
ما مدتهاست متعهد به ساخت هوش مصنوعیای بودهایم که فرصتها را برای جوانان گسترش میدهد و در عین حال آنها را ایمن نگه میدارد. بهعنوان بخشی از این کار، ما جزئیات مدل(در یک پنجره جدید باز میشود)—دستورالعملهایی که رفتار مورد نظر برای مدلهای OpenAI را تعریف میکنند—بهروز کردیم تا اصول زیر ۱۸ سال (U18)(در یک پنجره جدید باز میشود) را شامل شود و برای محافظت بهتر از کاربران کمسنوسالتر، تدابیر حفاظتی در سطح محصول مانند کنترل های والدین و پیشبینی سن را معرفی کردیم. ما همچنین از طریق نقشه راه ایمنی نوجوانان خواستار محافظتهای سراسری در سطح صنعت شدهایم.
عرضه امروز بر آن پایه بنا شده است. ما این سیاستهای ایمنی را در اختیار توسعهدهندگان قرار میدهیم تا از آنها در استقرار محافظتهای ایمنی برای نوجوانان پشتیبانی کنیم و به دموکراتیکسازی دسترسی در سراسر اکوسیستم وزنهای باز کمک کنیم.
در حالی که طبقهبندهای ایمنی مانند gpt-oss-safeguard میتوانند محتوای مضر را شناسایی کنند، به تعریفهای روشن از اینکه آن محتوا چیست وابستهاند. در عمل، یکی از بزرگترین چالشهایی که توسعهدهندگان با آن روبرو هستند، تعریف سیاستهایی است که بهدرستی ریسکهای مختص نوجوانان را پوشش دهند و بتوان آنها را بهطور سازگار در سیستمهای واقعی اعمال کرد.
حتی تیمهای باتجربه نیز اغلب برای تبدیل اهداف ایمنی سطحبالا به قواعدی دقیق و عملیاتی با مشکل مواجه میشوند، بهویژه از آنجا که این کار هم به تخصص موضوعی و هم به دانش عمیق در زمینه هوش مصنوعی نیاز دارد. این میتواند به شکافهایی در حفاظت، اجرای ناسازگار، یا پالایش بیش از حد گسترده منجر شود. سیاستهای شفاف و دارای محدوده مشخص، زیربنایی حیاتی برای سیستمهای ایمنی مؤثر هستند.
برای رسیدگی به این چالش، ما مجموعهای از سیاستهای ایمنی(در یک پنجره جدید باز میشود) را منتشر میکنیم که متناسب با خطرات رایجی است که نوجوانان با آنها مواجهاند و بر پایه بررسی دقیق پژوهشهای موجود درباره تفاوتهای رشدی منحصربهفرد نوجوانان تدوین شده است. این سیاستها در قالب اعلانها ساختاربندی شدهاند که میتوان آنها را مستقیماً با gpt-oss-safeguard(در یک پنجره جدید باز میشود) و دیگر مدل استدلال استفاده کرد و به توسعهدهندگان امکان میدهند استانداردهای ایمنی سازگار را در سراسر سیستمهای خود آسانتر اعمال کنند.
انتشار اولیه شامل سیاستهای مربوط به موارد زیر است:
- محتوای خشونت گرافیکی
- محتوای جنسی تصویری
- الگوها و رفتارهای ناسالم مرتبط با تصویر بدن
- فعالیتها و چالشهای خطرناک
- نقشآفرینی عاشقانه یا خشونتبار
- کالاها و خدمات دارای محدودیت سنی
میتوان از این سیاستها برای فیلتر کردن محتوا در زمان واقعی و همچنین تحلیل آفلاین محتوایی استفاده کرد که کاربران تولید میکنند.
با ساختاربندی سیاستها بهصورت اعلان، توسعهدهندگان میتوانند آنها را آسانتر در گردشهای کاری موجود ادغام کنند، آنها را با موارد استفاده خود تطبیق دهند و در طول زمان آنها را بهبود دهند.

ما با سازمانهای خارجی، از جمله Common Sense Media(در یک پنجره جدید باز میشود) و everyone.ai(در یک پنجره جدید باز میشود) ، برای کمک به تدوین این سیاستها همکاری کردیم. تخصص آنها به تعیین دامنه محتوای مورد پوشش، تقویت ساختار پرامپتها و دقیقتر کردن موارد مرزی برای ارزیابی کمک کرده است.
این کار بازتابدهندهٔ تلاشی مداوم برای همکاری با متخصصان و اکوسیستم گستردهتر بهمنظور بهبود نحوه حمایت سیستمهای هوش مصنوعی از جوانان است.
«یکی از بزرگترین شکافها در ایمنی هوش مصنوعی برای نوجوانان، نبودِ سیاستهای روشن و اجرایی بوده است که توسعهدهندگان بتوانند بر اساس آنها کار خود را پیش ببرند. خیلی وقتها، توسعهدهندگان از صفر شروع میکنند. این سیاستهای مبتنی بر اعلان به ایجاد یک کف ایمنی معنادار در سراسر این زیستبوم کمک میکنند، و چون بهصورت متنباز منتشر میشوند، میتوان آنها را به مرور زمان تطبیق داد و بهبود بخشید. «دلگرمکننده است که میبینیم این نوع زیرساخت بهطور گسترده در دسترس قرار میگیرد، و امیدواریم این امر زمینهساز نقاط شروع مشترک بیشتری برای ایمنی جوانان در سراسر صنعت باشد.»
—Robbie Torney، رئیس هوش مصنوعی و ارزیابیهای دیجیتال، Common Sense Media
«تلاشهایی از این دست که خطمشیهای ایمنی جوانان را عملیاتیتر میکنند، ارزشمند هستند زیرا به تبدیل دانش تخصصی به راهنماییای کمک میکنند که بتوان از آن در سیستمهای واقعی استفاده کرد. خطمشیهای محتوا نخستین گام مهم هستند و همچنین مسیر را برای کار گستردهتر دربارهٔ اینکه رفتار مدل چگونه میتواند بهمرور زمان ریسکهای مرتبط با جوانان را شکل دهد، باز میکنند. با الهام از این کار و پژوهشهای خودمان، everyone.ai(در یک پنجره جدید باز میشود) نیز یک خطمشی رفتاری اولیه با تمرکز بر ریسکهایی مانند انحصارطلبی و اتکای بیش از حد ایجاد کرده است.»
—دکتر Mathilde Cerioli، دانشمند ارشد در everyone.AI
این سیاستها قرار است نقطه شروعی باشند، نه تعریفی جامع یا نهایی از ایمنی نوجوانان و نه تضمینی برای آن. هر اپلیکیشنی دارای ریسکها، مخاطبان و زمینههای منحصربهفرد خود است، و توسعهدهندگان در بهترین موقعیت برای درک ریسکهایی هستند که محصولات و یکپارچهسازیهای هوش مصنوعی آنها ممکن است ایجاد کنند. ما اکیداً توسعهدهندگان را تشویق میکنیم که این سیاستها را بر اساس نیازهای خاص خود تطبیق و گسترش دهند و آنها را با سایر تدابیر حفاظتی، مانند تصمیمات طراحی محصول، کنترلهای کاربر، شفافیت مناسب برای نوجوانان، سامانههای نظارتی و پاسخهای سنجیده و متناسب با سن ترکیب کنند.
ما باور داریم که رویکرد لایهلایهٔ دفاع در عمق برای ساخت سامانههای هوش مصنوعی ایمنتر ضروری است. این سیاستها بر اساس تجربه داخلی ما تدوین شدهاند، اما بازتاب تمام ابعاد سیاستها یا سازوکارهای حفاظتی داخلی OpenAI نیستند.
ما این سیاستها را بهصورت متنباز از طریق جامعه مدل ROOST(در یک پنجره جدید باز میشود) منتشر میکنیم تا همکاری و تکرار را تشویق کنیم. برای مشارکت، ارائه بازخورد یا بهاشتراکگذاری خطمشیهای بیشترِ ایمنی نوجوانان، به محل نگهداری RMC GitHub(در یک پنجره جدید باز میشود) مراجعه کنید.
توسعهدهندگان و سازمانها میتوانند این سیاستها را با کاربردهای خاص خود تطبیق دهند، به زبانهای مختلف ترجمه کنند و آنها را گسترش دهند تا حوزههای ریسک بیشتری را پوشش دهند. در طول زمان، امیدواریم این امر به ایجاد پایهای مستحکمتر و مشترکتر برای پیادهسازی سیاستهای ایمنی در سامانههای هوش مصنوعی کمک کند.
برای شروع کار با gpt-oss-safeguard، آن را از Hugging Face(در یک پنجره جدید باز میشود) دانلود کنید.


