۴ فروردین ۱۴۰۵

کمک به توسعه‌دهندگان در ساخت تجربه‌های امن‌تر AI برای نوجوانان

معرفی مجموعه‌ای از سیاست‌های ایمنی نوجوانان که به‌صورت اعلان برای gpt-oss-safeguard قالب‌بندی شده‌اند

در حال بارگذاری…

امروز، سیاست‌های ایمنی مبتنی بر اعلان⁠(در یک پنجره جدید باز می‌شود) را منتشر می‌کنیم تا به توسعه‌دهندگان کمک کنیم محافظت‌های متناسب با سن برای نوجوانان ایجاد کنند. این سیاست‌ها که برای کار با مدل ایمنی با وزن‌های باز ما، gpt-oss-safeguard⁠(در یک پنجره جدید باز می‌شود)، ساخته شده‌اند، فرایند تبدیل الزامات ایمنی به رده‌بندهای قابل‌استفاده برای سیستم‌های دنیای واقعی را برای توسعه‌دهندگان ساده‌تر می‌کنند.

ما الگوهای وزن باز را منتشر کردیم تا دسترسی به هوش مصنوعی قدرتمند را دموکراتیک کنیم و از نوآوری گسترده حمایت کنیم. در عین حال، ما معتقدیم که ایمنی و نوآوری دست در دست هم پیش می‌روند و توسعه‌دهندگان باید به مدل‌های توانمند، و نیز ابزارها و سیاست‌های لازم برای استقرار ایمن و مسئولانهٔ آن‌ها، دسترسی داشته باشند. ما این سیاست‌ها را برای حمایت از توسعه‌دهندگان در تلاش‌های ایمنی‌شان برای محافظت از کاربران جوان، با دریافت نظرات از سازمان‌های خارجی معتبری از جمله Common Sense Media⁠(در یک پنجره جدید باز می‌شود) و everyone.ai⁠(در یک پنجره جدید باز می‌شود) تدوین کردیم.

ما می‌دانیم که نوجوانان و بزرگسالان نیازهای متفاوتی دارند و نوجوانان به محافظت‌های بیشتری نیاز دارند. این سیاست‌ها طراحی شده‌اند تا به توسعه‌دهندگان کمک کنند این تفاوت‌ها را در نظر بگیرند و تجربیاتی ایجاد کنند که هم توانمندساز و هم برای کاربران کم‌سن‌تر مناسب باشند.

در راستای اقدامات گسترده‌تر ما برای حفاظت از نوجوانان

ما مدت‌هاست متعهد به ساخت هوش مصنوعی‌ای بوده‌ایم که فرصت‌ها را برای جوانان گسترش می‌دهد و در عین حال آن‌ها را ایمن نگه می‌دارد. به‌عنوان بخشی از این کار، ما جزئیات مدل⁠(در یک پنجره جدید باز می‌شود)—دستورالعمل‌هایی که رفتار مورد نظر برای مدل‌های OpenAI را تعریف می‌کنند—به‌روز کردیم تا اصول زیر ۱۸ سال (U18)⁠(در یک پنجره جدید باز می‌شود) را شامل شود و برای محافظت بهتر از کاربران کم‌سن‌وسال‌تر، تدابیر حفاظتی در سطح محصول مانند کنترل های والدین⁠ و پیش‌بینی سن⁠ را معرفی کردیم. ما همچنین از طریق نقشه راه ایمنی نوجوانان⁠ خواستار محافظت‌های سراسری در سطح صنعت شده‌ایم.

عرضه امروز بر آن پایه بنا شده است. ما این سیاست‌های ایمنی را در اختیار توسعه‌دهندگان قرار می‌دهیم تا از آن‌ها در استقرار محافظت‌های ایمنی برای نوجوانان پشتیبانی کنیم و به دموکراتیک‌سازی دسترسی در سراسر اکوسیستم وزن‌های باز کمک کنیم.

تبدیل ایمنی نوجوانان به سیاست‌های روشن و قابل‌اجرا

در حالی که طبقه‌بندهای ایمنی مانند gpt-oss-safeguard می‌توانند محتوای مضر را شناسایی کنند، به تعریف‌های روشن از اینکه آن محتوا چیست وابسته‌اند. در عمل، یکی از بزرگ‌ترین چالش‌هایی که توسعه‌دهندگان با آن روبرو هستند، تعریف سیاست‌هایی است که به‌درستی ریسک‌های مختص نوجوانان را پوشش دهند و بتوان آن‌ها را به‌طور سازگار در سیستم‌های واقعی اعمال کرد.

حتی تیم‌های باتجربه نیز اغلب برای تبدیل اهداف ایمنی سطح‌بالا به قواعدی دقیق و عملیاتی با مشکل مواجه می‌شوند، به‌ویژه از آن‌جا که این کار هم به تخصص موضوعی و هم به دانش عمیق در زمینه هوش مصنوعی نیاز دارد. این می‌تواند به شکاف‌هایی در حفاظت، اجرای ناسازگار، یا پالایش بیش از حد گسترده منجر شود. سیاست‌های شفاف و دارای محدوده مشخص، زیربنایی حیاتی برای سیستم‌های ایمنی مؤثر هستند.

کمک به توسعه‌دهندگان برای عملیاتی‌سازی ایمنی نوجوانان

برای رسیدگی به این چالش، ما مجموعه‌ای از سیاست‌های ایمنی⁠(در یک پنجره جدید باز می‌شود) را منتشر می‌کنیم که متناسب با خطرات رایجی است که نوجوانان با آن‌ها مواجه‌اند و بر پایه بررسی دقیق پژوهش‌های موجود درباره تفاوت‌های رشدی منحصربه‌فرد نوجوانان تدوین شده است. این سیاست‌ها در قالب اعلان‌ها ساختاربندی شده‌اند که می‌توان آن‌ها را مستقیماً با gpt-oss-safeguard⁠(در یک پنجره جدید باز می‌شود) و دیگر مدل استدلال استفاده کرد و به توسعه‌دهندگان امکان می‌دهند استانداردهای ایمنی سازگار را در سراسر سیستم‌های خود آسان‌تر اعمال کنند.

انتشار اولیه شامل سیاست‌های مربوط به موارد زیر است:

محتوای خشونت گرافیکی
محتوای جنسی تصویری
الگوها و رفتارهای ناسالم مرتبط با تصویر بدن
فعالیت‌ها و چالش‌های خطرناک
نقش‌آفرینی عاشقانه یا خشونت‌بار
کالاها و خدمات دارای محدودیت سنی

می‌توان از این سیاست‌ها برای فیلتر کردن محتوا در زمان واقعی و همچنین تحلیل آفلاین محتوایی استفاده کرد که کاربران تولید می‌کنند.

با ساختاربندی سیاست‌ها به‌صورت اعلان، توسعه‌دهندگان می‌توانند آن‌ها را آسان‌تر در گردش‌های کاری موجود ادغام کنند، آن‌ها را با موارد استفاده خود تطبیق دهند و در طول زمان آن‌ها را بهبود دهند.

نموداری که دسته‌بندی‌های سیاست‌های ایمنی نوجوانان و محتوای مرتبط با نوجوانان را نشان می‌دهد که به سیستم تدابیر ایمنی GPT-OSS وارد می‌شوند؛ سیستمی که تصمیم‌های سیاستی را بر اساس استدلال داخلی تولید می‌کند.

با مشارکت کارشناسان خارجی توسعه یافته است

ما با سازمان‌های خارجی، از جمله Common Sense Media⁠(در یک پنجره جدید باز می‌شود) و everyone.ai⁠(در یک پنجره جدید باز می‌شود) ، برای کمک به تدوین این سیاست‌ها همکاری کردیم. تخصص آن‌ها به تعیین دامنه محتوای مورد پوشش، تقویت ساختار پرامپت‌ها و دقیق‌تر کردن موارد مرزی برای ارزیابی کمک کرده است.

این کار بازتاب‌دهندهٔ تلاشی مداوم برای همکاری با متخصصان و اکوسیستم گسترده‌تر به‌منظور بهبود نحوه حمایت سیستم‌های هوش مصنوعی از جوانان است.

«یکی از بزرگ‌ترین شکاف‌ها در ایمنی هوش مصنوعی برای نوجوانان، نبودِ سیاست‌های روشن و اجرایی بوده است که توسعه‌دهندگان بتوانند بر اساس آن‌ها کار خود را پیش ببرند. خیلی وقت‌ها، توسعه‌دهندگان از صفر شروع می‌کنند. این سیاست‌های مبتنی بر اعلان به ایجاد یک کف ایمنی معنادار در سراسر این زیست‌بوم کمک می‌کنند، و چون به‌صورت متن‌باز منتشر می‌شوند، می‌توان آن‌ها را به مرور زمان تطبیق داد و بهبود بخشید. «دلگرم‌کننده است که می‌بینیم این نوع زیرساخت به‌طور گسترده در دسترس قرار می‌گیرد، و امیدواریم این امر زمینه‌ساز نقاط شروع مشترک بیشتری برای ایمنی جوانان در سراسر صنعت باشد.»

—Robbie Torney، رئیس هوش مصنوعی و ارزیابی‌های دیجیتال، Common Sense Media

«تلاش‌هایی از این دست که خط‌مشی‌های ایمنی جوانان را عملیاتی‌تر می‌کنند، ارزشمند هستند زیرا به تبدیل دانش تخصصی به راهنمایی‌ای کمک می‌کنند که بتوان از آن در سیستم‌های واقعی استفاده کرد. خط‌مشی‌های محتوا نخستین گام مهم هستند و همچنین مسیر را برای کار گسترده‌تر دربارهٔ این‌که رفتار مدل چگونه می‌تواند به‌مرور زمان ریسک‌های مرتبط با جوانان را شکل دهد، باز می‌کنند. با الهام از این کار و پژوهش‌های خودمان، everyone.ai⁠(در یک پنجره جدید باز می‌شود) نیز یک خط‌مشی رفتاری اولیه با تمرکز بر ریسک‌هایی مانند انحصارطلبی و اتکای بیش از حد ایجاد کرده است.»

—دکتر Mathilde Cerioli، دانشمند ارشد در everyone.AI

نقطه آغاز، نه راهکاری کامل

این سیاست‌ها قرار است نقطه شروعی باشند، نه تعریفی جامع یا نهایی از ایمنی نوجوانان و نه تضمینی برای آن. هر اپلیکیشنی دارای ریسک‌ها، مخاطبان و زمینه‌های منحصربه‌فرد خود است، و توسعه‌دهندگان در بهترین موقعیت برای درک ریسک‌هایی هستند که محصولات و یکپارچه‌سازی‌های هوش مصنوعی آن‌ها ممکن است ایجاد کنند. ما اکیداً توسعه‌دهندگان را تشویق می‌کنیم که این سیاست‌ها را بر اساس نیازهای خاص خود تطبیق و گسترش دهند و آن‌ها را با سایر تدابیر حفاظتی، مانند تصمیمات طراحی محصول، کنترل‌های کاربر، شفافیت مناسب برای نوجوانان، سامانه‌های نظارتی و پاسخ‌های سنجیده و متناسب با سن ترکیب کنند.

ما باور داریم که رویکرد لایه‌لایهٔ دفاع در عمق⁠⁠ برای ساخت سامانه‌های هوش مصنوعی ایمن‌تر ضروری است. این سیاست‌ها بر اساس تجربه داخلی ما تدوین شده‌اند، اما بازتاب تمام ابعاد سیاست‌ها یا سازوکارهای حفاظتی داخلی OpenAI نیستند.

راه پیش رو

ما این سیاست‌ها را به‌صورت متن‌باز از طریق جامعه مدل ROOST⁠(در یک پنجره جدید باز می‌شود) منتشر می‌کنیم تا همکاری و تکرار را تشویق کنیم. برای مشارکت، ارائه بازخورد یا به‌اشتراک‌گذاری خط‌مشی‌های بیشترِ ایمنی نوجوانان، به محل نگهداری RMC GitHub⁠(در یک پنجره جدید باز می‌شود) مراجعه کنید.

توسعه‌دهندگان و سازمان‌ها می‌توانند این سیاست‌ها را با کاربردهای خاص خود تطبیق دهند، به زبان‌های مختلف ترجمه کنند و آن‌ها را گسترش دهند تا حوزه‌های ریسک بیشتری را پوشش دهند. در طول زمان، امیدواریم این امر به ایجاد پایه‌ای مستحکم‌تر و مشترک‌تر برای پیاده‌سازی سیاست‌های ایمنی در سامانه‌های هوش مصنوعی کمک کند.

برای شروع کار با gpt-oss-safeguard، آن را از Hugging Face⁠(در یک پنجره جدید باز می‌شود) دانلود کنید.

به خواندن ادامه بده

مشاهده همه

ایمنی و هم‌راستایی در عصر مدل‌های با افق زمانی بلند

ایمنی۲۹ تیر ۱۴۰۵

Why teens deserve access to safe AI — card image

چرا نوجوانان سزاوار دسترسی به هوش مصنوعی ایمن‌اند

ایمنی۲۵ تیر ۱۴۰۵

GPT-Red: فعال‌سازی خودبهبودی برای افزایش استحکام

ایمنی۲۴ تیر ۱۴۰۵