Giúp các nhà phát triển xây dựng trải nghiệm AI an toàn hơn cho thanh thiếu niên
Giới thiệu một bộ chính sách an toàn dành cho thanh thiếu niên được định dạng dưới dạng câu lệnh cho gpt-oss-safeguard
Hôm nay, chúng tôi công bố các chính sách an toàn(mở trong cửa sổ mới) dựa trên câu lệnh để hỗ trợ các nhà phát triển tạo ra các biện pháp bảo vệ phù hợp với độ tuổi cho thanh thiếu niên. Được thiết kế để hoạt động với mô hình an toàn trọng số mở của chúng tôi, gpt-oss-safeguard(mở trong cửa sổ mới), các chính sách này đơn giản hóa cách các nhà phát triển chuyển đổi các yêu cầu an toàn thành các bộ phân loại có thể áp dụng cho các hệ thống thực tế.
Chúng tôi đã phát hành các mô hình trọng số mở để dân chủ hóa khả năng tiếp cận AI mạnh mẽ và hỗ trợ đổi mới sáng tạo trên diện rộng. Đồng thời, chúng tôi tin rằng an toàn và đổi mới luôn song hành cùng nhau, và các nhà phát triển nên có quyền tiếp cận các mô hình mạnh mẽ cũng như các công cụ và chính sách để triển khai chúng một cách an toàn và có trách nhiệm. Chúng tôi đã xây dựng các chính sách này để hỗ trợ các nhà phát triển trong nỗ lực đảm bảo an toàn nhằm bảo vệ người dùng trẻ tuổi, với ý kiến đóng góp từ các tổ chức bên ngoài đáng tin cậy, bao gồm Common Sense Media(mở trong cửa sổ mới) và everyone.ai(mở trong cửa sổ mới).
Chúng tôi nhận thấy rằng thanh thiếu niên và người lớn có những nhu cầu khác nhau, và thanh thiếu niên cần các biện pháp bảo vệ bổ sung. Những chính sách này được thiết kế để giúp các nhà phát triển tính đến những khác biệt đó và xây dựng những trải nghiệm vừa trao quyền vừa phù hợp với người dùng nhỏ tuổi hơn.
Từ lâu, chúng tôi đã cam kết xây dựng AI giúp mở rộng cơ hội cho người trẻ, đồng thời bảo đảm sự an toàn cho họ. Trong khuôn khổ công việc này, chúng tôi đã cập nhật Thông số kỹ thuật của mô hình(mở trong cửa sổ mới)—các nguyên tắc xác định hành vi dự kiến của các mô hình OpenAI—để bao gồm Nguyên tắc dưới 18 tuổi (U18)(mở trong cửa sổ mới), đồng thời triển khai các biện pháp bảo vệ ở cấp độ sản phẩm như kiểm soát của cha mẹ và dự đoán độ tuổi nhằm bảo vệ tốt hơn người dùng nhỏ tuổi. Chúng tôi cũng đã kêu gọi áp dụng các biện pháp bảo vệ trên toàn ngành thông qua Bản thiết kế về An toàn cho thanh thiếu niên.
Bản phát hành hôm nay được xây dựng trên nền tảng đó. Chúng tôi đang cung cấp các chính sách an toàn này cho các nhà phát triển nhằm hỗ trợ họ triển khai các biện pháp bảo vệ an toàn cho thanh thiếu niên và giúp phổ cập quyền tiếp cận trong toàn bộ hệ sinh thái trọng số mở.
Mặc dù các bộ phân loại an toàn như gpt-oss-safeguard có thể phát hiện nội dung có hại, nhưng chúng phụ thuộc vào các định nghĩa rõ ràng về nội dung đó. Trên thực tế, một trong những thách thức lớn nhất mà các nhà phát triển phải đối mặt là xác định các chính sách phản ánh chính xác các rủi ro đặc thù đối với thanh thiếu niên và có thể được áp dụng một cách nhất quán trong các hệ thống thực tế.
Ngay cả các nhóm giàu kinh nghiệm cũng thường gặp khó khăn trong việc chuyển các mục tiêu an toàn cấp cao thành các quy tắc chính xác, có thể triển khai trong thực tế, đặc biệt vì điều này đòi hỏi cả kiến thức chuyên môn về lĩnh vực lẫn kiến thức sâu về AI. Điều này có thể dẫn đến lỗ hổng trong phạm vi bảo vệ, việc thực thi không nhất quán hoặc việc lọc quá rộng. Các chính sách rõ ràng, được xác định phạm vi phù hợp là nền tảng then chốt cho các hệ thống an toàn hiệu quả.
Để giải quyết thách thức này, chúng tôi phát hành một bộ chính sách an toàn(mở trong cửa sổ mới), được thiết kế phù hợp với những rủi ro phổ biến mà thanh thiếu niên phải đối mặt và dựa trên việc xem xét kỹ lưỡng các nghiên cứu hiện có về những khác biệt phát triển đặc thù của thanh thiếu niên. Các chính sách này được cấu trúc dưới dạng các câu lệnh có thể được sử dụng trực tiếp với gpt-oss-safeguard(mở trong cửa sổ mới) và các mô hình suy luận khác, giúp các nhà phát triển dễ dàng áp dụng các tiêu chuẩn an toàn nhất quán trên toàn bộ hệ thống của họ.
Bản phát hành ban đầu bao gồm các chính sách:
- Nội dung bạo lực hình ảnh
- Nội dung tình dục rõ ràng và chi tiết
- Các chuẩn mực cơ thể và hành vi có hại
- Hoạt động và thử thách nguy hiểm
- Nhập vai lãng mạn hoặc bạo lực
- Hàng hóa và dịch vụ giới hạn độ tuổi
Các chính sách này có thể được sử dụng để lọc nội dung theo thời gian thực cũng như phân tích ngoại tuyến đối với nội dung do người dùng tạo ra.
Bằng cách cấu trúc các chính sách dưới dạng câu lệnh, nhà phát triển có thể dễ dàng tích hợp chúng vào quy trình làm việc hiện có, điều chỉnh theo trường hợp sử dụng và liên tục lặp lại, cải tiến theo thời gian.

Chúng tôi đã làm việc với các tổ chức bên ngoài, bao gồm Common Sense Media(mở trong cửa sổ mới) và everyone.ai(mở trong cửa sổ mới), để định hướng việc xây dựng các chính sách này. Chuyên môn của họ đã giúp định hình phạm vi nội dung cần đề cập, củng cố cấu trúc của các câu lệnh và tinh chỉnh các trường hợp biên cần xem xét khi đánh giá chúng.
Công việc này phản ánh nỗ lực không ngừng nhằm hợp tác với các chuyên gia và hệ sinh thái rộng hơn để cải thiện cách các hệ thống AI hỗ trợ người trẻ.
“Một trong những khoảng trống lớn nhất trong lĩnh vực an toàn AI cho thanh thiếu niên là việc thiếu các chính sách rõ ràng, có thể triển khai để các nhà phát triển có thể dựa vào đó để xây dựng. Nhiều khi, các nhà phát triển bắt đầu từ đầu. Các chính sách dựa trên câu lệnh này giúp thiết lập một ngưỡng an toàn có ý nghĩa trên toàn hệ sinh thái, và vì chúng được phát hành dưới dạng mã nguồn mở, nên chúng có thể được điều chỉnh và cải tiến theo thời gian. “Chúng tôi rất phấn khởi khi thấy loại cơ sở hạ tầng này đang được phổ biến rộng rãi, và chúng tôi hy vọng điều đó sẽ thúc đẩy nhiều nền tảng khởi đầu chung hơn về an toàn cho thanh thiếu niên trên toàn ngành.”
—Robbie Torney, Giám đốc AI & Đánh giá kỹ thuật số, Common Sense Media
“Những nỗ lực như thế này nhằm giúp các chính sách an toàn cho thanh thiếu niên mang tính triển khai hơn là rất có giá trị vì chúng giúp chuyển hóa kiến thức chuyên môn thành hướng dẫn có thể được sử dụng trong các hệ thống thực tế. Các chính sách nội dung là một bước đầu quan trọng, đồng thời cũng mở ra cánh cửa cho những công việc rộng hơn về cách hành vi của mô hình có thể định hình các rủi ro liên quan đến thanh thiếu niên theo thời gian. Lấy cảm hứng từ công trình này và từ chính nghiên cứu của mình, everyone.ai(mở trong cửa sổ mới) cũng đã xây dựng một chính sách hành vi ban đầu tập trung vào các rủi ro như tính độc quyền và sự phụ thuộc quá mức."
—Tiến sĩ Mathilde Cerioli, Giám đốc Khoa học tại everyone.AI
Các chính sách này được đưa ra như một điểm khởi đầu, không phải là một định nghĩa hoặc sự bảo đảm toàn diện hay cuối cùng về an toàn cho thanh thiếu niên. Mỗi ứng dụng đều có những rủi ro, đối tượng người dùng và bối cảnh riêng, và nhà phát triển là những người ở vị trí phù hợp nhất để hiểu rõ các rủi ro mà sản phẩm và các hoạt động tích hợp AI của họ có thể gây ra. Chúng tôi đặc biệt khuyến khích các nhà phát triển điều chỉnh và mở rộng các chính sách này dựa trên nhu cầu cụ thể của mình, đồng thời kết hợp các chính sách này với các biện pháp bảo vệ khác như các quyết định về thiết kế sản phẩm, các biện pháp kiểm soát của người dùng, tính minh bạch thân thiện với thanh thiếu niên, các hệ thống giám sát và các phản hồi thận trọng, phù hợp với lứa tuổi.
Chúng tôi tin rằng cách tiếp cận phòng thủ nhiều lớp (defense in depth) là yếu tố thiết yếu để xây dựng các hệ thống AI an toàn hơn. Những chính sách này được xây dựng dựa trên kinh nghiệm nội bộ của chúng tôi, nhưng không phản ánh đầy đủ toàn bộ các chính sách hoặc biện pháp bảo vệ nội bộ của OpenAI.
Chúng tôi phát hành các chính sách này dưới dạng mã nguồn mở thông qua ROOST Mô hình Community(mở trong cửa sổ mới) để khuyến khích hợp tác và cải tiến lặp lại. Để đóng góp, gửi phản hồi hoặc chia sẻ thêm các chính sách an toàn cho thanh thiếu niên, vui lòng truy cập kho lưu trữ RMC GitHub.(mở trong cửa sổ mới)
Các nhà phát triển và tổ chức có thể điều chỉnh các chính sách này cho phù hợp với các ứng dụng cụ thể của họ, dịch chúng sang các ngôn ngữ khác nhau và mở rộng chúng để bao quát các lĩnh vực rủi ro bổ sung. Theo thời gian, chúng tôi hy vọng điều này sẽ góp phần vào việc xây dựng một nền tảng vững chắc hơn và mang tính chia sẻ hơn cho việc triển khai các chính sách an toàn trong các hệ thống AI.
Để bắt đầu sử dụng gpt-oss-safeguard, hãy tải xuống từ Hugging Face(mở trong cửa sổ mới).


