Từ bác bỏ thẳng thừng đến đạt kỳ vọng an toàn: hướng tới đào tạo an toàn lấy kết quả làm trọng tâm
Có mặt trong GPT‑5, câu trả lời an toàn là phương pháp huấn luyện mới nhằm tối ưu tính hữu ích của mô hình trong ngưỡng an toàn. So với huấn luyện để từ chối, phương pháp này cải thiện cả tính an toàn và hữu ích, đặc biệt là với các lĩnh vực lưỡng dụng.
Nếu người dùng hỏi ChatGPT về năng lượng tối thiểu cần thiết để đốt một màn trình diễn pháo hoa, thì nó có nên đưa ra một câu trả lời hữu ích không? Người dùng có thể đang chuẩn bị cho màn trình diễn ngày 4 tháng 7, hoặc một dự án nghiên cứu cho trường học… hoặc chế tạo thuốc nổ. Do đó, việc đưa ra một câu trả lời hữu ích có thể vô hại hoặc gây hại, tùy thuộc vào ý định (rõ ràng) của người dùng. Loại câu hỏi dạng này có thể lưỡng dụng (được sử dụng cho hai mục đích): đây là một câu hỏi với ý định không rõ ràng, trong đó thông tin có thể được dùng theo cách vô hại hoặc độc hại. Các vấn đề liên quan đến sử dụng kép đặc biệt phổ biến trong các lĩnh vực rủi ro như sinh học và an ninh mạng.
Trong quá khứ, các mô hình sản xuất như ChatGPT dựa vào huấn luyện an toàn dựa trên từ chối: dựa trên yêu cầu của người dùng, mô hình hoặc là tuân thủ hoàn toàn hoặc từ chối. Mặc dù loại hình huấn luyện này có thể hoạt động khá tốt đối với những câu lệnh rõ ràng là có hại, nhưng nó có thể gặp khó khăn trong việc xử lý các câu lệnh lưỡng dụng như ví dụ về pháo hoa. Trong trường hợp đó, một mô hình được huấn luyện từ chối sẽ đưa ra quyết định nhị phân dựa trên mức độ độc hại mà nó nhận thấy trong yêu cầu - và hoặc là hoàn toàn tuân thủ (có khả năng nguy hiểm nếu người dùng muốn sử dụng thông tin một cách độc hại), hoặc là từ chối và nói "Tôi xin lỗi, tôi không thể giúp bạn với điều đó" (không hữu ích nếu người dùng thực sự đang cố gắng sửa màn bắn pháo hoa của họ).
Đối với GPT‑5, chúng tôi đã giới thiệu một hình thức huấn luyện an toàn mới - kỳ vọng an toàn - giúp mô hình học cách đưa ra câu trả lời hữu ích nhất có thể, đồng thời vẫn duy trì các ranh giới an toàn. Chúng tôi thấy phương pháp này tinh tế hơn, hỗ trợ giải quyết tốt hơn các vấn đề lưỡng dụng.
Lời nhắc
OpenAI o3 (huấn luyện từ chối)
GPT-5 (huấn luyện theo phương pháp hoàn thành an toàn)
Phản hồi của OpenAI o3 và GPT‑5 đối với một yêu cầu lưỡng dụng phức tạp, yêu cầu hướng dẫn cách đốt pháo hoa. o3, vốn đã được huấn luyện từ chối, lại phản ứng thái quá về mặt ý định: nó đánh giá yêu cầu là vô hại và do đó hoàn toàn tuân thủ theo câu hỏi. Ngược lại, GPT‑5, được huấn luyện với các kỳ vọng an toàn, giải thích lý do tại sao nó không thể tuân thủ hoàn toàn, và sau đó chỉ cung cấp hướng dẫn cấp cao để kiểm tra các hướng dẫn sử dụng thích hợp.
Trung tâm kỳ vọng an toàn tập trung huấn luyện an toàn vào tính an toàn của đầu ra mô hình, thay vì xác định ranh giới từ chối dựa trên đầu vào của người dùng. Cụ thể, điều này được thực hiện thông qua hai tham số huấn luyện:
- Ràng buộc an toàn: Trong quá trình hậu huấn luyện, phần thưởng kỳ vọng an toàn sẽ phạt các phản hồi của mô hình vi phạm các chính sách an toàn của chúng tôi (với mức phạt nặng hơn tùy thuộc vào mức độ nghiêm trọng của vi phạm).
- Tối đa hóa tính hữu ích: Để đảm bảo các phản hồi an toàn từ mô hình, chúng ta gán điểm thưởng cho mô hình dựa trên mức độ hữu ích của nó: hoặc trực tiếp theo mục tiêu đã nêu của người dùng, hoặc gián tiếp bằng cách đưa ra lời từ chối mang tính thông tin với các lựa chọn thay thế hữu ích và an toàn.
Chúng tôi đã tích hợp các kỳ vọng an toàn vào GPT‑5 (cả mô hình tư duy và trò chuyện), và nhận thấy rằng việc huấn luyện kỳ vọng an toàn cải thiện đáng kể cả độ an toàn và hữu ích so với huấn luyện dựa trên từ chối. Để so sánh công bằng với OpenAI o3, chúng tôi báo cáo hiệu suất của GPT‑5 Thinking so với o3. Trong các so sánh về cả mô hình sản xuất và các thí nghiệm có kiểm soát, chúng tôi nhận thấy rằng các kỳ vọng an toàn đặc biệt phù hợp cho các câu hỏi lưỡng dụng. Hình dưới đây so sánh điểm an toàn và điểm hữu ích trung bình của các phản hồi an toàn.
Độ an toàn và tính hữu ích được đánh giá có chủ đích cho các phản hồi đã xác định là an toàn (OpenAI o3 so với GPT‑5 Thinking, còn được gọi là gpt5-r). GPT‑5 Thinking an toàn và cũng hữu ích hơn so với openAI o3.
Bằng cách loại bỏ quyết định nhị phân tuân thủ/từ chối, huấn luyện kỳ vọng an toàn khuyến khích các mô hình của chúng ta thận trọng hơn về nội dung có khả năng không an toàn, ngay cả khi chúng tuân thủ. Trong các thử nghiệm của chúng tôi, chúng tôi thấy rằng khi các mô hình kỳ vọng an toàn có mắc lỗi, thì mức độ nghiêm trọng của các đầu ra không an toàn của chúng thấp hơn so với các đầu ra không an toàn từ các mô hình được huấn luyện để từ chối.
Phân tích mức độ gây hại của các phản hồi không an toàn (o3 so với GPT‑5 Thinking, còn được gọi là gpt5-r). GPT‑5 Thinking mắc ít lỗi nghiêm trọng hơn o3.
Việc đánh đổi giữa tính hữu ích và độ an toàn có thể dễ xảy ra – một mô hình có thể an toàn nếu nó từ chối mọi thứ. Nhưng chúng tôi muốn mô hình của chúng tôi vừa an toàn mà đồng thời vẫn hữu ích. Một thách thức nghiên cứu cốt lõi là làm thế nào để cải thiện đồng thời cả hai mục tiêu này. Với GPT‑4 chúng tôi đã phát triển Phần thưởng theo quy tắc như một phương pháp đánh đổi giữa tính hữu ích và mức độ an toàn. Giờ đây, đối với GPT‑5, các kỳ vọng an toàn tiến thêm một bước nữa, tận dụng các khả năng ngày càng tăng của AI để cung cấp sự tích hợp sâu sắc hơn giữa hai mục tiêu này. Chúng tôi tin rằng việc tập trung vào sự an toàn của các phản hồi từ mô hình tạo nền tảng vững chắc để giải quyết sự phức tạp ngày càng tăng của những thách thức an toàn trong tương lai. Chúng tôi dự định tiếp tục nghiên cứu theo hướng này để dạy mô hình hiểu rõ hơn các tình huống khó khăn và phản hồi một cách tế nhị và cẩn trọng hơn.


