Bỏ qua nội dung chính
OpenAI

26 tháng 8, 2025

An toànSản phẩm

Giúp đỡ mọi người khi họ cần nhất

Đang tải…

Khi ChatGPT ngày càng được sử dụng rộng rãi hơn trên khắp thế giới, chúng tôi chứng kiến thấy mọi người sử dụng công cụ này không chỉ để tìm kiếm, lập trình, và viết lách, mà còn sử dụng cho các quyết định mang tính chất cá nhân sâu sắc như lời khuyên(mở trong cửa sổ mới), cố vấn(mở trong cửa sổ mới), và hỗ trợ cho cuộc sống(mở trong cửa sổ mới).

Ở mức độ này, đôi khi chúng tôi gặp phải những người bị tổn thương tâm thần và cảm xúc. Cách đây vài tuần, chúng tôi có viết về nội dung này và đã lên kế hoạch sẽ chia sẻ thêm sau bản cập nhật quan trọng tiếp theo. Tuy nhiên, các trường hợp đau lòng xảy ra gần đây khi người dùng tìm đến ChatGPT trong cơn khủng hoảng cấp tính đã khiến chúng tôi day dứt, và từ đó tin rằng giờ là lúc cần chia sẻ nhiều hơn.

Chúng tôi muốn công cụ của mình giúp ích cho mọi người nhất khả năng; và một phần trong nỗ lực này, chúng tôi tiếp tục cải thiện cách thức nhận biết và phản hồi của các mô hình khi gặp phải các dấu hiệu của tổn thương tâm lý và cảm xúc, đồng thời kết nối mọi người đến các chuyên gia để được chăm sóc, định hướng.

Trong lúc thế giới đang làm quen với công nghệ mới này, chúng tôi nhận thấy bản thân có trách nhiệm sâu sắc là giúp đỡ những người có nhu cầu nhất. Chúng tôi sẽ giải thích việc ChatGPT được thiết kế để làm gì, các hệ thống của chúng tôi có thể cải thiện ở khía cạnh nào, và công việc chúng tôi dự định triển khai sau này.

ChatGPT được thiết kế để làm gì

Mục tiêu của chúng tôi không phải là níu kéo sự chú ý của người dùng. Thay vì đo lường thành công bằng thời gian sử dụng hoặc lượt nhấp chuột, chúng tôi quan tâm nhiều hơn đến việc có thể trợ giúp một cách thiết thực. Trong trường hợp nội dung trò chuyện cho thấy có người đang bị tổn thương và có thể đang gặp nguy hiểm, chúng tôi có tích hợp rất nhiều lớp bảo vệ vào ChatGPT.

Nhận biết và phản hồi bằng thái độ cảm thông.

Kể từ đầu năm 2023, mô hình của chúng tôi đã được đào tạo để tránh cung cấp những chỉ dẫn tự gây hại, đồng thời chuyển sang ngôn ngữ hỗ trợ và cảm thông. Ví dụ, nếu có người viết ra là họ muốn tự hại bản thân, ChatGPT được huấn luyện là không tuân theo, mà thay vào đó sẽ ghi nhận cảm xúc của người đó và hướng họ tìm đến trợ giúp.

Ngoài ra, theo cách tiếp cận bảo vệ nhiều tầng của chúng tôi, những phản hồi trái với quy chuẩn đào tạo về an toàn của mô hình (do hệ thống phân loại phát hiện) sẽ tự động bị chặn lại, cùng mức bảo vệ cao hơn dành cho trẻ vị thành niên và người chưa đăng nhập. Các hình ảnh về tự hại cũng sẽ bị chặn với tất cả mọi người, cùng mức bảo vệ cao hơn dành cho trẻ vị thành niên.

Khi trò chuyện quá lâu, ChatGPT sẽ nhắc người dùng nghỉ ngơi.

Giới thiệu mọi người tiếp cận các tài nguyên ngoài đời thực.

Nếu có người bày tỏ ý định tự tử, ChatGPT được huấn luyện là sẽ hướng họ tìm đến người có chuyên môn để được trợ giúp. Tại Hoa Kỳ, ChatGPT giới thiệu đến 988 (đường dây nóng về tự tử và khủng hoảng). Trong khi đó, tại Vương quốc Anh sẽ là Samaritans; và các nơi khác có trong findahelpline.com(mở trong cửa sổ mới). Logic này được tích hợp vào hành vi của mô hình.

Chúng tôi hợp tác chặt chẽ với hơn 90 bác sĩ tại hơn 30 quốc gia, bao gồm bác sĩ tâm thần, bác sĩ nhi, và bác sĩ đa khoa; đồng thời thành lập nhóm cố vấn gồm các chuyên gia về sức khỏe tâm thần, phát triển thanh thiếu niên, và tương tác giữa người - máy để đảm bảo cách tiếp cận của mình phản ánh những nghiên cứu mới nhất và thông lệ tốt nhất.

Chuyển đến cho nhân viên là con người xem xét khi gặp trường hợp có nguy cơ cao là có thể gây hại thể chất cho người khác.

Khi phát hiện người dùng có ý định làm hại người khác, chúng tôi sẽ chuyển cuộc trò chuyện của họ sang các quy trình chuyên biệt. Tại đây, nội dung trò chuyện sẽ được một nhóm nhỏ xem xét. Nhóm này đều là người đã được đào tạo về chính sách sử dụng của chúng tôi và có thẩm quyền thực hiện hành động cần thiết, bao gồm cả việc khóa tài khoản. Nếu nhóm nhân sự rà soát nhận thấy trường hợp sắp xảy ra việc làm hại nghiêm trọng đến thể chất của người khác, chúng tôi có thể chuyển thông tin đến cơ quan chức năng. Hiện tại, chúng tôi không chuyển các trường hợp tự gây hại đến cơ quan chức năng nhằm tôn trọng quyền riêng tư của người dùng khi xét đến tính chất đặc biệt riêng tư của các tương tác trên ChatGPT.

Chúng tôi liên tục nâng cao năng lực phản hồi của mô hình trong các tương tác nhạy cảm, đồng thời triển khai các cải tiến về an toàn nhắm mục tiêu trong một vài lĩnh vực, bao gồm lệ thuộc vào cảm xúc, tình huống khẩn cấp về sức khỏe tâm thần, và hành vi nịnh hót.

Vào tháng 8, chúng tôi đã triển khai GPT‑5 làm mô hình mặc định vận hành ChatGPT. Nhìn chung, GPT‑5 cho thấy cải thiện đáng kể ở các khía cạnh như tránh phụ thuộc vào cảm xúc ở mức độ không lành mạnh, giảm nịnh hót, và giảm hơn 25% phản hồi không lý tưởng của mô hình trong các tình huống khẩn cấp về sức khỏe tâm thần so với 4o. GPT‑5 cũng xây dựng một phương thức huấn luyện an toàn mới có tên gọi kết quả an toàn (safe completions). Phương thức này dạy mô hình trợ giúp ở mức tối đa nhưng vẫn trong phạm vi các giới hạn về an toàn. Điều đó có thể đồng nghĩa với việc chỉ cung cấp một phần câu trả lời hoặc trả lời khái quát thay vì trả lời chi tiết nhưng có thể không an toàn.

Hạn chế của các hệ thống, nguyên nhân và cách chúng tôi khắc phục

Ngay cả khi đã áp dụng những biện pháp phòng vệ này, hệ thống của chúng tôi vẫn có lúc phản hồi không đúng như mong đợi trong các tình huống nhạy cảm. Sau đây là những điểm mà chúng tôi đang nỗ lực khắc phục.

Tăng cường biện pháp đảm bảo an toàn khi trò chuyện lâu.

Các biện pháp đảm bảo an toàn của chúng tôi hoạt động đáng tin cậy trong các cuộc trao đổi ngắn, thông thường. Chúng tôi nhận thấy các biện pháp đảm bảo an toàn này đôi khi trở nên kém tin cậy hơn trong những cuộc trò chuyện dài: khi trao đổi qua lại nhiều, một số phần huấn luyện về an toàn của mô hình có thể bị suy giảm. Ví dụ, khi người dùng lần đầu bày tỏ ý định tự tử, ChatGPT có thể đưa ra gợi ý đúng là chuyển sang đường dây nóng hỗ trợ. Nhưng sau nhiều lượt trao đổi kéo dài, hệ thống cuối cùng có thể đưa ra câu trả lời đi ngược lại các biện pháp bảo vệ của chúng tôi. Đây chính là dạng sự cố mà chúng tôi đang nỗ lực ngăn chặn. Chúng tôi tăng cường các biện pháp giảm thiểu rủi ro này để duy trì mức độ đáng tin cậy trong các cuộc trò chuyện dài, đồng thời nghiên cứu cách thức giúp bảo đảm hoạt động ổn định xuyên suốt nhiều cuộc trò chuyện. Bằng cách này, nếu một người bày tỏ ý định tự tử trong một cuộc trò chuyện và sau đó bắt đầu cuộc trò chuyện khác, mô hình vẫn có thể phản hồi phù hợp.

Tinh chỉnh cách chặn nội dung.

Chúng tôi đã ghi nhận một số trường hợp có xuất hiện nội dung đáng ra phải bị chặn nhưng lại không bị chặn. Những thiếu sót này thường xảy ra khi công cụ phân loại đánh giá thấp mức độ nghiêm trọng của nội dung mà nó đang thấy. Chúng tôi đang tinh chỉnh các ngưỡng này để các biện pháp bảo vệ sẽ kích hoạt đúng lúc cần thiết.

Ưu tiên hàng đầu của chúng tôi là đảm bảo ChatGPT không khiến những khoảnh khắc tồi tệ trở nên tệ hơn nữa.

Sau này chúng tôi dự định làm gì

Công việc của chúng tôi không chỉ là khắc phục những hạn chế trên. Chúng tôi cũng dự định sẽ: 

Mở rộng các biện pháp can thiệp cho nhiều người đang gặp khủng hoảng hơn.

Dù các biện pháp giảm thiểu ban đầu của chúng tôi ưu tiên các tình huống tự hại cấp tính, một vài người lại trải qua các dạng tổn thương tinh thần khác. Ví dụ, có người có thể hứng khởi nói với mô hình rằng họ tin rằng bản thân có thể lái xe 24/7 bởi vì họ nhận ra rằng mình bất khả chiến bại sau hai đêm không ngủ. Ngày nay, ChatGPT có thể không xem đây là điều nguy hiểm, hiểu nhầm là trò đùa, và vô tình củng cố suy nghĩ này bằng cách tiếp tục tò mò hỏi thêm.

Chúng tôi đang phát triển một bản cập nhật cho GPT‑5, giúp ChatGPT xoa dịu tình huống thông qua việc đưa người đó trở lại với thực tế. Trong ví dụ này, mô hình sẽ giải thích rằng thiếu ngủ là việc nguy hiểm, và đề xuất nên nghỉ ngơi trước khi thực hiện bất kỳ hành động nào.

Kết nối dịch vụ khẩn cấp và nhận hỗ trợ của chuyên gia một cách dễ dàng hơn.

Hiện tại, khi ai đó bày tỏ ý định tự hại, chúng tôi khuyến khích họ tìm trợ giúp và giới thiệu đến các nguồn hỗ trợ ngoài đời thực. Chúng tôi đã bắt đầu bản địa hóa các tài nguyên hỗ trợ tại Hoa Kỳ và châu Âu, và dự định mở rộng sang các thị trường toàn cầu khác. Chúng tôi cũng tăng cường hỗ trợ tiếp cận nhanh, chỉ với một cú nhấp chuột là có thể kết nối tới các dịch vụ khẩn cấp.

Chúng tôi đang tìm hiểu cách thức can thiệp sớm hơn, kết nối mọi người với các nhà trị liệu được chứng nhận trước khi họ rơi vào khủng hoảng nghiêm trọng. Điều đó có nghĩa là không chỉ dừng lại ở các đường dây nóng hỗ trợ khủng hoảng, mà chúng tôi còn xem xét cách xây dựng một mạng lưới các chuyên gia được cấp phép để người dùng có thể kết nối trực tiếp qua ChatGPT. Việc này sẽ mất thời gian và phải thực hiện thận trọng.

Hỗ trợ kết nối với các nguồn đáng tin cậy.

Bên cạnh dịch vụ khẩn cấp, chúng tôi cũng đang tìm cách giúp mọi người liên hệ những người gần gũi nhất một cách dễ dàng hơn. Điều này có thể bao gồm việc gửi tin nhắn hoặc gọi điện thoại chỉ với một cú nhấp đến số liên hệ khẩn cấp đã lưu, bạn bè, hoặc người thân, kèm gợi ý diễn đạt để cuộc trò chuyện khởi đầu bớt khó khăn.

Chúng tôi cũng đang xem xét các tính năng để người dùng cho phép ChatGPT thay mặt họ liên hệ một người được chỉ định trong trường hợp nghiêm trọng.

Tăng cường các biện pháp bảo vệ cho thanh thiếu niên.

Trước đây, chúng tôi chỉ xác định một hành vi mô hình lý tưởng cho tất cả người dùng. Khi ChatGPT ngày càng phát triển, chúng tôi bắt đầu bổ sung thêm các biện pháp bảo vệ khi nhận ra người dùng dưới 18 tuổi. Chúng tôi đang tiếp tục phát triển và triển khai các biện pháp bảo vệ an toàn có khả năng nhận biết nhu cầu phát triển riêng của thanh thiếu niên, triển khai các rào chắn mạnh mẽ hơn trước các nội dung nhạy cảm và hành vi rủi ro.

Chúng tôi cũng sẽ sớm ra mắt các tính năng kiểm soát của cha mẹ để phụ huynh có các tùy chọn giúp nắm bắt và điều chỉnh cách thức thanh thiếu niên con họ sử dụng ChatGPT. Chúng tôi cũng nghiên cứu khả năng cho phép thanh thiếu niên (dưới sự giám sát của phụ huynh) chỉ định một người làm đầu mối liên hệ khẩn cấp đáng tin cậy. Bằng cách đó, khi gặp phải tình huống khủng hoảng cấp tính, ChatGPT có thể hỗ trợ nhiều hơn là chỉ là hướng đến nguồn hỗ trợ: công cụ này có thể giúp trực tiếp kết nối thanh thiếu niên với người có thể trợ giúp thiết thực.

Chúng tôi hiểu sâu sắc rằng các biện pháp bảo vệ an toàn chỉ hiệu quả nhất khi mọi thành phần vận hành đúng như ý định ban đầu. Dưới sự hướng dẫn của chuyên gia và trên cơ sở trách nhiệm với người dùng, chúng tôi sẽ tiếp tục cải tiến và hy vọng cộng đồng sẽ cùng chúng tôi đảm bảo công nghệ này bảo vệ được những người dễ bị tổn thương nhất.