Cải thiện phản hồi của ChatGPT khi tham gia các cuộc trò chuyện nhạy cảm
Chúng tôi hợp tác với hơn 170 chuyên gia sức khỏe tâm thần để giúp ChatGPT nhận biết tốt hơn dấu hiệu căng thẳng, phản hồi thấu cảm và hướng người dùng đến hỗ trợ thực, giảm 65–80% phản hồi chưa đạt kỳ vọng.
Gần đây, chúng tôi đã cập nhật mô hình mặc định của ChatGPT(mở trong cửa sổ mới) để nhận biết và hỗ trợ con người tốt hơn ở những thời điểm căng thẳng, khủng hoảng. Hôm nay, chúng tôi xin chia sẻ về cách thức chúng tôi thực hiện các cải tiến đó, và hiệu quả của chúng. Thông qua hợp tác với các chuyên gia về sức khỏe tâm thần có kinh nghiệm lâm sàng thực tế, chúng tôi đã dạy mô hình cách nhận biết chính xác hơn dấu hiệu căng thẳng, làm dịu các cuộc trò chuyện, và hướng dẫn người dùng tìm đến chăm sóc chuyên nghiệp khi cần thiết. Chúng tôi cũng mở rộng khả năng tiếp cận các đường dây nóng hỗ trợ khủng hoảng, chuyển hướng(mở trong cửa sổ mới) cuộc trò chuyện nhạy cảm bắt nguồn từ những mô hình khác sang mô hình an toàn hơn, và thêm lời nhắc nhẹ nhàng để người dùngtạm nghỉ giải lao khi đã trò chuyện trong thời gian dài.
Chúng tôi tin rằng ChatGPT có thể là nơi hỗ trợ mọi người xử lý cảm xúc, đồng thời hướng họ tìm đến bạn bè, người thân, hoặc một chuyên gia về sức khỏe tâm thần nếu phù hợp. Những cải tiến về an toàn trong bản cập nhật mô hình gần đây tập trung vào các lĩnh vực sau: 1) lo ngại về sức khỏe tâm thần như loạn thần hoặc hưng cảm; 2) tự hại và tự tử; và 3) tình trạng phụ thuộc cảm xúc vào AI. Từ giờ trở đi, ngoài các chỉ số an toàn tham chiếu lâu nay về tự tử và tự hại, chúng tôi bổ sung thêm tình trạng phụ thuộc về mặt cảm xúc và các tình huống khẩn cấp về sức khỏe tâm thần không phải tự tử vào bộ tiêu chuẩn kiểm tra an toàn tham chiếu cho các phiên bản mô hình sau này.
Những cập nhật này được xây dựng dựa trên các nguyên tắc hiện có của chúng tôi về cách thức vận hành mô hình, được trình bày trong Bản đặc tả mô hình(mở trong cửa sổ mới). Chúng tôi đã cập nhật Bản đặc tả mô hình để làm rõ hơn một số mục tiêu dài hạn: mô hình cần hỗ trợ và tôn trọng các mối quan hệ của người dùng trong thế giới thực, tránh khẳng định những niềm tin thiếu cơ sở có thể gây căng thẳng cho tinh thần hoặc cảm xúc, phản hồi an toàn và đồng cảm trước các dấu hiệu có thể là tình trạng ảo giác hoặc hưng cảm, và chú ý hơn đến các tín hiệu gián tiếp có thể là của hành vi tự hại hoặc tự tử.
Để cải thiện phản hồi của ChatGPT trong mỗi lĩnh vực ưu tiên, chúng tôi áp dụng quy trình năm bước:
- Xác định vấn đề: Lập bản đồ các loại hình gây hại có thể xảy ra.
- Bắt đầu đo lường: Sử dụng các công cụ như các bài thẩm định, dữ liệu từ các cuộc trò chuyện thực tế, và nghiên cứu về người dùng để hiểu được rủi ro phát sinh từ đâu và như thế nào.
- Xác thực cách chúng tôi tiếp cận vấn đề: Hợp tác với các chuyên gia độc lập về sức khỏe tâm thần và an toàn để cùng kiểm tra các định nghĩa và chính sách của chúng tôi.
- Giảm thiểu rủi ro : Tiến hành huấn luyện sau cho mô hình và cập nhật các biện pháp can thiệp vào sản phẩm để giảm số lượng các kết quả không an toàn.
- Tiếp tục đo lường và lặp lại: Xác thực xem các biện pháp giảm nhẹ có cải thiện mức độ an toàn hay chưa và lặp lại khi cần.
Trong quá trình này, chúng tôi xây dựng và tinh chỉnh các hướng dẫn chi tiết (còn gọi là "quy tắc phân loại") để giải thích đặc điểm của cuộc trò chuyện nhạy cảm và xác định hành vi lý tưởng cũng như hành vi không mong muốn của mô hình. Hướng dẫn này giúp chúng tôi dạy mô hình phản hồi phù hợp hơn, và theo dõi hiệu suất của mô hình trước và sau triển khai. Kết quả cho ra một mô hình có khả năng phản hồi đáng tin cậy hơn khi gặp phải trường hợp người dùng đang có dấu hiệu loạn thần, hưng cảm, có suy nghĩ tự tử hoặc tự hại, hoặc gắn bó cảm xúc không lành mạnh với mô hình.
Các triệu chứng về sức khỏe tâm thần và căng thẳng cảm xúc tồn tại phổ biến ở các xã hội loài người, và do số lượng người dùng ngày càng tăng, một phần các cuộc trò chuyện với ChatGPT sẽ liên quan đến những tình huống này. Tuy nhiên, những cuộc trò chuyện về sức khỏe tâm thần gây ra các lo ngại về an toàn như loạn thần, hưng cảm, hoặc suy nghĩ tự tử, là cực kỳ hiếm gặp. Do không thường gặp phải các cuộc trò chuyện như thế, nên ngay cả những khác biệt nhỏ trong cách chúng tôi đo lường cũng có thể làm thay đổi đáng kể các con số mà chúng tôi báo cáo. 1
Các ước tính về mức độ phổ biến trong lưu lượng sử dụng thực tế hiện tại mà chúng tôi đưa ra dưới đây là ước tính tốt nhất hiện nay. Con số này có thể thay đổi đáng kể khi chúng tôi tiếp tục tinh chỉnh quy tắc phân loại, hoàn thiện phương pháp đo lường, và nhóm người dùng thay đổi hành vi.
Do tần suất xuất hiện các cuộc trò chuyện này rất thấp, chúng tôi không chỉ dựa vào kết quả đo lường sử dụng ChatGPT thực tế. Chúng tôi còn tiến hành các bài kiểm tra có cấu trúc trước khi triển khai (còn gọi là "thẩm định ngoại tuyến"), tập trung vào các tình huống đặc biệt khó hoặc rủi ro cao. Các thẩm định này được thiết kế ở mức độ đủ khó để các mô hình của chúng tôi chưa thể đạt được hiệu suất hoàn hảo, tức là các ví dụ được chọn theo cách đối nghịch, gây nhiễu nhằm khiến mô hình nhiều khả năng sẽ đưa ra các phản hồi không mong muốn. Các ví dụ đó có thể giúp chúng tôi xác định cơ hội cải thiện hơn nữa, và đo lường tiến độ chính xác hơn bằng cách tập trung vào các trường hợp khó chứ không phải trường hợp thông thường, và bằng cách xếp hạng phản hồi dựa trên nhiều điều kiện an toàn. Kết quả thẩm định được báo cáo dưới đây đều xuất phát từ các thẩm định được thiết kế sao cho không "bão hòa" gần mức hiệu suất hoàn hảo, và tỉ lệ lỗi không đại diện cho lưu lượng sử dụng trung bình.
Để củng cố thêm biện pháp bảo vệ của mô hình và hiểu được cách người dùng sử dụng ChatGPT, chúng tôi đã xác định một số lĩnh vực quan tâm và định lượng kích thước của chúng cũng như các hành vi mô hình liên quan. Trong cả ba lĩnh vực này, chúng tôi quan sát thấy mỗi lĩnh vực đều có cải thiện đáng kể về hành vi của mô hình trong lưu lượng sử dụng thực tế, các thẩm định tự động, và bộ thẩm định do chuyên gia lâm sàng độc lập về sức khỏe tâm thần chấm điểm. Chúng tôi ước tính rằng mô hình hiện nay trả lời mà không hoàn toàn tuân theo hành vi mong muốn theo như quy tắc phân loại của chúng tôi, ít hơn từ 65% đến 80% trên nhiều lĩnh vực liên quan đến sức khỏe tâm thần.
Chúng tôi thiết kế quy tắc phân loại về sức khỏe tâm thần để nhận biết người dùng đang thể hiện các dấu hiệu về vấn đề sức khỏe tâm thần nghiêm trọng, chẳng hạn như loạn thần và hưng cảm, cũng như các dấu hiệu ít nghiêm trọng hơn, ví dụ như ảo tưởng đơn lẻ. Chúng tôi bắt đầu tập trung vào loạn thần và hưng cảm vì các triệu chứng này là tình trạng khẩn cấp về sức khỏe tâm thần tương đối phổ biến, và khi xảy ra, các triệu chứng thường có tính chất rất dữ dội và nghiêm trọng. Mặc dù các triệu chứng như trầm cảm cũng tương đối phổ biến, các biểu hiện cấp tính nhất của trầm cảm đã được giải quyết thông qua nỗ lực phòng ngừa tự tử và tự hại. Các bác sĩ lâm sàng mà chúng tôi tham vấn có xác nhận các lĩnh vực ưu tiên này.
- Chúng tôi ước tính rằng trong lưu lượng sử dụng thực tế gần đây, khi gặp phải các cuộc trò chuyện khó và liên quan đến vấn đề sức khỏe tâm thần, bản cập nhật GPT‑5 gần đây nhất đã giảm 65% tỉ lệ phản hồi không hoàn toàn tuân theo hành vi mong muốn theo quy tắc phân loại của chúng tôi. 2
- Như đã đề cập ở trên, mặc dù những cuộc trò chuyện này khó phát hiện và đo lường vì hiếm gặp, phân tích ban đầu của chúng tôi ước tính rằng khoảng 0,07% người dùng hoạt động trong một tuần nhất định và 0,01% tin nhắn cho thấy dấu hiệu có thể thuộc về tình trạng khẩn cấp về sức khỏe tâm thần liên quan đến loạn thần hoặc hưng cảm. [[fn:3]
- Đối với các cuộc trò chuyện khó về sức khỏe tâm thần, các chuyên gia nhận thấy mô hình GPT‑5 mới, mô hình mặc định của ChatGPT, đã giảm 39% các phản hồi không mong muốn so với GPT‑4o (n=677).
- Trong một thẩm định mô hình gồm hơn 1.000 cuộc trò chuyện khó và liên quan đến sức khỏe tâm thần, các bài thẩm định tự động mới của chúng tôi cho thấy mô hình GPT‑5 mới đạt mức tuân thủ 92% các hành vi mong muốn theo quy tắc phân loại, so với 27% của mô hình GPT‑5 trước đó. Như đã đề cập ở trên, đây là một nhiệm vụ đầy thách thức và được thiết kế để hỗ trợ hoạt động cải tiến liên tục.
Chúng tôi đã xây dựngnội dung công việc hiện tại dựa trên các nỗ lực phòng ngừa tự tử và tự hại để nhận biết người dùng đang có suy nghĩ tự tử hoặc tự hại, hoặc các dấu hiệu tổng hợp cho thấy nguy cơ tự tử. Vì những cuộc trò chuyện này rất hiếm, nên việc phát hiện các cuộc trò chuyện có dấu hiệu tiềm ẩn về tự hại hoặc tự tử vẫn là một lĩnh vực nghiên cứu đang được tiếp tục, và chúng tôi vẫn liên tục nỗ lực cải thiện.
- Chúng tôi huấn luyện các mô hình để chúng có thể phản hồi an toàn, bao gồm hướng người dùng đến các nguồn hỗ trợ chuyên nghiệp như đường dây nóng hỗ trợ giải quyết khủng hoảng. Trong một số trường hợp hiếm gặp, mô hình này có thể không hoạt động như dự kiến khi gặp phải tình huống nhạy cảm. Nhờ triển khai các biện pháp bảo vệ bổ sung và cải tiến mô hình, chúng tôi quan sát thấy mức giảm ước tính 65% tỉ lệ các phản hồi không hoàn toàn tuân theo hành vi mong muốn theo như quy tắc phân loại.
- Như đã đề cập ở trên, mặc dù các cuộc trò chuyện này khó phát hiện và đo lường vì hiếm gặp, phân tích ban đầu của chúng tôi ước tính có khoảng 0,15% người dùng hoạt động trong một tuần cụ thể có các cuộc trò chuyện cho thấy dấu hiệu rõ ràng về khả năng đang lên kế hoạch hoặc có ý định tự tử, và 0,05% tin nhắn chứa các dấu hiệu rõ ràng hoặc gián tiếp về ý định hoặc suy nghĩ tự tử.
- Đối với các cuộc trò chuyện khó về tự hại và tự tử, các chuyên gia nhận thấy mô hình GPT‑5 mới đã giảm 52% các câu trả lời không mong muốn so với GPT‑4o (n=630).
- Trong một bài thẩm định mô hình gồm hơn 1.000 cuộc trò chuyện khó về tự hại và tự tử, các thẩm định tự động mới của chúng tôi cho thấy mô hình GPT‑5 mới đạt mức tuân thủ 91% hành vi mong muốn, so với 77% của mô hình GPT‑5 trước đó.
- Chúng tôi tiếp tục cải thiện mức độ tin cậy của GPT‑5 khi tham gia trò chuyện trong thời gian dài. Chúng tôi đã tạo một bộ dữ liệu mới gồm các cuộc trò chuyện dài, khó, và dựa trên các tình huống thực tế được chọn vì có khả năng thất bại cao hơn. Chúng tôi ước tính rằng các mô hình mới nhất của mình duy trì độ tin cậy trên 95% khi trò chuyện trong thời gian dài, cải thiện trong bối cảnh đặc biệt khó mà chúng tôi đã đề cập trước đó.
Trong một thẩm định về các cuộc trò chuyện dài, khó, và liên quan đến tìm kiếm hướng dẫn về tự hại hoặc tự tử, gpt-5-oct-3 an toàn hơn và duy trì mức độ an toàn tốt hơn khi tham gia trò chuyện trong thời gian dài.
Chúng tôi xây dựng quy tắc phân loại về tình trạng phụ thuộc cảm xúc (dựa trên công trình trước đây của chúng tôi(mở trong cửa sổ mới) trong lĩnh vực này) nhằm phân biệt giữa tương tác lành mạnh và các mẫu hình sử dụng đáng lo ngại, chẳng hạn như khi một người cho thấy dấu hiệu có thể là đang gắn bó quá mức với mô hình, gây ảnh hưởng tiêu cực đến các mối quan hệ thực tế, sức khỏe thể chất và tinh thần, hoặc nghĩa vụ của họ.
- Chúng tôi ước tính rằng trong lưu lượng sử dụng thực tế gần đây, bản cập nhật mới nhất đã giảm khoảng 80% tỷ lệ phản hồi không hoàn toàn tuân thủ hành vi mong muốn theo như quy tắc phân loại của chúng tôi về phụ thuộc cảm xúc.
- Như đã đề cập ở trên, mặc dù những cuộc trò chuyện này khó phát hiện và đo lường vì rất hiếm, phân tích ban đầu của chúng tôi ước tính rằng khoảng 0,15% người dùng hoạt động trong một tuần nhất định và 0,03% tin nhắn cho thấy khả năng gắn bó cảm xúc ở mức cao hơn bình thường với ChatGPT.
- Đối với các cuộc trò chuyện khó khăn và cho thấy tình trạng phụ thuộc về cảm xúc, các chuyên gia nhận thấy mô hình GPT‑5 mới đã giảm 42% các câu trả lời không mong muốn so với phiên bản 4o (n=507).
- Trong một thẩm định mô hình gồm hơn 1.000 cuộc trò chuyện khó khăn và cho thấy tình trạng phụ thuộc cảm xúc, các thẩm định tự động của chúng tôi chấm điểm cho mô hình GPT‑5 mới đạt 97% tỉ lệ tuân thủ hành vi mong muốn, so với 50% của mô hình GPT‑5 trước đó.
Đối với các cuộc trò chuyện cho thấy tình trạng phụ thuộc về cảm xúc, chúng tôi dạy các mô hình khuyến khích kết nối trong đời thực:
Nếu trò chuyện liên quan đến niềm tin ảo tưởng, chúng tôi dạy mô hình phản hồi một cách an toàn, đồng cảm, và tránh xác nhận những niềm tin thiếu cơ sở:
Chúng tôi đã xây dựng một Mạng lưới Bác sĩ Toàn cầu gồm gần 300 bác sĩ và nhà tâm lý học có kinh nghiệm hành nghề tại 60 quốc gia để trực tiếp hỗ trợ nghiên cứu về an toàn và phản ánh quan điểm toàn cầu. Hơn 170 chuyên gia lâm sàng này (cụ thể là bác sĩ tâm thần, nhà tâm lý học, và bác sĩ chăm sóc chính) đã hỗ trợ nghiên cứu của chúng tôi trong vài tháng vừa qua theo một hoặc nhiều cách sau:
- Soạn các phản hồi lý tưởng cho lời nhắc liên quan đến sức khỏe tâm thần
- Dựa trên kiến thức lâm sàng để soạn ra các bản phân tích tùy chỉnh về các phản hồi của mô hình
- Xếp hạng mức độ an toàn của các phản hồi từ các mô hình khác nhau
- Hướng dẫn và đóng góp ý kiến trình độ cao về cách tiếp cận của chúng tôi
Trong những đánh giá này, các chuyên gia lâm sàng quan sát thấy mô hình mới nhất phản hồi phù hợp và nhất quán hơn các phiên bản trước đó.
Trong khuôn khổ của công trình này, các bác sĩ tâm thần và nhà tâm lý học đã xem xét hơn 1.800 phản hồi của mô hình liên quan đến các tình huống sức khỏe tâm thần nghiêm trọng và so sánh phản hồi của mô hình trò chuyện GPT‑5 mới với các mô hình trước đó. Các chuyên gia này nhận thấy mô hình mới đã cải thiện đáng kể so với GPT‑4o, khi giảm được 39 - 52% các phản hồi không mong muốn ở tất cả các hạng mục. Ý kiến đóng góp định tính này phản ánh những cải thiện về định lượng mà chúng tôi quan sát thấy trong lưu lượng sử dụng thực tế khi triển khai mô hình mới này.
Cũng như bất kỳ chủ đề phức tạp nào, ngay cả các chuyên gia đôi khi cũng không thống nhất được thế nào là phản hồi tốt nhất. Chúng tôi đo lường sự khác biệt này thông qua mức độ đồng thuận giữa các chuyên gia, tức là tần suất các chuyên gia đưa ra cùng một kết luận về việc phản hồi của mô hình là mong muốn hay không mong muốn. Điều này giúp chúng tôi hiểu rõ hơn là ý kiến chuyên môn khác nhau ở đâu và điều chỉnh hành vi của mô hình thế nào cho phù hợp với phán đoán lâm sàng phù hợp. Chúng tôi quan sát mức độ tin cậy trung bình giữa các chuyên gia khi chấm điểm các phản hồi của mô hình liên quan đến sức khỏe tâm thần, phụ thuộc về cảm xúc, và tự tử, nhưng cũng nhận thấy bất đồng ở một số trường hợp, khi mức đồng thuận giữa các chuyên gia dao động từ 71–77%.
Tương tự như công trình HealthBench, chúng tôi đã hợp tác với Mạng lưới Bác sĩ Toàn cầu để thực hiện các thẩm định nhắm mục tiêu và áp dụng nội bộ nhằm đánh giá hiệu suất mô hình trong các bối cảnh về sức khỏe tâm thần, bao gồm cả các mô hình mới trước khi phát hành.
Công việc này vô cùng quan trọng đối với chúng tôi, và chúng tôi rất biết ơn các chuyên gia sức khỏe tâm thần trên khắp thế giới sẽ tiếp tục vai trò hướng dẫn quá trình này. Chúng ta đã đạt được tiến bộ đáng kể, nhưng vẫn còn nhiều việc phải làm. Chúng tôi sẽ tiếp tục phát triển các quy tắc phân loại và hệ thống kỹ thuật để đo lường và củng cố hành vi của mô hình ở các lĩnh vực này và các lĩnh vực trong tương lai. Do các công cụ này phát triển theo thời gian, các phép đo trong tương lai có thể không phù hợp để so sánh trực tiếp với các phép đo trước đây, nhưng chúng vẫn là cách quan trọng giúp theo dõi hướng đi và tiến bộ của chúng tôi.
Bạn có thể đọc thêm về công trình này trong phụ lục thẻ thông tin tổng quan về hệ thống GPT‑5.
Tác giả
Ghi chú cuối trang
- 1
Chúng tôi đối mặt với lựa chọn đánh đổi giữa mức chính xác (tần suất các cuộc trò chuyện bị hệ thống chúng tôi đánh dấu là không an toàn) và độ bao phủ (tỉ lệ các cuộc trò chuyện không an toàn mà hệ thống phát hiện được). Để đạt được độ bao phủ hữu ích, chúng tôi phải chấp nhận sẽ có những kết quả dương tính giả. Điều này tương tự như xét nghiệm các bệnh hiếm gặp: nếu một bệnh ảnh hưởng đến một trong 10.000 người, thì ngay cả xét nghiệm có độ chính xác cao cũng có thể đánh dấu nhiều người khỏe mạnh hơn những người mắc bệnh.
- 2
Tất cả những thay đổi này đều liên quan đến phiên bản GPT-5 được phát hành ngày 15 tháng 8(mở trong cửa sổ mới).
- 3
Xin lưu ý rằng một số người dùng và tin nhắn có thể cho thấy dấu hiệu của nhiều loại nguy cơ cùng một lúc, chẳng hạn dấu hiệu về cả tự hại lẫn phụ thuộc cảm xúc, nên sẽ có sự chồng chéo giữa các hạng mục được báo cáo ở đây và phía dưới.


