Vì sao các mô hình ngôn ngữ lại bịa ra thông tin không có thật (ảo giác AI)

Tại OpenAI, chúng tôi đang làm việc chăm chỉ để khiến các hệ thống AI hữu ích và đáng tin cậy hơn. Ngay cả khi năng lực của các mô hình ngôn ngữ đã được tăng cường, một thách thức vẫn tiếp tục tồn tại dai dẳng, chưa thể giải quyết dứt điểm: ảo giác AI. Đây là những lần mà một mô hình tự tin tạo ra một câu trả lời không có thật. Nghiên cứu mới(mở trong cửa sổ mới) của chúng tôi lập luận rằng các mô hình ngôn ngữ bịa ra thông tin không có thật do quy trình huấn luyện và đánh giá tiêu chuẩn thường khuyến khích đoán mò thay vì thừa nhận việc thiếu chắc chắn về câu trả lời.
ChatGPT cũng gặp hiện tượng ảo giác AI. GPT‑5 cho thấy hiện tượng này ít hơn đáng kể đặc biệt là khi suy luận, tuy nhiên điều này vẫn xảy ra. Hiện tượng ảo giác AI vẫn là một thách thức cơ bản ở tất cả các mô hình ngôn ngữ lớn, nhưng chúng tôi đang nỗ lực giảm thiểu hiện tượng này hơn nữa.
Ảo giác AI là những tuyên bố nghe có vẻ hợp lý nhưng lại sai sự thật do các mô hình ngôn ngữ tạo ra. Chúng có thể xuất hiện theo những cách bất ngờ, ngay cả trước những câu hỏi tưởng chừng rất đơn giản. Ví dụ, khi chúng tôi hỏi một chatbot phổ biến về tiêu đề luận án tiến sĩ của Adam Tauman Kalai (một tác giả của nghiên cứu này), mô hình đó tự tin đưa ra ba câu trả lời khác nhau, và không câu trả lời nào chính xác. Khi chúng tôi hỏi ngày sinh của tác giả này, cả ba ngày tháng khác nhau mà chatbot đưa ra đều sai.
Hiện tượng ảo giác AI vẫn tiếp tục tồn tại, một phần vì các phương pháp đánh giá hiện tại lại có các thiết lập khuyến khích lệch lạc. Mặc dù bản thân các đánh giá không trực tiếp gây ra hiện tượng ảo giác AI, nhưng hầu hết các đánh giá lại đều đo lường hiệu suất của mô hình theo cách thức khuyến khích đoán mò thay vì nói thật về việc không chắc chắn.
Hãy hình dung một bài kiểm tra trắc nghiệm. Nếu bạn không biết câu trả lời nhưng đoán bừa, bạn có thể may mắn chọn được câu trả lời đúng. Để trống câu trả lời thì chắc chắn sẽ nhận điểm 0. Tương tự như vậy, khi các mô hình chỉ được đánh giá dựa trên độ chính xác, tức là tỷ lệ phần trăm câu hỏi đã được trả lời đúng hoàn toàn, chúng được khuyến khích đoán mò thay vì nói "Tôi không biết".
Ví dụ khác là khi một mô hình ngôn ngữ được hỏi về ngày sinh của ai đó mà nó không biết. Nếu nó đoán "ngày 10 tháng 9" thì cơ hội đoán đúng sẽ là 1/365. Còn nếu nói "Tôi không biết" thì chắc chắn sẽ nhận điểm 0. Xét trên hàng nghìn câu hỏi kiểm tra, mô hình chọn cách đoán mò thường có điểm số cao hơn so với mô hình thận trọng thừa nhận mỗi khi không chắc chắn về câu trả lời.
Đối với những câu hỏi có một "câu trả lời đúng duy nhất", ta có thể chia phản hồi thành ba loại: câu trả lời chính xác, trả lời sai, và không đưa ra câu trả lời trong trường hợp mô hình không mạo hiểm dự đoán. Không đưa ra câu trả lời là một phần của khiêm tốn, một trong những giá trị cốt lõi của OpenAI. Hầu hết các bảng điểm đều ưu tiên và xếp hạng các mô hình dựa trên mức độ chính xác, nhưng trả lời sai còn tệ hơn không đưa ra câu trả lời. Bản đặc tả mô hình(mở trong cửa sổ mới) của chúng tôi quy định: xác nhận việc thiếu chắc chắn hoặc yêu cầu làm rõ sẽ tốt hơn là cung cấp thông tin một cách tự tin nhưng có thể không chính xác.
Ví dụ cụ thể: hãy xem xét đánh giá SimpleQA từ Thẻ Hệ thống GPT5(mở trong cửa sổ mới).
Số liệu | gpt-5-thinking-mini | OpenAI o4-mini |
Tỷ lệ không đưa ra câu trả lời
| 52% | 1% |
Tỷ lệ chính xác
| 22% | 24% |
Tỷ lệ sai sót
| 26% | 75% |
Tổng | 100% | 100% |
Xét về mức độ chính xác, mô hình OpenAI o4-mini cũ thực hiện tốt hơn một chút. Tuy nhiên, tỷ lệ sai sót (tức là tỷ lệ bịa ra thông tin không có thật) của mô hình đó cao hơn đáng kể. Chiến lược đoán mò khi không chắc chắn giúp cải thiện mức chính xác, nhưng lại tăng sai sót và ảo giác AI.
Khi tính trung bình kết quả qua hàng chục đánh giá, hầu hết các đối chuẩn chỉ lấy ra số liệu về mức chính xác, nhưng điều đó dẫn đến việc phân chia giả tạo giữa đúng và sai. Trên các đánh giá đơn giản như SimpleQA, một số mô hình đạt mức chính xác là gần 100%, và do đó loại bỏ được hiện tượng ảo giác AI. Tuy nhiên, ở các đánh giá khó và trong sử dụng thực tế, mức độ chính xác bị giới hạn dưới 100% vì có một số câu hỏi mà câu trả lời không thể xác định được vì nhiều lý do, chẳng hạn như thông tin không có sẵn, năng lực tư duy hạn chế của các mô hình nhỏ, hoặc các điểm mơ hồ cần được làm rõ.
Tuy nhiên, các bảng điểm chỉ dựa trên mức độ chính xác lại chiếm ưu thế trong các bảng xếp hạng và thẻ mô hình, thúc đẩy các nhà phát triển xây dựng các mô hình có xu hướng đoán mò thay vì kiềm chế và đưa ra câu trả lời về việc không chắc chắn. Đó là một trong những lý do giải thích tại sao, ngay cả khi các mô hình trở nên tiên tiến hơn, chúng vẫn có thể bịa ra thông tin không có thật, tự tin đưa ra câu trả lời sai thay vì thừa nhận việc không chắc chắn.
Có một cách khắc phục đơn giản. Phạt hành vi tự tin đưa ra câu trả lời sai nặng hơn xác nhận không chắc chắn về câu trả lời, và cho điểm một phần đối với những phản hồi phù hợp về việc không chắc chắn. Ý tưởng này không phải mới. Một số bài kiểm tra chuẩn hóa từ lâu đã sử dụng các hình thức trừ điểm cho câu trả lời sai, hoặc cho điểm một phần khi để trống câu trả lời nhằm ngăn chặn việc đoán mò. Một số nhóm nghiên cứu cũng tìm hiểu các phương pháp đánh giá có tính đến việc thiếu chắc chắn và hiệu chỉnh.
Quan điểm của chúng tôi lại khác. Chỉ bổ sung một vài bài kiểm tra nhận thức về việc thiếu chắc chắn thôi là không đủ. Các bài đánh giá phổ biến, dựa trên độ chính xác cần được cập nhật để cách chấm điểm không còn khuyến khích việc đoán mò. Chừng nào các bảng điểm chính vẫn tiếp tục thưởng điểm cho những lần đoán mò may mắn trả lời đúng, thì chừng đó các mô hình vẫn tiếp tục học cách đoán mò. Sửa các bảng điểm có thể mở rộng việc áp dụng các kỹ thuật giảm thiểu hiện tượng ảo giác AI, bao gồm cả kỹ thuật mới phát triển và kỹ thuật từ nghiên cứu trước đây.
Chúng ta đã nói về lý do tại sao khó loại bỏ hiện tượng ảo giác AI, nhưng những sai sót thực tế đặc biệt cụ thể này có nguyên nhân từ đâu? Hóa ra là các mô hình lớn được huấn luyện trước hiếm khi gặp phải những lỗi khác như sai chính tả hay dấu ngoặc không khớp. Sự khác biệt chắc chắn nằm ở chỗ dữ liệu có những loại mẫu hình nào.
Trước hết, các mô hình ngôn ngữ đều học tập thông qua huấn luyện trước - quá trình dự đoán từ kế tiếp trong một lượng lớn văn bản. Khác với các vấn đề học máy truyền thống, không có nhãn "đúng/sai" gắn với mỗi tuyên bố. Mô hình chỉ được thấy những ví dụ tốt về ngôn ngữ trôi chảy và phải ước lượng gần đúng việc phân bố tổng thể.
Phân biệt tuyên bố hợp lệ và không hợp lệ trở nên khó gấp đôi khi bạn không có bất kỳ ví dụ nào được gắn nhãn là không hợp lệ. Nhưng ngay cả khi được gắn nhãn, một số sai sót vẫn không thể tránh khỏi. Để hiểu tại sao, hãy cùng xem xét một phép so sánh đơn giản hơn. Trong nhận dạng hình ảnh, nếu hàng triệu bức ảnh mèo và chó được dán nhãn là "mèo" hoặc "chó", thì các thuật toán có thể học cách phân loại chúng một cách đáng tin cậy. Nhưng hãy hình dung nếu mỗi bức ảnh thú cưng được dán nhãn bằng ngày sinh của chúng. Vì ngày sinh là ngẫu nhiên, nên nhiệm vụ này sẽ luôn tạo ra sai sót, bất kể thuật toán có tiên tiến đến đâu.
Nguyên tắc tương tự cũng áp dụng cho quá trình huấn luyện trước. Lỗi chính tả và dấu ngoặc tuân theo các mẫu hình nhất quán, vì vậy khi quy mô dữ liệu tăng lên, các sai sót ở đó sẽ biến mất. Tuy nhiên, không thể dự đoán những thông tin thực tế không bị bó buộc và rất đa dạng như ngày sinh của thú cưng nếu chỉ căn cứ vào các mẫu hình, và do đó gây ra hiện tượng ảo giác AI. Phân tích của chúng tôi giải thích các loại ảo giác AI nào sẽ phát sinh từ việc dự đoán từ kế tiếp. Một cách lý tưởng, các giai đoạn tiếp theo sau quá trình huấn luyện trước nên loại bỏ các loại ảo giác này, nhưng điều này không thể thành công hoàn toàn vì những lý do đã được mô tả ở phần trước.
Chúng tôi hy vọng góc nhìn thống kê trong nghiên cứu của mình đã làm rõ bản chất của hiện tượng ảo giác AI và phản bác lại những hiểu lầm phổ biến:
- Nhận định: Ảo giác AI sẽ bị loại bỏ thông qua tăng cường chính xác, vì một mô hình chính xác 100% sẽ không bao giờ bịa ra thông tin không có thật.
Kết quả: Độ chính xác sẽ không bao giờ đạt 100%, vì bất kể kích thước, năng lực tìm kiếm và suy luận của mô hình ra sao, trong thế giới thực sẽ luôn có những câu hỏi không thể tìm được câu trả lời. - Nhận định: Hiện tượng ảo giác AI là không thể tránh khỏi.
Kết quả: Không phải vậy, vì các mô hình ngôn ngữ có thể tiết chế câu trả lời khi không chắc chắn. - Nhận định: Để tránh hiện tượng ảo giác AI, sẽ đòi hỏi một mức độ trí tuệ mà chỉ có thể đạt được ở các mô hình lớn hơn.
Kết quả: Mô hình nhỏ dễ dàng nhận biết các giới hạn của mình hơn. Ví dụ, khi được yêu cầu trả lời một câu hỏi bằng tiếng Māori, mô hình nhỏ không biết gì về tiếng Māori có thể sẽ chỉ nói: "Tôi không biết" trong khi mô hình biết một chút tiếng Māori lại phải xác định mức độ tự tin của mình. Như đã thảo luận trong bài nghiên cứu này, “hiệu chỉnh" đòi hỏi ít tính toán hơn nhiều so với đạt được chính xác. - Nhận định: Hiện tượng ảo giác AI là một lỗi khó hiểu trong các mô hình ngôn ngữ hiện đại.
Kết quả: Chúng ta hiểu về cơ chế thống kê phát sinh hiện tượng này, và ảo giác AI được thưởng điểm trong các bài đánh giá. - Nhận định: Để đo lường hiện tượng ảo giác AI, chúng ta chỉ cần một đánh giá hiệu quả về hiện tượng này.
Kết quả: Các đánh giá về ảo giác AI đã được công bố. Tuy nhiên, một đánh giá tốt về ảo giác AI chỉ có tác động như muối bỏ biển trước hàng trăm đánh giá truyền thống dựa trên chính xác vốn sẽ trừ điểm những câu trả lời thận trọng và thưởng điểm cho việc đoán mò. Thay vào đó, tất cả các chỉ số đánh giá chính cần được làm lại để thưởng điểm cho những biểu đạt về việc thiếu chắc chắn.
Các mô hình mới nhất của chúng tôi có tỷ lệ ảo giác AI thấp hơn, và chúng tôi tiếp tục nỗ lực giảm thêm tỷ lệ câu trả lời tự tin nhưng sai sót mà các mô hình ngôn ngữ của chúng tôi tạo ra.
Những người đóng góp cho thông báo
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


