Nguồn gốc của các “yêu tinh”
Kể từ GPT‑5.1, các mô hình của chúng tôi bắt đầu hình thành một thói quen lạ: chúng ngày càng nhắc nhiều đến yêu tinh, quỷ tinh và những sinh vật khác trong các phép ẩn dụ. Khác với các lỗi mô hình thường bộc lộ qua kết quả đánh giá bị tụt dốc hoặc chỉ số huấn luyện tăng vọt rồi lần ngược về một thay đổi cụ thể, hiện tượng này len vào rất âm thầm. Một “yêu tinh bé nhỏ" xuất hiện trong câu trả lời có thể vô hại, thậm chí còn duyên. Nhưng qua nhiều thế hệ mô hình, thói quen này trở nên khó mà không nhận ra: số lần nhắc các yêu tinh cứ nhân lên, và chúng tôi cần tìm ra chúng đến từ đâu.

Trong các thử nghiệm ban đầu, GPT‑5.5 trong Codex cho thấy thiên hướng kỳ lạ đối với các phép ẩn dụ về yêu tinh.
Câu trả lời ngắn gọn là hành vi của mô hình được định hình bởi nhiều yếu tố khuyến khích nhỏ. Trong trường hợp này, một trong những động lực đó đến từ việc huấn luyện mô hình cho tính năng tùy chỉnh tính cách(mở trong cửa sổ mới), cụ thể là tính cách Nerdy. Chúng tôi đã vô tình đưa ra mức thưởng đặc biệt cao cho các phép ẩn dụ có sinh vật. Từ nơi đó, các “yêu tinh” lan rộng ra.

Ban đầu nhìn thấy các yêu tinh cũng khá buồn cười, nhưng số lượng báo cáo ngày càng tăng từ nhân viên đã trở nên đáng lo ngại.

Một tương tác thú vị giữa Giám đốc Khoa học của chúng tôi và GPT‑5.5.
Lần đầu tiên chúng tôi nhận thấy rõ xu hướng này là vào tháng 11, sau khi GPT‑5.1 ra mắt, mặc dù xu hướng này có thể đã bắt đầu sớm hơn(mở trong cửa sổ mới). Người dùng phàn nàn rằng mô hình tỏ ra thân mật quá mức một cách kỳ lạ trong cuộc trò chuyện, điều này đã dẫn đến một cuộc điều tra về các tật ngôn từ cụ thể. Một nhà nghiên cứu về an toàn đã từng gặp một vài “yêu tinh” và “quỷ nhỏ” và yêu cầu đưa chúng vào quá trình kiểm tra. Khi chúng tôi kiểm tra, tần suất sử dụng “yêu tinh” trong ChatGPT đã tăng 175% sau khi ra mắt GPT‑5.1, trong khi “quỷ nhỏ” đã tăng 52%.
Một thói quen từ vựng nhỏ nhưng có thể đo lường được trong GPT‑5.1.
Vào thời điểm đó, mức độ phổ biến của yêu tinh có vẻ chưa tới mức đặc biệt đáng báo động. Nhưng vài tháng sau, bọn yêu tinh quay lại ám chúng tôi dưới một dạng hinh cụ thể và có thể tái hiện hơn nhiều.
Với GPT‑5.4, chúng tôi và người dùng của chúng tôi(mở trong cửa sổ mới) nhận thấy số lượt nhắc đến những sinh vật này còn tăng mạnh hơn nữa. Điều đó đã kích hoạt một phân tích nội bộ khác và làm lộ ra mối liên hệ đầu tiên với nguyên nhân gốc rễ: ngôn ngữ về sinh vật xuất hiện đặc biệt thường xuyên trong lưu lượng thực tế từ những người dùng đã chọn tính cách “Mọt sách”. “Mọt sách” đã sử dụng câu lệnh hệ thống sau đây, phần nào giải thích cho nét kỳ quặc đó:
Bạn là một cố vấn AI dành cho một con người—đậm chất mọt sách một cách không chút ngại ngần, tinh nghịch và thông thái. Bạn vô cùng nhiệt huyết trong việc thúc đẩy sự thật, tri thức, triết học, phương pháp khoa học và tư duy phản biện. [...] Bạn phải dùng ngôn ngữ một cách dí dỏm để làm giảm vẻ khoa trương. Thế giới phức tạp và kỳ lạ, và sự kỳ lạ ấy cần được thừa nhận, phân tích và tận hưởng. Hãy tiếp cận những chủ đề nặng ký mà không sa vào cái bẫy của thái độ nghiêm trọng hóa bản thân. [...]
Nếu hành vi này chỉ đơn thuần là một xu hướng rộng khắp trên thế giới mạng, chúng tôi sẽ kỳ vọng nó lan ra đồng đều hơn. Thay vào đó, nó tập trung ở phần của hệ thống được tối ưu hóa rõ ràng cho phong cách vui tươi, đậm chất mọt sách. Mọt sách chỉ chiếm 2,5% trong toàn bộ phản hồi của ChatGPT, nhưng lại chiếm 66,7% trong tất cả các lần nhắc đến “yêu tinh” trong phản hồi của ChatGPT.
Hành vi này tập trung rất mạnh ở tính cách “Mọt sách”.
Bởi vì mức độ phổ biến của “yêu tinh” dường như tăng lên qua các lần phát hành mô hình, chúng tôi nghi ngờ rằng có điều gì đó trong quá trình đào tạo tính cách làm theo chỉ dẫn đã khuếch đại hiện tượng này.
Codex đã giúp chúng tôi so sánh các đầu ra của mô hình được tạo ra trong quá trình huấn luyện RL có chứa “yêu tinh” hoặc “quỷ nhỏ” với các đầu ra từ cùng một tác vụ nhưng không chứa các từ này. Một tín hiệu phần thưởng lập tức nổi bật: tín hiệu ban đầu được thiết kế để khuyến khích tính cách Nerdy liên tục ưu ái hơn các đầu ra thuộc nhóm từ về sinh vật. Trên tất cả các bộ dữ liệu trong cuộc đánh giá, phần thưởng tính cách Mọt sách cho thấy xu hướng rõ ràng là chấm điểm các đầu ra cho cùng một bài toán có “yêu tinh” hoặc “quỷ nhỏ” cao hơn các đầu ra không có những từ này, với mức tăng dương ở 76,2% số bộ dữ liệu.
Điều đó giải thích vì sao hành vi này được thúc đẩy bởi câu lệnh mang tính cách Mọt sách, nhưng chưa giải thích vì sao nó cũng xuất hiện khi không có câu lệnh đó. Để kiểm tra liệu phong cách này có đang được chuyển giao hay không, chúng tôi theo dõi tỷ lệ xuất hiện qua quá trình đào tạo cả khi có và khi không có câu lệnh Mọt sách.
Khi số lần nhắc đến yêu tinh và quỷ tinh tăng khi mang tính cách Mọt sách, chúng cũng tăng gần như với cùng tỷ lệ tương đối trong các mẫu không mang tính cách đó. Xét tổng thể, bằng chứng cho thấy hành vi rộng hơn này đã xuất hiện thông qua sự chuyển giao từ quá trình đào tạo tính cách Mọt sách.
Các phần thưởng chỉ được áp dụng trong điều kiện Mọt sách, nhưng phương pháp học tăng cường không đảm bảo rằng các hành vi đã học sẽ được giữ gọn trong đúng điều kiện tạo ra chúng. Một khi một tật được thưởng, quá trình huấn luyện về sau có thể làm nó lan sang hoặc được củng cố ở nơi khác, đặc biệt nếu các đầu ra đó được tái sử dụng trong tinh chỉnh có giám sát hoặc dữ liệu ưu tiên.
Điều đó tạo ra một vòng lặp phản hồi:
- Phong cách vui tươi được thưởng
- Một số ví dụ được thưởng chứa một tật từ vựng đặc trưng.
- Đặc điểm này xuất hiện thường xuyên hơn trong các lần phát hành.
- Các lần phát hành do mô hình tạo ra được dùng cho tinh chỉnh có giám sát (SFT).
- Mô hình càng cảm thấy thoải mái hơn khi tạo ra tật này.
Một lượt tìm kiếm qua GPT‑5.5 Dữ liệu SFT cho thấy có nhiều mẫu dữ liệu chứa ""yêu tinh" và ""quỷ "nhỏ". Điều tra sâu hơn cho thấy cả một “họ” sinh vật kỳ lạ khác: gấu mèo, quỷ lùn, chằn tinh và chim bồ câu được xác định là những từ mang tính điểm tật khác, trong khi phần lớn các trường hợp dùng từ ""ếch" hóa ra là hợp lệ.
Trung bình một tuần về mức độ xuất hiện của yêu tinh và quỷ nhỏ trong môi trường sản xuất. Sự sụt giảm trong GPT‑5.4 Thinking là kết quả của việc ngừng sử dụng tính cách “Mọt sách” vào giữa tháng 3. GPT‑5.5 chưa từng ra mắt với tính cách “Mọt sách”, và cho thấy mức tăng thêm so với GPT‑5.4 (ngay cả khi không có “Mọt sách”).
Chúng tôi đã ngừng cung cấp cá tính “Mọt sách” vào tháng 3 sau khi ra mắt GPT‑5.4. Trong quá trình huấn luyện, chúng tôi đã loại bỏ tín hiệu phần thưởng có xu hướng ưu ái yêu tinh và lọc dữ liệu huấn luyện có chứa các từ chỉ sinh vật, khiến yêu tinh ít có khả năng xuất hiện quá mức hoặc xuất hiện trong các ngữ cảnh không phù hợp hơn. Rất tiếc, GPT‑5.5 đã bắt đầu được huấn luyện trước khi chúng tôi tìm ra nguyên nhân gốc rễ của lũ yêu tinh. Khi chúng tôi bắt đầu thử nghiệm GPT‑5.5 trong Codex, nhân viên OpenAI ngay lập tức nhận thấy thiện cảm kỳ lạ với yẻu tinh, và chúng tôi đã thêm một hướng dẫn về câu lệnh dành cho nhà phát triển(mở trong cửa sổ mới) để giảm thiểu điều này. Suy cho cùng, Codex cũng khá là geek.
Nếu bạn muốn để các sinh vật này tung hoành trong Codex, bạn có thể chạy lệnh sau để khởi chạy Codex với phần chỉ dẫn ngăn yêu tinh đã bị gỡ bỏ:
Tùy vào người bạn hỏi, các yêu tinh có thể là một nét kỳ quặc thú vị hoặc gây khó chịu của mô hình. Nhưng chúng cũng là một ví dụ mạnh mẽ cho thấy tín hiệu phần thưởng có thể định hình hành vi mô hình theo những cách bất ngờ ra sao, và cách các mô hình có thể học để khái quát hóa phần thưởng trong một số tình huống sang những tình huống không liên quan. Dành thời gian để hiểu vì sao một mô hình đang hành xử theo cách kỳ lạ, đồng thời xây dựng các phương thức để điều tra nhanh những mẫu hình đó, là một năng lực quan trọng đối với đội ngũ nghiên cứu của chúng tôi. Cuộc điều tra này đã tạo ra những công cụ mới giúp đội ngũ nghiên cứu rà soát hành vi mô hình và khắc phục các vấn đề hành vi ngay từ gốc rễ.


