Dự đoán hành vi mô hình trước khi phát hành bằng mô phỏng triển khai
Dùng bối cảnh trò chuyện thực tế để ước tính tốt hơn hành vi không mong muốn của mô hình trước khi phát hành.
Trước khi phát hành một mô hình mới, các phòng thí nghiệm cần hiểu không chỉ mô hình đó có thể làm gì, mà còn có khả năng hành xử ra sao khi sử dụng trong thế giới thực, bao gồm cả những nơi nó có thể tạo ra rủi ro mới. Điều này càng trở nên quan trọng hơn khi năng lực tăng lên. Trong quy trình rà soát an toàn trước triển khai, chúng tôi tận dụng các đánh giá có mục tiêu, kiểm thử red-team và các bước kiểm tra khác để hiểu hành vi của mô hình. Chúng tôi hiện đã bắt đầu dùng một phương pháp mô phỏng việc triển khai mô hình trước khi chính thức phát hành. Bước này nhằm mang lại tín hiệu bổ trợ: một kịch bản giả lập cảnh triển khai để quan sát cách mô hình ứng viên có thể hành xử trước khi tiếp cận người dùng.
Mô phỏng triển khai là phương pháp mô phỏng một lần triển khai trong tương lai trước khi nó diễn ra. Chúng tôi làm vậy bằng cách phát lại các cuộc trò chuyện trước đây nhưng bảo đảm quyền riêng tư với một mô hình ứng viên mới. Điều này cho phép chúng tôi nghiên cứu cách mô hình mới phản hồi trong các bối cảnh thực tế trước khi phát hành, bao gồm liệu các hành vi không mong muốn mới có xuất hiện hay không và tần suất chúng xuất hiện ở mức nào.
Trên nhiều đợt triển khai Chế độ Suy luận thuộc dòng GPT‑5, Mô phỏng triển khai đã cải thiện ước tính của chúng tôi về tỷ lệ hành vi không mong muốn của mô hình, giúp phát hiện các dạng lệch hướng mới trước khi phát hành và giúp giảm rủi ro mô hình có thể nhận ra rằng chúng đang được kiểm thử. Chúng tôi cũng áp dụng phương pháp này cho các đợt triển khai tác nhân nhiều thách thức, cho thấy nó có thể mở rộng vượt ra ngoài chế độ trò chuyện tiêu chuẩn sang các bối cảnh tác nhân phức tạp hơn có sử dụng công cụ, và cũng có thể dùng để đánh giá rủi ro trước các đợt triển khai mô hình nội bộ.
Chúng tôi đã ứng dụng những hiểu biết chuyên sâu từ Mô phỏng triển khai trong quá trình phát triển mô hình để xác định các điểm mù trong đánh giá truyền thống và cung cấp thông tin cho các biện pháp giảm thiểu cũng như quyết định triển khai. Khi hệ thống vận hành mượt mà hơn, chúng tôi kỳ vọng nó sẽ đóng vai trò cốt lõi hơn trong quy trình phát triển mô hình tương lai.
Các đánh giá trước triển khai được dùng trong toàn ngành thường gồm sự kết hợp giữa các câu lệnh tổng hợp, viết thủ công hoặc từ sản xuất, được chọn có chủ đích để khó, có mức độ nghiêm trọng cao hoặc mang tính đối kháng. Những đánh giá này nhìn chung có hai mục tiêu gắn bó với nhau: đánh giá cách mô hình phản hồi khi bị kiểm thử áp lực trong các tình huống có xác suất rất nhỏ xảy ra trong lưu lượng triển khai, và hiểu tổng quát về các hành vi không mong muốn của mô hình, bao gồm tìm các hành vi không mong muốn mới và dự đoán tần suất của chúng tại thời điểm triển khai.
Trong khi các đánh giá truyền thống vẫn rất quan trọng cho mục tiêu thứ nhất, Mô phỏng triển khai là một bước tiến đáng kể đối với mục tiêu thứ hai cho các rủi ro không thuộc phần đuôi (trong các thí nghiệm của chúng tôi, cách tiếp cận này không thể kỳ vọng đo được các hành vi xảy ra với tần suất dưới 1 trên 200.000 tin nhắn). Sức mạnh của Mô phỏng triển khai đến từ việc tránh được một số thách thức cốt lõi mà các đánh giá truyền thống gặp phải:
- Phạm vi bao phủ: rất khó để đảm bảo các câu lệnh đánh giá sẽ bao phủ mọi kịch bản hành vi không mong muốn của mô hình. Đo lường các loại hành vi không mong muốn mới đòi hỏi tạo ra các đánh giá mới và biết cần đo những tác hại nào. Việc này có thể tốn nhiều thời gian và công sức, trong khi đánh giá có thể trở nên bão hòa theo thời gian.
- Thiên kiến lựa chọn: các đánh giá truyền thống thường được xây dựng với một số hành vi không mong muốn cụ thể của mô hình trong đầu, được chọn theo cách thiên về những bối cảnh đã từng xảy ra. Điều này có thể làm giảm giá trị thông tin từ các ước tính của chúng về tần suất xảy ra các hành vi như vậy trong toàn bộ phạm vi phân phối triển khai.
- Bị mô hình nhận ra là bài kiểm thử: các mô hình ngày càng có khả năng xác định rằng chúng đang được kiểm thử, điều này có thể làm sai lệch hành vi của chúng và các phép đo an toàn về sau của chúng tôi. Dù nhiều đánh giá truyền thống mà chúng tôi dùng tại OpenAI cũng được lấy từ lưu lượng thực tế và không gặp vấn đề này, đây là mối lo phổ biến đối với nhiều đánh giá truyền thống được dùng trong toàn ngành.
Kỹ thuật chính đằng sau Mô phỏng triển khai rất đơn giản: chúng tôi lấy các cuộc trò chuyện gần đây từ triển khai, loại bỏ phản hồi trợ lý ban đầu từ mô hình cũ hơn, rồi tạo lại phản hồi đó bằng một mô hình ứng viên sắp được phát hành. Chúng tôi đánh giá các phần hoàn thành bằng cách tìm các chế độ lỗi mới, và ước tính tần suất hành vi không mong muốn tại thời điểm triển khai dựa trên tần suất trong phân phối giống triển khai này. Chúng tôi có thể thực hiện các phép đo tương tự sau khi phát hành trên lưu lượng triển khai thực, cho phép xác thực các dự báo trước triển khai của mình.
Mô phỏng triển khai giảm đáng kể ba hạn chế nêu trên: thiên lệch lấy mẫu được xử lý bằng cách dùng một phân phối các câu lệnh đánh giá mang tính đại diện cho mức sử dụng gần đây. Mô phỏng triển khai với các câu lệnh mang tính đại diện cũng có thể giảm bớt lo ngại về độ bao phủ: chúng tôi có được độ bao phủ lớn hơn đối với các hành vi không mong muốn của mô hình đơn giản bằng cách mô phỏng thêm nhiều lưu lượng truy cập. Sự đánh đổi giữa hiệu năng tính toán và độ bao phủ này rất quan trọng, bởi vì nó giúp chất lượng của khía cạnh đánh giá rủi ro này tỷ lệ thuận với hiệu năng tính toán, thay vì phụ thuộc vào nỗ lực thủ công cần thiết để xây dựng thêm đánh giá. Các mô hình dường như cũng không thể phân biệt giữa các cuộc trò chuyện thu được qua mô phỏng triển khai và lưu lượng triển khai thực tế.
Hình 1: Tổng quan về hệ thống Mô phỏng triển khai của chúng tôi
Lĩnh vực | Đánh giá truyền thống | Mô phỏng triển khai |
Độ bao phủ | Tốt hơn cho các rủi ro có mức phổ biến thấp nhưng mức nghiêm trọng cao mà chúng ta muốn chắc chắn được bao phủ | Tốt hơn cho việc thấu hiểu toàn bộ các mức độ rủi ro mà chúng ta có khả năng sẽ gặp phải trong lưu lượng truy cập thực tế |
Tính đại diện / thiên lệch | Tập trung vào đánh giá các rủi ro trong quá khứ hoặc được dự đoán có mục tiêu, ngay cả với các hành vi có mức phổ biến cực thấp trong triển khai | Đại diện cho các rủi ro rủi ro xuất hiện vượt quá một tỷ lệ phổ biến nhất định trong lưu lượng truy cập thực tế hiện tại |
Nhận biết bị đánh giá | Các tín hiệu kiểm thử có thể rõ ràng (ví dụ: với dữ liệu tổng hợp), trừ khi bài đánh giá được tạo bằng dữ liệu triển khai | Kịch bản giả lập triển khai dường như làm suy giảm đáng kể nhận biết bị đánh giá |
Nỗ lực | Các phân phối câu lệnh và thiết lập tùy chỉnh đòi hỏi nhiều công sức thủ công hơn đáng kể | Đòi hỏi chi phí hạ tầng một lần, sau đó tái sử dụng tiền tố từ triển khai và bộ chấm điểm từ các hành vi không mong muốn đã biết |
So sánh cấp cao giữa các đánh giá truyền thống và Mô phỏng triển khai
Để đánh giá Mô phỏng triển khai, chúng tôi đã đăng ký trước các dự đoán về tần suất tại thời điểm triển khai của 20 loại hành vi không mong muốn cho Chế độ Suy luận GPT‑5.4. Chúng tôi cũng thực hiện các nghiên cứu hồi cứu trên các đợt triển khai khác của các mô hình Chế độ Suy luận thuộc dòng GPT‑5. Các hành vi mô hình mà chúng tôi phân tích bao gồm cả lệch hướng và các danh mục nội dung không được phép mà chúng tôi đã báo cáo trong các thẻ hệ thống (ví dụ: mô hình nói dối về công cụ, hoặc xuất nội dung khiêu dâm không được phép). Dù trong các kết quả này chúng tôi chỉ theo dõi 20 danh mục hành vi không mong muốn của mô hình và chỉ tìm các hành vi lệch hướng mới, Mô phỏng triển khai là một kỹ thuật tổng quát có thể áp dụng để mô phỏng bất kỳ thuộc tính nào của mô hình tại thời điểm triển khai.
Lưu lượng truy cập thực tế mà chúng tôi tận dụng cũng đến từ các mô hình Chế độ Suy luận thuộc dòng GPT‑5. Trước khi tiến hành các đánh giá, chúng tôi đã tự động loại bỏ các định danh liên kết với tài khoản và thông tin có thể nhận dạng danh tính. Theo đúng chính sách bảo mật của chúng tôi, chúng tôi chỉ phân tích lưu lượng truy cập ChatGPT từ những người dùng cho phép dữ liệu của họ được sử dụng để cải tiến mô hình. Chúng tôi chỉ báo cáo các kết quả dưới dạng tổng hợp từ các đánh giá này. Tổng cộng, chúng tôi đã phân tích khoảng 1,3 triệu cuộc trò chuyện đã được khử định danh trên các đợt triển khai từ Chế độ Suy luận GPT‑5 đến GPT‑5.4, kéo dài từ tháng 8 năm 2025 đến tháng 3 năm 2026.
Chúng tôi đánh giá chất lượng của đánh giá rủi ro trước triển khai do Mô phỏng triển khai tạo ra theo ba cách chính:
- Độ bao phủ phân loại: kiểm toán sau phát hành có phát hiện hành vi lệch hướng quan trọng nào bị thiếu trong hệ phân loại hành vi xấu ban đầu của chúng tôi không?
- Độ chính xác về chiều hướng: mô phỏng có dự đoán đúng liệu mức phổ biến khi triển khai sẽ tăng hay giảm đối với các hành vi đã biết không?
- Hiệu chuẩn tỷ lệ: các ước tính trước triển khai của chúng tôi có gần với các tỷ lệ mà sau đó chúng tôi quan sát được trong triển khai không? Đạt được hiệu chuẩn tỷ lệ tốt đòi hỏi nhiều hơn độ chính xác về chiều hướng, cho nên đây là tiêu chuẩn chất lượng cao nhất có thể đạt được.
Chúng tôi cũng đo mức độ các mô hình có thể nhận ra rằng chúng đang bị Mô phỏng triển khai đánh giá, và kiểm thử độ vững chắc của phương pháp trước các dạng lưu lượng triển khai khác nhau cũng như các bối cảnh sử dụng công cụ nhiều thách thức.
Trên các đợt triển khai Chế độ Suy luận thuộc dòng GPT‑5, Mô phỏng triển khai vượt trội hơn các đường cơ sở câu lệnh thách thức trong việc xác định tỷ lệ rủi ro thực tế, có thể phát hiện gian lận công cụ tính toán trước khi phát hành, và dường như mô hình hoàn toàn không thể phân biệt được bối cảnh này với môi trường triển khai thực tế.
Tổng quan về các dự đoán của chúng tôi. Để xem hình ảnh trực quan của tất cả dự đoán cho các đợt triển khai mô hình Chế độ Suy luận thuộc dòng GPT‑5, hãy xem Hình 2. Các dự đoán cho GPT‑5.4 Chế độ Suy luận đã được đăng ký trước, còn các dự đoán khác là dự đoán hồi cứu. Tổng hợp lại, các dự đoán của chúng tôi có sai số nhân trung vị là 1,5x (ví dụ nếu tỷ lệ hành vi không mong muốn là 10 trên 100k, điều này sẽ tương ứng với việc ước tính tỷ lệ là 15 hoặc 6,67 trên 100k). Dù các sai số phần đuôi của phương pháp chúng tôi có thể lớn hơn khoảng 10x, chúng tôi kỳ vọng chúng có thể giảm đáng kể với các cải tiến tiếp theo cho quy trình mô phỏng, như thảo luận bên dưới.
Hình 2. Dự đoán tần suất hành vi không mong muốn tại thời điểm triển khai bằng Mô phỏng triển khai dựa trên dữ liệu triển khai trước đó. Ký hiệu 5.1 → 5 cho biết chúng tôi đang lấy mẫu lại các tiền tố từ GPT‑5 bằng GPT‑5.1, tức là mô phỏng việc triển khai GPT‑5.1 dựa trên dữ liệu từ GPT‑5. Hành vi lệch chuẩn có tần suất xuất hiện cao nhất là “gian lận công cụ tính toán (calculator hacking)” trong GPT‑5.1, điều chúng tôi đã thảo luận trước đây(mở trong cửa sổ mới).
So sánh dự đoán của Mô phỏng triển khai với các đường cơ sở. Các danh mục quan trọng nhất cần ước tính chính xác cho đánh giá rủi ro trước triển khai là những danh mục có thay đổi lớn về tỷ lệ xuất hiện sau khi mô hình được triển khai (ví dụ: >= 1,5x). Trên tập con này, Mô phỏng triển khai tốt hơn đáng kể so với các đường cơ sở cả trong việc dự đoán liệu một hành vi không mong muốn nhất định sẽ tăng hay giảm mức phổ biến khi một mô hình được triển khai (Hình 3, trái), lẫn trong việc ước tính tỷ lệ xuất hiện chính xác tại thời điểm triển khai của nó (Hình 3, phải). Chúng tôi dùng hai đường cơ sở chính: đường cơ sở Câu lệnh thách thức mà hiện chúng tôi dùng cho thẻ hệ thống và quyết định ra mắt, và một đường cơ sở đơn giản là dùng các tỷ lệ từ lần triển khai trước làm ước tính cho mô hình mới.
Hình 3. Mô phỏng triển khai dự đoán cả chiều hướng thay đổi tỷ lệ xuất hiện (trái) và tỷ lệ thực tế chính xác (phải) tốt hơn các bài đánh giá tĩnh.
Nguồn gây sai số mô phỏng trong hệ thống của chúng tôi. Chúng tôi cũng nghiên cứu các nguồn gây sai số hiện tại trong hệ thống của mình. Cụ thể, các sai số lớn ở phần đuôi phân phối (large tail errors) làm cho hệ thống kém đáng tin cậy hơn đối với các quyết định triển khai:chẳng hạn, khi thấy một loại hành vi không mong muốn nào đó tăng mạnh mức dự đoán, nếu biết hệ thống đôi khi có sai số lớn, điều đó làm dấy lên nghi ngờ liệu đây là ước tính đáng tin cậy hay chỉ là sai số do hệ thống tạo ra. Có hai nguồn có thể gây ra sai số chính:
- Sai số độ trung thực của môi trường lấy mẫu lại: để ước tính chính xác tỷ lệ thực tế, hệ thống mô phỏng của chúng tôi cần càng dữ liệu thực tế càng tốt. Một phần của vấn đề này nằm ở khâu kỹ thuật (lấy mẫu từ mô hình bằng cách sử dụng chính các hệ thống xử lý được dùng cho lưu lượng truy cập thực tế), và một phần là thách thức thú vị đối với các công cụ cần quyền đọc/ghi vào các tài nguyên bên ngoài luôn thay đổi (ví dụ: tìm kiếm web hoặc tương tác với tệp cục bộ). Chúng tôi có thể cô lập sai số độ trung thực của mô phỏng bằng cách so sánh dự đoán từ một lần triển khai thực tế và mô phỏng của nó (tức là mô phỏng việc triển khai mô hình đã được triển khai).
- Sai số dịch chuyển phân phối câu lệnh: một mối lo lớn với Mô phỏng triển khai là việc triển khai bất kỳ mô hình nào cũng sẽ gây ra dịch chuyển phân phối trong đầu vào, đặc biệt nếu người dùng thích nghi với các khả năng mới của mô hình. Chúng tôi cô lập sai số phân phối câu lệnh bằng cách so sánh các ước tính khi mô phỏng triển khai bằng câu lệnh gần đây so với câu lệnh từ lần triển khai đã diễn ra.
Như thấy trong Hình 4, chúng tôi nhận thấy một phần lớn sai số trong hệ thống—đặc biệt với sai số phần đuôi—hiện đến từ độ trung thực của mô phỏng. Đây là tin tốt, vì chúng tôi kỳ vọng độ trung thực của mô phỏng nhìn chung dễ cải thiện hơn so với việc giảm dịch chuyển phân phối câu lệnh. Chúng tôi cũng nhận thấy sai số dịch chuyển phân phối câu lệnh có thể được giảm bằng cách dùng dữ liệu mới nhất từ lần triển khai trước. Có thể tìm thấy thêm chi tiết trong bài báo nghiên cứu.
Hình 4: Độ trung thực của môi trường lấy mẫu lại có vẻ là nguồn sai số lớn nhất trong các ước tính của chúng tôi, đặc biệt với những sai số cực đoan nhất.
Kiểm toán tự động đã tìm thấy lệch hướng mới duy nhất được đưa vào trong các lần triển khai này. Trong khoảng thời gian triển khai mà chúng tôi nghiên cứu, hệ thống kiểm toán tự động dựa trên các lần triển khai mô phỏng của chúng tôi lẽ ra đã phát hiện “gian lận công cụ tính toán” trước khi phát hành, đây là lệch hướng mới duy nhất mà chúng tôi xác định trong lưu lượng ChatGPT đã phân tích. Gian lận công cụ tính toán là một dạng gian lận phần thưởng, trong đó mô hình dùng công cụ trình duyệt như một máy tính trong khi trình bày hành động đó như một tìm kiếm. Điều này không có nghĩa kiểm toán quy mô lớn sẽ bắt được mọi lỗi mới, nhưng cho thấy vì sao bối cảnh thực tế lại quan trọng: chúng có thể khơi gợi những hành vi mà các bộ đánh giá hẹp hơn có thể không bao giờ trực tiếp làm lộ ra, ngay cả khi các hành vi đó không có trong lưu lượng ban đầu dùng để gieo mô phỏng.
Một lợi thế khác của việc dùng các bối cảnh giống triển khai là chúng có thể giảm các sai lệch phát sinh khi mô hình nhận ra rằng chúng đang được kiểm thử. Trong nghiên cứu trước đây, chúng tôi cũng như những người khác(mở trong cửa sổ mới) đã nhận thấy rằng các mô hình thường nhận biết được khi chúng đang được kiểm thử. Ví dụ, các mô hình có thể suy luận trong chuỗi tư duy của chúng về việc chúng đang được kiểm thử điều gì, điều gì có thể làm người đánh giá hài lòng, và—nếu chúng đang hành xử sai—liệu chúng có bị phát hiện hay không. Điều này đặt ra vấn đề cho các đánh giá căn chỉnh: nếu một mô hình chỉ cư xử tốt vì nó nghĩ rằng mình đang được kiểm thử, làm sao chúng ta có thể xây dựng niềm tin rằng nó sẽ hành xử an toàn sau khi biết mình đã được triển khai?
Chúng tôi cho thấy Mô phỏng triển khai làm giảm đáng kể mức độ nhận biết đánh giá mà các mô hình thể hiện so với các đánh giá truyền thống không dựa trên dữ liệu triển khai thực. Chúng tôi đo nhận biết bị đánh giá theo ba cách: yêu cầu một mô hình phân loại liệu một quỹ đạo đến từ sản xuất hay từ đánh giá, giám sát chuỗi tư duy để tìm các phát biểu rõ ràng về việc đang được đánh giá về căn chỉnh, cũng như các dấu hiệu metagaming (tính toán chiến thuật)(mở trong cửa sổ mới): mọi suy luận về giám sát. Lưu lượng triển khai mô phỏng khớp sát lưu lượng triển khai thực trên cả ba thước đo. Ví dụ, GPT‑5.2 gắn nhãn lưu lượng sản xuất thực là giống đánh giá trong 5,4% thời gian và lưu lượng mô phỏng trong 5,1% thời gian, trong khi các đánh giá truyền thống (như SWE-Bench hoặc MonorepoBench, chủ yếu gồm các ví dụ tổng hợp) bị phân loại là bài đánh giá gần như 100% thời gian.
Hình 5. So sánh nhận biết đánh giá: lưu lượng thực tế thực và lưu lượng mô phỏng cho thấy tỷ lệ tương đương nhau về khả năng phát hiện bài đánh giá, nhận thức rõ ràng bằng ngôn từ về việc đang bị đánh giá căn chỉnh, và các hành vi tính toán chiến thuật (metagaming), trong khi các bộ dữ liệu đánh giá truyền thống báo cáo tỷ lệ cao hơn nhiều.
Để kiểm thử liệu phương pháp này có thể mở rộng vượt ra ngoài các chế độ chat tiêu chuẩn hay không, chúng tôi cũng nghiên cứu mô phỏng triển khai cho các bối cảnh lập trình tác nhân nhiều thách thức. Cụ thể, chúng tôi dùng 120.000 quỹ đạo tác nhân nội bộ của nhân viên từ GPT‑5.4 để mô phỏng việc triển khai nội bộ các tác nhân lập trình dựa trên GPT‑5.5. Điều này phục vụ hai mục đích: cho thấy mô phỏng triển khai cũng có thể dùng để đánh giá rủi ro cho các đợt triển khai nội bộ, và chứng minh rằng có thể làm cho độ trung thực của mô phỏng cao ngay cả trong bối cảnh tác nhân thông qua mô phỏng công cụ cẩn thận.
Ở trên, chúng tôi đã thảo luận rằng độ trung thực của mô phỏng là một trong những nguồn sai số chính trong hệ thống hiện tại. Một trong những thách thức khi làm cho mô phỏng triển khai trở nên thực tế là nó đòi hỏi các công cụ hành động theo cách thực tế, ngay cả khi chúng cần quyền đọc/ghi vào các tài nguyên bên ngoài luôn thay đổi (ví dụ: tìm kiếm web hoặc tương tác với tệp cục bộ).
Điều này đặc biệt thách thức trong các bối cảnh như triển khai tác nhân: một quỹ đạo tác nhân đơn lẻ có thể phụ thuộc vào hàng trăm lệnh gọi công cụ, trạng thái kho lưu trữ, phản hồi mạng hoặc lỗi nhất thời. Điều này khiến việc lấy mẫu lại với quyền truy cập công cụ thật vừa khó khăn vừa có thể nguy hiểm. Do đó, thay vì áp dụng các lệnh gọi công cụ lên hệ thống đang chạy, chúng tôi mô phỏng chúng bằng một LLM khác. Chúng tôi cho thấy việc cung cấp thêm khả năng cho LLM này là thiết yếu đối với tính thực tế và do đó đối với chất lượng ước tính.
Chúng tôi cung cấp cho mô hình mô phỏng công cụ lượt triển khai cuối ban đầu, kho lưu trữ tại thời điểm cuộc trò chuyện, một cơ sở dữ liệu các cặp lệnh gọi/phản hồi công cụ và các trình kết nối chỉ đọc. Trong một bài kiểm thử mà bộ phân biệt cố gắng phân biệt các lượt triển khai mô phỏng với lượt triển khai thật, tính thực tế đã cải thiện từ tỷ lệ thắng 11,6% lên 49,5%, gần mức ngẫu nhiên 50%.
Người ta có thể làm cho độ chân thực của phương pháp tái lấy mẫu (resampling realism) gần như không thể phân biệt được với việc lấy mẫu thực tế ngay cả trong các bối cảnh sử dụng nhiều công cụ, bằng cách mô phỏng các lượt gọi công cụ với các khả năng tương tác được tăng cường
Như bằng chứng bổ sung về độ trung thực của mô phỏng, khi mô phỏng lưu lượng truy cập Chế độ Suy luận GPT‑5.4 Codex bằng GPT‑5.4, các tỷ lệ lệch hướng gần như nằm trong khoảng sai số. Ngược lại, trong kiểm thử trước triển khai của chúng tôi, GPT‑5.5 lệch hướng hơn ở hầu hết các danh mục.
Hình 7: Với mô phỏng công cụ, tỷ lệ hành vi cho các cuộc trò chuyện được lấy mẫu lại bằng GPT‑5.4 và lưu lượng thực tế GPT‑5.4 thực tế khá tương đồng—cho thấy độ trung thực cao của môi trường lấy mẫu lại. Xem thẻ hệ thống GPT‑5.5(mở trong cửa sổ mới) để biết thêm bối cảnh về các danh mục.
Những kết quả này cho thấy Mô phỏng triển khai có thể mở rộng sang các bối cảnh tác nhân phức tạp khi môi trường công cụ xung quanh được mô phỏng với đủ độ trung thực.
Một câu hỏi tự nhiên là liệu kiểm toán viên bên ngoài có thể nhận được một số lợi ích tương tự mà không cần truy cập vào lưu lượng truy cập thực tế riêng tư hay không. Chúng tôi đã kiểm thử điều này với 100.000 cuộc trò chuyện WildChat được dùng làm tiền tố. WildChat kém chính xác hơn dữ liệu thực tế gần đây của OpenAI, nhưng vẫn cung cấp thông tin: dữ liệu thực tế gần đây có sai số nhân trung bình thấp hơn WildChat (1,75× so với 2,44×), trong khi WildChat thường nằm trong khoảng xấp xỉ 3× so với tỷ lệ thực tế và xác định mô hình tốt hơn ở mức cao hơn ngẫu nhiên. Chúng tôi xem các đánh giá kiểu WildChat là phần bổ sung đầy hứa hẹn cho Mô phỏng triển khai do nhà phát triển thực hiện. Xem bài đăng blog Alignment(mở trong cửa sổ mới) đi kèm này để biết thêm kết quả về điểm này.
Mô phỏng triển khai là phần bổ sung cho, chứ không thay thế, các đánh giá đối kháng, kiểm thử red-team và phân tích rủi ro nghiêm trọng mục tiêu. Việc phát hiện một số hành vi không mong muốn của mô hình phụ thuộc vào khả năng giám sát chuỗi tư duy: nếu các mô hình tương lai suy luận kém rõ ràng hơn, bỏ qua các bước then chốt hoặc học cách che giấu ý định, chúng tôi có thể không phát hiện được các dạng hành vi không mong muốn này. Hơn nữa, vì dữ liệu thực tế là riêng tư, các nhà phát triển hiện có quyền truy cập mạnh hơn vào các bối cảnh đại diện so với kiểm toán viên bên ngoài. Các bộ dữ liệu công khai tốt hơn có thể thu hẹp khoảng cách đó.
Mô phỏng triển khai hữu ích nhất cho các hành vi xảy ra đủ thường xuyên để xuất hiện trong các tiền tố được lấy mẫu. Một lỗi xảy ra một lần trong mười triệu cuộc trò chuyện khó có khả năng được phát hiện trong một lượt chạy một triệu mẫu, vì vậy các đánh giá đối kháng, kiểm thử red-team và phân tích rủi ro phần đuôi có mục tiêu vẫn cần thiết. Hiện chúng tôi tập trung vào mô phỏng một phản hồi trợ lý duy nhất, vì trong các thí nghiệm sơ bộ, chúng tôi không thấy việc mô phỏng nhiều lượt đem lại cải thiện đáng kể cho các ước tính. Đây có thể là một lĩnh vực quan trọng để cải thiện độ trung thực của mô phỏng trong tương lai.
Phương pháp này cũng phụ thuộc vào phân phối tiền tố—tức là sự pha trộn các cuộc trò chuyện đang được lấy mẫu lại. Lưu lượng lịch sử có thể không khớp với cách người dùng tương tác với một mô hình mạnh hơn sau một thay đổi sản phẩm lớn, lần phát hành công cụ mới, sự kiện thế giới hoặc dịch chuyển theo mùa. Phân tích trong bài báo đầy đủ cho thấy vấn đề này có thể được giảm thiểu bằng cách dùng dữ liệu mới nhất hiện có.
Mô phỏng triển khai là một cách tiếp cận mới để đánh giá rủi ro trước triển khai, giúp các phòng thí nghiệm tiên phong và người đánh giá dự đoán cách các mô hình ngôn ngữ có thể hành xử trong thế giới thực và hiểu các rủi ro chúng đặt ra trước khi triển khai. Nó bổ sung cho các đánh giá an toàn, kiểm thử red-team và phân tích có mục tiêu hiện có bằng cách thêm một lớp dự đoán giống môi trường thực tế hơn, có thể cải thiện ước tính về hành vi triển khai, giảm tác động của nhận biết đánh giá và khiến các dự đoán trước triển khai có thể được kiểm chứng sau phát hành. Khi dùng cùng các đánh giá truyền thống, Mô phỏng triển khai có thể giúp đánh giá rủi ro mô hình trở nên thực tế hơn, định lượng hơn và hữu ích hơn cho các quyết định triển khai.


