29 tháng 5, 2026

Cẩm nang chung cho các đánh giá đáng tin cậy của bên thứ ba

Những yếu tố quan trọng để đánh giá độc lập hiệu quả về biện pháp bảo vệ và năng lực của các mô hình tiên phong.

Đang tải…

Các đánh giá độc lập, đáng tin cậy của bên thứ ba đóng vai trò then chốt⁠ trong việc củng cố hệ sinh thái an toàn. Các đánh giá này được thực hiện trên các mô hình tiên phong để cung cấp thêm bằng chứng cho các tuyên bố về năng lực trọng yếu và các biện pháp giảm thiểu an toàn. Trong bài viết này, chúng tôi chia sẻ những bài học đã rút ra cho đến nay và đề xuất các cách tiếp cận để thiết kế các bài đánh giá có thể đánh giá hợp lệ các mô hình tiên phong, với hy vọng giúp định hình các tiêu chuẩn đang hình thành trong lĩnh vực này.

Trước đây, nhiều bài đánh giá xem mô hình như chatbot: bài đánh giá đưa câu lệnh cho mô hình như thể là người dùng đang đặt câu hỏi, mô hình trả lời và người đánh giá chấm đầu ra. Các mô hình frontier ngày nay có thể làm được nhiều hơn thế: chúng có thể dùng công cụ, theo dõi thông tin qua nhiều bước và hành động trong một quy trình làm việc lớn hơn. Điều này có nghĩa là hiệu năng không chỉ phụ thuộc vào mô hình mà còn vào môi trường nơi nhiệm vụ diễn ra và vào thiết lập tạo điều kiện cho các hành động của nó. Thiết lập bao quanh này, mà chúng tôi gọi là “hệ thống điều khiển”, có thể thay đổi các khía cạnh then chốt của hiệu năng hệ thống, bao gồm cách nó dùng công cụ, theo dõi thông tin hoặc phục hồi sau sai sót.

Sơ đồ so sánh quy trình câu lệnh-phản hồi với quy trình nhiệm vụ tác nhân, cho thấy cách các vòng lặp điều khiển, công cụ, ngữ cảnh, ngân sách và biện pháp bảo vệ cho phép thực thi nhiệm vụ tự động.

Điều này làm thay đổi cách cần tiến hành các bài đánh giá và những gì người đọc nên tìm kiếm trong các báo cáo đánh giá. Theo quan điểm của chúng tôi, những báo cáo hữu ích nhất nêu rõ hai điều ngoài bản thân kết quả: thứ nhất, chúng xác định tuyên bố nào mà thiết lập đánh giá được thiết kế để kiểm tra; thứ hai, chúng chia sẻ bằng chứng sẵn có cho thấy kết quả đánh giá là hợp lệ.

Các tuyên bố được kiểm tra trong đánh giá thường rơi vào một trong ba nhóm¹:

Khai thác năng lực: Liệu một mô hình có thể hợp lý tạo ra năng lực đang được đánh giá hay không?
Hiệu quả biện pháp bảo vệ: Các biện pháp bảo vệ được kiểm thử vững chắc đến mức nào trước hành vi hoặc cuộc tấn công đang được đánh giá?
So sánh: Các mô hình khác nhau hoạt động ra sao trong các điều kiện tương đương?

Các báo cáo đánh giá cũng cần giải thích cách người đánh giá kiểm tra những tác động có thể ảnh hưởng đến tính hợp lệ của kết quả. Các tác động này bao gồm:

Gian lận phần thưởng: Khai thác lối tắt trong nhiệm vụ hoặc bộ chấm điểm, khiến hệ thống được ghi nhận nhưng lại không thể hiện được hành vi mà bài đánh giá hướng đến đo lường.
Từ chối: Từ chối theo cách che khuất hành vi đang được kiểm thử.
Nhiễm dữ liệu: Thể hiện quá tốt vì các nhiệm vụ đánh giá, đáp án hoặc biến thể gần giống đã xuất hiện trong dữ liệu huấn luyện hoặc có thể được tìm thấy trong quá trình đánh giá, chẳng hạn qua duyệt web.
Bài toán lỗi: Thể hiện kém vì các nhiệm vụ không hợp lệ. Nguyên nhân có thể gồm chấm điểm không công bằng (ví dụ đáp án đúng đòi hỏi chi tiết triển khai không được nêu rõ) và môi trường không thể giải được (ví dụ thiếu tệp quan trọng hoặc công cụ không đáng tin cậy).
Giấu năng lực: Cố ý thể hiện kém khi nhận thức rằng mình đang bị đánh giá.

Việc chọn đúng hệ thống điều khiển cho một bài đánh giá là yếu tố then chốt để đạt kết quả tối ưu

Chúng tôi quan sát thấy vai trò của hệ thống điều khiển đặc biệt quan trọng đối với các hệ thống hành động trên các quỹ đạo dài hơn. Khi mô hình có thể dùng công cụ, duy trì trạng thái và phục hồi sau sai sót qua nhiều bước, hệ thống điều khiển có thể thay đổi mức hiệu năng quan sát được, thậm chí quyết định liệu năng lực đang được đánh giá có xuất hiện trong bài đánh giá hay không. Ví dụ, một hệ thống điều khiển bảo toàn trạng thái và thử lại các hành động thất bại có thể cho phép một mô hình hoàn thành một nhiệm vụ nhiều bước mà cùng mô hình đó không bao giờ hoàn thành trong một hệ thống điều khiển đơn giản hơn.

Trong bảng dưới đây, chúng tôi tách ba loại tuyên bố mà người đánh giá có thể muốn đưa ra và loại hệ thống điều khiển mà chúng tôi tin rằng mỗi loại tuyên bố đó đòi hỏi.

Tuyên bố mà bài đánh giá đang cố chứng minh	Lựa chọn hệ thống điều khiển phù hợp	Bằng chứng cần báo cáo
Năng lực do khai thác mạnh: Hệ thống A có thể hoàn thành các nhiệm vụ loại X khi thiết lập được thiết kế để khơi dậy mức hiệu suất mạnh nhất và đáng tin cậy nhất.	Sử dụng thiết lập khai thác đáng tin cậy mạnh nhất cho hệ thống, bao gồm hệ thống điều khiển, công cụ, khung hỗ trợ và ngân sách mà một người dùng thành thạo có thể sử dụng hợp lý.	Thiết lập hệ thống điều khiển và công cụ, hướng dẫn khai thác, ngân sách/công sức được phép, token/chi phí/thời gian, và lý do vì sao thiết lập đó là đại diện đáng tin cậy cho năng lực được tuyên bố. Nếu so sánh các hệ thống dưới những thiết lập tối ưu hóa khác nhau, hãy ghi nhãn đó là so sánh hệ thống-với-hệ thống hoặc so sánh khai thác mạnh.
So sánh có kiểm soát: Hệ thống A vượt trội hơn Hệ thống B dưới cùng một thiết lập đánh giá.	Cố định nhiệm vụ, cách chấm điểm và ngân sách. Dùng hoặc một thiết lập hệ thống điều khiển/công cụ dùng chung, hoặc một tập hệ thống điều khiển chuẩn hóa cố định được chọn từ đầu để đưa ra mức khai thác tối đa hợp lý cho các hệ thống đang được so sánh.	Tập nhiệm vụ dùng chung, công cụ, phương pháp chấm điểm, hệ thống điều khiển, ngân sách, hiệu quả token/chi phí và các hạn chế đã biết. Đối với các đánh giá tác nhân lập trình, một hệ thống điều khiển mã nguồn mở như Codex CLI có thể cung cấp vòng lặp tác nhân và giao diện công cụ cố định giữa các hệ thống. Cách tiếp cận lý tưởng cho khai thác tối đa là tối ưu một hệ thống điều khiển thiết kế riêng cho từng nhiệm vụ và từng hệ thống, nhưng hiện nay điều đó chưa khả thi trong thực tế.
Độ vững của biện pháp bảo vệ dưới tấn công được khơi dậy: Các biện pháp bảo vệ của Hệ thống A là đủ đối với hành vi mô hình liên quan hoặc cuộc tấn công được khơi màn.	Sử dụng một thiết lập kiểm thử biện pháp bảo vệ được thiết kế nhằm khơi dậy mức tấn công mạnh nhất và đáng tin cậy nhất theo mô hình đối thủ phù hợp.	Cách người đánh giá đặc trưng hóa hành vi mô hình liên quan, cấu hình biện pháp bảo vệ được kiểm thử, chiến lược khai thác, hệ thống điều khiển dùng để thực hiện và ngân sách hoặc công sức được phép.

Các tuyên bố về năng lực chỉ mạnh bằng mức độ khai thác đứng sau chúng: người đánh giá cần chọn hệ thống điều khiển phù hợp nhất với nhiệm vụ và năng lực mà bài đánh giá đang cố đo lường. Một hệ thống điều khiển chuẩn hóa có thể phù hợp để so sánh các hệ thống trong điều kiện giống hệt nhau, nhưng có thể làm giảm mức năng lực thể hiện khi nó bỏ qua các tính năng hệ thống điều khiển cụ thể giúp mô hình thực hiện nhiệm vụ. Ví dụ, hiệu năng của GPT‑5.5 trên thao trường an ninh mạng của OpenAI cho thấy lựa chọn hệ thống điều khiển có thể thay đổi đáng kể năng lực đo được trên các nhiệm vụ đòi hỏi sử dụng công cụ dài, nhiều bước: mô hình hoạt động tốt hơn khi hệ thống điều khiển dùng bảo toàn⁠ để bảo toàn ngữ cảnh liên quan đến nhiệm vụ khi tương tác kéo dài hơn. Điều này cho thấy rằng với một số mô hình nhất định, hệ thống điều khiển bỏ qua bảo toàn sẽ khai thác chưa đủ hiệu năng.

Tỷ lệ thành công cao hơn thì tốt hơn

Các đánh giá đã công bố khác² cũng cho thấy lựa chọn hệ thống điều khiển và ngân sách có thể làm thay đổi kết quả đánh giá. Việc tăng năng lực tính toán thời gian kiểm thử có thể thay đổi đáng kể năng lực mà một bài đánh giá khơi ra, đặc biệt trong các lĩnh vực mà thành công dễ xác minh, như nhiều nhiệm vụ an ninh mạng. Trong bài đánh giá thao trường an ninh mạng của UK AISI⁠(mở trong cửa sổ mới), việc tăng ngân sách từ 10M lên 100M token đã cải thiện hiệu năng tới 59%, và hiệu năng vẫn tiếp tục tăng ở mức ngân sách cao nhất được thử nghiệm. Việc nêu chi tiết điều này giúp bài đánh giá dễ diễn giải hơn: nó cho người đọc thấy kết quả phụ thuộc thế nào vào thiết lập khai thác đã được kiểm thử. Khi hiệu năng vẫn tiếp tục cải thiện với ngân sách bổ sung, điểm số nên được mô tả là hiệu năng dưới harness và ngân sách đó, chứ không phải là trần năng lực đã được đo. Năng lực thường phụ thuộc vào tài nguyên hơn là một đại lượng cố định có thể được đo một lần là xong. Ở những nơi thành công có thể được đo qua các lần thử lặp lại, báo cáo cũng nên xem xét chi phí kỳ vọng cho mỗi lần giải thành công, chứ không chỉ tỷ lệ thành công ở một mức ngân sách token cố định. Điều này có thể giúp mức độ nghiêm trọng dễ diễn giải hơn: tỷ lệ thành công thấp vẫn có thể có ý nghĩa thực tế nếu chi phí của các lần thử lặp lại nằm trong mô hình đe dọa liên quan. Đối với các tuyên bố về năng lực, việc khai thác chưa đủ mà có thể tránh được là một thất bại đo lường: nếu hệ thống điều khiển hoặc ngân sách ngăn hệ thống thể hiện hành vi mà lẽ ra nó có thể tạo ra, thì điểm số không đo được năng lực đang được tuyên bố. Khi người đánh giá đã đẩy việc khai thác đi xa nhất có thể mà hiệu năng vẫn tiếp tục cải thiện, báo cáo nên nêu rõ điều đó và làm rõ rằng kết quả chỉ là một ước lượng cận dưới.

Kiểm thử biện pháp bảo vệ có thể đánh giá thấp khả năng một cuộc tấn công thành công và mức độ nghiêm trọng của nó nếu không tính đến các nguồn lực sẵn có cho kẻ tấn công, bao gồm cả hệ thống điều khiển tùy chỉnh. Trong bài đánh giá an ninh mạng GPT‑5.5 của UK AISI⁠(mở trong cửa sổ mới), hoạt động red teaming của các chuyên gia đã tìm thấy một universal jailbreak khơi ra nội dung an ninh mạng vi phạm trên các truy vấn độc hại do OpenAI cung cấp, kể cả trong các bối cảnh tác nhân nhiều lượt. Họ dùng Codex để tạo một hệ thống điều khiển tùy chỉnh nhằm tăng cường hiệu quả tấn công của mô hình: nó nhúng một mẫu vượt biện pháp bảo vệ có thể tái sử dụng vào tương tác, bảo toàn mẫu đó qua các lượt và khối, rồi áp dụng nó trên các truy vấn an ninh mạng độc hại do OpenAI cung cấp. Cách kiểm thử biện pháp bảo vệ nên phù hợp với đối thủ. Với tuyên bố về độ vững trước lạm dụng của chuyên gia, bài kiểm thử nên đánh giá chiến lược tấn công đầu-cuối đáng tin cậy mạnh nhất trong một ngân sách xác định, bao gồm mọi hệ thống điều khiển cần thiết để bảo toàn và tái sử dụng chiến lược đó. Nếu không, kết quả có nguy cơ bị lệch chuẩn: chúng có thể chỉ hỗ trợ một tuyên bố hẹp hơn về khả năng chống lại các câu lệnh đơn giản hơn, có thể bỏ lỡ cả mức độ nghiêm trọng của cuộc tấn công lẫn xác suất thành công của nó khi phương pháp khai thác được vận hành hóa, và cũng có thể thổi phồng khả năng xảy ra hoặc mức độ nghiêm trọng của vấn đề nếu cấp quá nhiều ngân sách.

Có thời điểm và bối cảnh phù hợp cho các so sánh bằng hệ thống điều khiển chuẩn hóa, nhưng người đánh giá nên nêu rõ vì sao việc dùng một tập hệ thống điều khiển nhất quán là phù hợp và nó có thể hỗ trợ tuyên bố nào. bài đánh giá chân trời thời gian của METR⁠(mở trong cửa sổ mới) là một ví dụ về thiết lập đánh giá rộng hơn, được cố định một cách phù hợp: nó được thiết kế để tạo ra kết quả có thể so sánh giữa các hệ thống mà nó đánh giá. METR định nghĩa một kết quả chung, là thời lượng điển hình của một nhiệm vụ con người mà tại đó một tác nhân AI được dự đoán sẽ thành công ở một mức độ tin cậy nhất định. METR áp dụng một bộ nhiệm vụ chung, phương pháp chấm điểm, phương pháp khớp và một tập nhỏ các khung hỗ trợ có thể tái sử dụng như Triframe và ReAct⁠(mở trong cửa sổ mới) trong mỗi đợt ước lượng được báo cáo cùng nhau. Khi METR mở rộng bộ nhiệm vụ và chuyển hạ tầng đánh giá từ một framework tên Vivaria sang một khung tên Inspect, họ đã báo cáo thay đổi đó (bản cập nhật Time Horizon 1.1⁠(mở trong cửa sổ mới)) và đánh giá lại các mô hình dưới thiết lập đánh giá mới. Đó là giá trị của một thiết lập đánh giá chuẩn hóa, bao gồm một tập hệ thống điều khiển nhất quán: nó có thể khiến người đọc tin rằng khác biệt về điểm số thực sự phản ánh khác biệt giữa các hệ thống được so sánh, thay vì là thay đổi trong thiết lập đo lường.

Chúng tôi khuyến nghị các báo cáo đánh giá của bên thứ ba nêu rõ loại tuyên bố mà thiết lập đánh giá của họ nhằm hỗ trợ; mô tả mức độ sát với tuyên bố rộng hơn của những gì đã được kiểm thử; mô tả các lựa chọn hệ thống điều khiển đã định hình kết quả; nêu chi tiết khi các lựa chọn đó thay đổi giữa các lần đánh giá; và đưa vào bằng chứng hỗ trợ để cho thấy kết quả được tạo ra như thế nào và nó khái quát tốt đến mức nào đối với tuyên bố đó.

Đánh giá tính hợp lệ bằng cách kiểm tra các rủi ro đã biết có thể làm sai lệch kết quả

Khi các mô hình trở nên mạnh hơn, điểm số đánh giá càng dễ bị diễn giải sai. So với năng lực thực, điểm số đánh giá có thể bị giảm giả tạo nếu mô hình nhận ra mình đang bị đánh giá và cố ý thể hiện kém. Chúng có thể bị thổi phồng nếu mô hình khai thác một lối tắt trong nhiệm vụ, câu lệnh, bộ chấm điểm hoặc hệ thống điều khiển. Chúng cũng có thể bị bóp méo bởi nhiễm dữ liệu (khi mô hình đã biết hoặc có thể tìm ra đáp án mà không cần giải nhiệm vụ) hoặc bởi các bài toán “lỗi” mơ hồ, chấm sai, không thể giải hoặc dễ bị khai thác bằng các lối tắt ngoài ý muốn. Vì vậy, các báo cáo đánh giá nên đi kèm điểm số nổi bật với phần thảo luận về các rủi ro này, để người đọc đánh giá được liệu điểm số có phản ánh hành vi dự kiến hay không.

Hệ thống điều khiển, ngân sách, công cụ, quy tắc chấm điểm, bộ giám sát và quy trình rà soát đều ảnh hưởng đến việc một tác nhân đang giải nhiệm vụ dự kiến, né tránh nó, ghi nhớ nó hay tìm đường đi vòng qua nó. Một báo cáo đáng tin cậy sẽ làm cho các bước kiểm tra đó trở nên minh bạch: người đánh giá nên rà soát các mẫu để tìm những hành vi này mỗi khi một đánh giá tổng thể được thực hiện.

Gian lận phần thưởng

Gian lận phần thưởng nghĩa là đạt điểm đánh giá cao theo những cách không phản ánh năng lực dự kiến. Ở đây, mối lo là hệ thống được ghi nhận nhờ khai thác nhiệm vụ, bộ chấm điểm, câu lệnh hoặc hệ thống điều khiển thay vì thực hiện công việc mà bài đánh giá nhằm đo lường. Bài đánh giá GPT 5.4 của METR⁠(mở trong cửa sổ mới) cho thấy vì sao điều này quan trọng: dù mô hình thành công trên các nhiệm vụ với tỷ lệ mà thoạt đầu tương ứng với chân trời thời gian khoảng 13 giờ, việc rà soát của con người cho thấy một số thành công đó đến từ gian lận phần thường, và khi sửa kết quả để chỉ tính những trường hợp không có gian lận phần thưởng, ước lượng giảm xuống còn khoảng 6 giờ. Người đánh giá nên xem xét nhu cầu thực hiện các điều chỉnh như vậy và, khi cần, báo cáo chúng rõ ràng: một ước lượng năng lực hữu ích hơn nhiều khi người đọc có thể thấy những thành công bề ngoài nào đã bị loại, vì sao chúng bị loại và kết quả phụ thuộc vào nhận định đó đến mức nào.

Biểu đồ cho thấy hiệu năng của mô hình AI theo thời gian với đường xu hướng và các khoảng tin cậy.

Từ chối

Các mô hình cũng có thể thể hiện kém trong các bài đánh giá năng lực do các biện pháp bảo vệ. Một mô hình có thể có hiệu năng đánh giá thấp hơn năng lực thực của nó vì từ chối các nhiệm vụ đánh giá thay vì hoàn thành chúng. Vì vậy, báo cáo nên giải thích liệu việc từ chối có phải là một phần của kết quả đánh giá hay không và nếu có thì bao nhiêu mẫu đã bị ảnh hưởng vì điều đó.

Nhiễm dữ liệu

Nhiễm dữ liệu đặc biệt quan trọng đối với các bộ đo chuẩn công khai hoặc được tái sử dụng⁠. Nếu các nhiệm vụ, đáp án hoặc biến thể gần giống xuất hiện trong dữ liệu huấn luyện hoặc có thể được một tác nhân tìm thấy bằng duyệt web, thì hiệu năng có thể phản ánh việc ghi nhớ hoặc truy xuất thay vì năng lực mô hình. Người đánh giá nên ưu tiên các nhiệm vụ riêng tư hoặc mới được xây dựng khi có thể và kiểm tra xem mô hình có tái tạo các chi tiết đặc thù của nhiệm vụ trước khi giải hay không.

Bài toán lỗi

Bài toán lỗi bao gồm các tình huống như một bài toán vô tình không thể giải được. Bài toán lỗi phổ biến đến mức⁠(mở trong cửa sổ mới) nên được xem là một rủi ro hợp lệ tiêu chuẩn. Chúng bao gồm đáp án chuẩn sai, câu lệnh mơ hồ, thiếu tệp, dịch vụ chập chờn, tiêu chí chấm điểm không công bằng và các môi trường để lộ lối tắt như tệp đáp án ẩn hoặc lịch sử kho lưu trữ chứa bản vá đáp án chuẩn.

Giấu năng lực

Giấu năng lực nghĩa là khi mô hình hoặc hệ thống cố ý thể hiện kém khi hiệu năng mạnh sẽ xung đột với một mục tiêu nào đó. Bài đánh giá GPT‑5.5 của Apollo⁠(mở trong cửa sổ mới) đã kiểm tra điều này bằng cách tạo ra một bối cảnh trong đó mô hình hiểu rằng điểm đánh giá cao có thể kích hoạt việc unlearning hoặc chặn triển khai. GPT‑5.5 vẫn trả lời đúng, cho thấy có rất ít bằng chứng hành vi về việc cố ý thể hiện kém³. Nhưng việc họ rà soát các dấu vết suy luận đã bổ sung bối cảnh quan trọng: Apollo phát hiện dấu hiệu nhận biết đang bị đánh giá về căn chỉnh ở mức trung bình trở lên trong 52% mẫu thuộc điều kiện giấu năng lực, so với 0% ở các phản thực. Bằng chứng đó làm cho việc diễn giải kết quả trở nên phức tạp hơn, nhưng cuối cùng lại cung cấp nhiều tín hiệu hơn cho người đọc: họ có thể thấy cả kết quả hành vi mang tính trấn an lẫn lý do để thận trọng khi diễn giải quá mức.

Cách chúng tôi hỗ trợ xây dựng các đánh giá mạnh mẽ hơn

Những tuyên bố mạnh đòi hỏi cả hệ thống điều khiển phù hợp để khơi ra hành vi lẫn các bước kiểm tra tính hợp lệ để cho thấy kết quả là vững chắc. Quan điểm của chúng tôi rằng hệ thống điều khiển và các bước kiểm tra tính hợp lệ là một phần của kết quả đánh giá định hình cách chúng tôi hỗ trợ các đánh giá của bên thứ ba trong thực tế:

Chúng tôi đang chia sẻ hướng dẫn khai thác tối đa cụ thể với các bên đánh giá.
Chúng tôi đang yêu cầu các bên đánh giá năng lực dùng Codex như một mức sàn chung cho các mô hình OpenAI: các bài kiểm thử ít nhất nên chạy một đường cơ sở qua cùng giao diện tác nhân mà người dùng có khả năng dựa vào, thay vì chỉ qua một giao diện mô hình đã bị lược giản.
Chúng tôi cũng đang cung cấp dấu vết suy luận và các hiện vật trung gian khác ở những nơi cần thiết để đánh giá lừa dối, giấu năng lực hoặc nhận biết đang bị đánh giá. METR và Apollo đã sử dụng quyền truy cập này trong các đánh giá của OpenAI kể từ GPT‑5.
Cuối cùng, chúng tôi đang ưu tiên nghiên cứu để hiểu sâu hơn khi nào và bằng cách nào các lựa chọn hệ thống điều khiển làm thay đổi đáng kể kết quả, từ quản lý ngữ cảnh và quyền truy cập công cụ đến hành vi thử lại, chấm điểm và ngân sách tài nguyên.

Điều này có ý nghĩa gì đối với các tiêu chuẩn đánh giá và các hướng nghiên cứu tương lai

Những khuyến nghị này không chỉ nhằm cải thiện từng báo cáo đánh giá riêng lẻ mà còn nhằm cung cấp thông tin cho các tiêu chuẩn quốc gia ⁠(mở trong cửa sổ mới)và quốc tế ⁠(mở trong cửa sổ mới)đang hình thành về đánh giá và báo cáo AI tiên phong. Trong tương lai, các tiêu chuẩn đánh giá của bên thứ ba nên yêu cầu đủ chi tiết để người ra quyết định hiểu được các bài đánh giá cụ thể hỗ trợ những tuyên bố nào, hệ thống nào đã được kiểm thử, kết quả được khơi ra như thế nào và người đánh giá đã kiểm tra tính hợp lệ của nó ra sao. Đối với các hệ thống tiên phong được kiểm thử trên những nhiệm vụ mà năng lực tác nhân là quan trọng, các chi tiết nên bao gồm (tùy theo các quan ngại về an ninh hoặc bảo mật):

Tuyên bố: liệu bài đánh giá đang so sánh các hệ thống, ước lượng trần năng lực hay kiểm thử biện pháp bảo vệ.
Nội dung đánh giá: đủ chi tiết về các nhiệm vụ hoặc phân bố nhiệm vụ để người đọc hiểu bài đánh giá thực sự đang kiểm tra những kỹ năng, hành vi hoặc chế độ thất bại nào.
Hệ thống được kiểm thử: mô hình, thiết lập suy luận, quyền truy cập công cụ, hệ thống điều khiển, và các biện pháp bảo vệ.
Ngân sách: số lượt, token, số lần thử/thử lại, thời gian thực tế, chi phí suy luận và, khi phù hợp, chi phí kỳ vọng cho mỗi lần giải thành công.
Phương pháp khai thác: các lựa chọn hệ thống điều khiển được sử dụng để rút ra kết quả, và mức độ mà những gì được kiểm tra có phản ánh sát với tuyên bố tổng quát hơn đang được đưa ra hay không
Kiểm tra tính hợp lệ: cách các bên đánh giá tìm kiếm gian lận phần thưởng, nhận biết đang bị đánh giá, nhiễm dữ liệu, từ chối, giấu năng lực, và các hành vi khác có thể làm suy yếu kết quả, bao gồm cách các trường hợp được xác nhận đã ảnh hưởng đến việc chấm điểm hoặc diễn giải.

Các tiêu chuẩn bỏ qua lựa chọn hệ thống điều hiển hoặc kiểm tra tính hợp lệ có thể đánh giá thấp những gì một hệ thống có thể làm hoặc thổi phồng mức độ tin cậy vào một tuyên bố an toàn. Việc xây dựng các hệ thống điều khiển và phương pháp khai thác mạnh vẫn là một lĩnh vực nghiên cứu còn bỏ ngỏ và nên trở thành trọng tâm cho các nghiên cứu sâu hơn cũng như đầu tư thêm.

2026

Tác giả

OpenAI

Bảng thuật ngữ

Vì chúng tôi dùng một số thuật ngữ chuyên môn trong bài viết này, nên chúng tôi đã đưa vào bảng thuật ngữ bên dưới để giải thích bằng ngôn ngữ dễ hiểu về những gì chúng tôi đang đề cập:

Hệ thống tác nhân: Hệ thống có thể xử lý một nhiệm vụ qua nhiều bước, sử dụng công cụ, duy trì trạng thái nhiệm vụ và hành động trong một môi trường, thay vì chỉ trả về một phản hồi duy nhất cho một câu lệnh.
Đánh giá tổng thể: Nhận định rộng hơn về việc liệu bằng chứng có ủng hộ một tuyên bố, kết luận rủi ro hoặc lập trường bảo đảm hay không; có thể dựa trên dữ liệu đánh giá, rà soát tài liệu, phỏng vấn, rà soát quy trình và các hiện vật liên quan khác.
Bảo toàn: Phương pháp bảo toàn ngữ cảnh liên quan đến nhiệm vụ trong các lần chạy dài.
Cấu hình: Hệ thống và điều kiện đánh giá chính xác đã được kiểm thử, ngoài tên mô hình.
Nhiễm dữ liệu: Khi các nhiệm vụ đánh giá, đáp án hoặc biến thể gần giống xuất hiện trong dữ liệu huấn luyện của một mô hình hoặc có thể được tìm thấy trong quá trình đánh giá (ví dụ qua các công cụ như duyệt web), khiến hiệu năng bị thổi phồng so với khả năng khái quát hóa thực sự của mô hình.
Khai thác năng lực: Quá trình cố gắng khơi ra một năng lực hoặc hành vi từ hệ thống trong quá trình đánh giá tổng thể.
Môi trường: Bối cảnh nhiệm vụ mà trong đó một hệ thống được kiểm thử. Điều này bao gồm những thứ như trạng thái bên ngoài mà tác nhân tương tác với và thay đổi trong quá trình đánh giá, chẳng hạn như môi trường terminal hoặc trò chơi điện tử.
Đánh giá: Một phép thử hoặc phép đo cụ thể trong một đánh giá tổng thể.
Nhận biết đang bị đánh giá: Chỉ việc một mô hình nhận ra, hoặc có vẻ nhận ra, rằng nó đang được đánh giá và có thể điều chỉnh hành vi để phản ứng với bối cảnh đó. Điều này có thể biểu hiện như việc mô hình suy luận rõ ràng về chuyện mình đang bị kiểm tra, suy ra mục đích của bài đánh giá, hoặc thay đổi hành vi vì nó kỳ vọng kết quả sẽ ảnh hưởng đến cách nó được chấm hoặc triển khai.
Hệ thống điều khiển: Cấu trúc hướng tới mô hình cho phép mô hình thực hiện một nhiệm vụ: câu lệnh, công cụ, giao diện, logic điều khiển, bộ nhớ, thử lại, bộ kiểm định và các cấu trúc hỗ trợ khác xung quanh mô hình.
Khai thác tối đa: Kiểm thử nhằm tìm ra hiệu năng mạnh nhất hoặc chế độ thất bại đáng tin cậy nhất mà một hệ thống có thể tạo ra trong một ngân sách xác định, thay vì chỉ chạy hệ thống một lần qua một hệ thống điều khiển chuẩn hóa.
Dấu vết suy luận: Bản ghi suy luận trung gian của mô hình trong quá trình kiểm thử.
Gian lận phần thưởng: Đạt điểm cao thông qua lối tắt hoặc hành vi nằm ngoài ý định của người đánh giá.
Biện pháp bảo vệ: Bộ lọc, bộ giám sát, hệ thống chặn và các lớp bảo vệ khác được áp dụng xung quanh một mô hình hoặc sản phẩm.
Giấu năng lực: Cố ý thể hiện kém trong một bài đánh giá theo cách làm suy yếu kết quả.
Chấm điểm: Phương pháp dùng để quyết định cách đo hiệu năng hoặc liệu một nhiệm vụ có thành công hay không.
Hệ thống điều khiển chuẩn hóa: Giữ cho hệ thống điều khiển như nhau giữa các hệ thống thay vì tùy biến cho một mô hình hoặc nhiệm vụ cụ thể, để khác biệt trong kết quả dễ được quy cho mô hình được kiểm thử hơn.
Chân trời thời gian: Độ dài nhiệm vụ mà một hệ thống có thể hoàn thành với mức độ tin cậy xác định, thường được biểu đạt bằng thời gian một con người sẽ mất để làm cùng nhiệm vụ đó.
Quyền truy cập công cụ: Các công cụ bên ngoài mà mô hình có thể dùng trong quá trình đánh giá tổng thể.
Quỹ đạo: Các lộ trình từng bước mà một hệ thống đi theo khi xử lý một nhiệm vụ.
Can thiệp hệ điều hành toàn hệ thống: Một mẫu tấn công duy nhất khiến hệ thống vượt qua biện pháp bảo vệ trên nhiều câu lệnh hoặc nhiệm vụ.

Chú thích cuối trang

1
Bài viết này không cố gắng giải quyết việc bên thứ ba nên đánh giá các tuyên bố liên quan đến lệch chuẩn hoặc xu hướng hành vi như thế nào. Cần thêm nhiều nghiên cứu để hiểu các lựa chọn hệ thống điều khiển ảnh hưởng thế nào đến những đánh giá đó, đặc biệt vì các hệ thống điều khiển hỗ trợ hành vi có chân trời dài hơn cũng có thể làm thay đổi các loại hành vi ngoài ý muốn mà người đánh giá cần giám sát.
2
HAL⁠(mở trong cửa sổ mới) cung cấp thêm một ví dụ từ các đánh giá tác nhân: trên CORE-Bench⁠(mở trong cửa sổ mới), việc đổi hệ thống điều khiển sang Claude Code đã làm thay đổi cả hiệu năng đo được lẫn cấu trúc chi phí trên cùng một bộ đo chuẩn. Các ví dụ công khai khác gồm SWE-agent⁠(mở trong cửa sổ mới), SeeAct⁠(mở trong cửa sổ mới), ScienceAgentBench⁠(mở trong cửa sổ mới), CORE-Bench⁠(mở trong cửa sổ mới) và Inspect Cyber⁠(mở trong cửa sổ mới); mỗi ví dụ đều cho người đọc biết giao diện hoặc hệ thống điều khiển nào đã tạo ra điểm số.
3
Đạt 100% điểm ở cả hai biến thể QA Sandbag và 99,6% ở nhiệm vụ giấu năng lực có hành vi lừa dối theo chiến lược.

Hãy tiếp tục xem

Xem tất cả

Safety and alignment in an era of long-horizon models

An toàn20 thg 7, 2026

Why teens deserve access to safe AI — card image

Vì sao thanh thiếu niên cần được tiếp cận AI an toàn

An toàn16 thg 7, 2026

GPT-Red: Mở khóa tự cải thiện để tăng độ vững chắc

An toàn15 thg 7, 2026