Tăng cường hệ sinh thái an toàn của chúng tôi thông qua thử nghiệm bên ngoài
Phương pháp tiếp cận của chúng tôi đối với các đánh giá của bên thứ ba dành cho AI tiên phong.
Tại OpenAI, chúng tôi tin rằng các đánh giá của bên thứ ba độc lập và đáng tin cậy đóng vai trò quan trọng trong việc củng cố hệ sinh thái an toàn của AI tiên phong. Đánh giá của bên thứ ba là các đánh giá được thực hiện trên các mô hình tiên phong để xác nhận hoặc cung cấp thêm bằng chứng cho các tuyên bố về khả năng an toàn quan trọng và các biện pháp giảm thiểu. Những đánh giá này giúp xác thực các tuyên bố về an toàn, bảo vệ khỏi điểm mù và tăng cường tính minh bạch về khả năng và rủi ro. Bằng cách mời các chuyên gia bên ngoài thử nghiệm các mô hình tiên phong của chúng tôi, chúng tôi cũng nhằm mục đích thúc đẩy niềm tin vào chiều sâu của các đánh giá năng lực và biện pháp bảo vệ, đồng thời giúp nâng cao hệ sinh thái an toàn rộng lớn hơn.
Kể từ khi ra mắt GPT‑4, OpenAI đã hợp tác với nhiều đối tác bên ngoài để thử nghiệm và đánh giá các mô hình của chúng tôi. Nhìn chung, hợp tác với bên thứ ba của chúng tôi có ba hình thức:
- Đánh giá độc lập về các năng lực và lĩnh vực rủi ro tiên phong quan trọng như an ninh sinh học, an ninh mạng, tự cải thiện AI và lập kế hoạch
- Đánh giá phương pháp luận để đánh giá cách thức chúng tôi nhận định và diễn giải rủi ro
- Thăm dò chuyên gia về chủ đề (SME), nơi các chuyên gia đánh giá mô hình trực tiếp trên các nhiệm vụ SME thực tế và cung cấp thông tin đầu vào có cấu trúc cho việc đánh giá của chúng tôi về khả năng của nó và các biện pháp bảo vệ liên quan1
Blog này phác thảo cách chúng tôi sử dụng từng hình thức đánh giá bên ngoài, lý do chúng quan trọng, cách chúng đã định hình các quyết định triển khai, và các nguyên tắc chúng tôi sử dụng để cấu trúc các hợp tác này. Với tinh thần minh bạch, chúng tôi cũng chia sẻ thêm về các điều khoản bảo mật và xuất bản chi phối sự hợp tác của chúng tôi với các bên thứ ba.
Bên thứ ba bổ sung một lớp đánh giá bên ngoài vào công việc nội bộ của chúng tôi, tăng cường tính nghiêm ngặt và cung cấp thêm biện pháp bảo vệ chống lại việc tự xác nhận. Đầu vào của họ cung cấp thêm bằng chứng cùng với các đánh giá của chúng tôi, giúp đưa ra quyết định triển khai có trách nhiệm cho các hệ thống mạnh mẽ.
Chúng tôi cũng coi các đánh giá của bên thứ ba là một phần của xây dựng một hệ sinh thái an toàn kiên cường. Các đội ngũ của chúng tôi thực hiện các cuộc kiểm tra nội bộ rộng rãi trên các lĩnh vực năng lực và rủi ro, nhưng các tổ chức độc lập mang lại những góc nhìn và phương pháp tiếp cận bổ sung. Chúng tôi làm việc để hỗ trợ một nhóm đa dạng các tổ chức đánh giá có đủ năng lực, có thể thường xuyên đánh giá các mô hình tiên phong cùng với chúng tôi.
Cuối cùng, chúng tôi mong muốn minh bạch về cách thức thông tin đầu vào này giúp định hình quy trình an toàn của chúng tôi. Chúng tôi thường xuyên công khai các đánh giá của bên thứ ba—ví dụ, bằng cách đưa tóm tắt các đánh giá trước khi triển khai vào thẻ hệ thống và hỗ trợ các tổ chức đánh giá công bố công việc chi tiết hơn sau khi đã xem xét tính bảo mật và độ chính xác. Sự minh bạch này xây dựng lòng tin bằng cách cho thấy cách thức đầu vào bên ngoài định hình các đánh giá và biện pháp bảo vệ của chúng tôi.
Các mối quan hệ bền vững được xây dựng dựa trên quyền truy cập đáng tin cậy, tính minh bạch và chia sẻ kiến thức giúp toàn bộ hệ sinh thái đón đầu các rủi ro mới nổi và thúc đẩy các đánh giá có thể thích ứng và hành động cần thiết để có các tiêu chuẩn mạnh mẽ hơn và quản trị thông tin hơn cho các hệ thống AI tiên phong.
Bắt đầu với việc ra mắt GPT‑4(mở trong cửa sổ mới), chúng tôi đã hỗ trợ các đánh giá độc lập trên các điểm kiểm tra mô hình ban đầu trước khi triển khai. Kể từ thời điểm đó, chúng tôi đã mở rộng công việc của mình với một loạt các tổ chức bên thứ ba có chuyên môn sâu trong việc đánh giá các lĩnh vực năng lực tiên phong và rủi ro chính. Chúng tôi xác định phạm vi công việc trong phòng thí nghiệm độc lập là thử nghiệm mở, nơi các nhóm bên ngoài áp dụng phương pháp của riêng họ để đưa ra tuyên bố hoặc đánh giá liên quan đến một khả năng tiên phong cụ thể.
Ví dụ, đối với GPT‑5, OpenAI đã phối hợp một loạt các đánh giá năng lực bên ngoài trên các lĩnh vực rủi ro chính như tự chủ dài hạn, lập kế hoạch, lừa dối và phá hoại giám sát, khả năng lập kế hoạch phòng thí nghiệm ướt và đánh giá an ninh mạng tấn công.
Những đánh giá độc lập này bổ sung cho các đánh giá được thực hiện theo Khung sẵn sàng của OpenAI và bao gồm các điểm chuẩn như đánh giá mốc thời gian(mở trong cửa sổ mới) của METR hoặc đánh giá Khắc phục sự cố năng lực virus học (VCT)(mở trong cửa sổ mới) của SecureBio.
Để hỗ trợ các đánh giá này, chúng tôi đã cung cấp quyền truy cập an toàn vào các điểm kiểm tra mô hình ban đầu, chọn lọc kết quả đánh giá để cụ thể hóa những cải tiến về khả năng mà chúng tôi đang thấy, không lưu giữ dữ liệu ngoài mức cần thiết khi cần và các mô hình có ít biện pháp giảm thiểu hơn. Ví dụ, các tổ chức thử nghiệm trong các miền an ninh mạng và an toàn sinh học đã thử nghiệm các mô hình có và không có biện pháp giảm thiểu an toàn để thăm dò các khả năng cơ bản. Một số tổ chức khác đã nhận được quyền truy cập trực tiếp vào chuỗi tư duy để cho phép họ kiểm tra dấu vết lý luận của mô hình. Bước tăng cường tính minh bạch này cho phép các nhà đánh giá xác định các trường hợp giấu giếm2 hoặc hành vi âm mưu mà có thể chỉ nhận ra được thông qua việc đọc chuỗi tư duy. Quyền truy cập đã được cung cấp với các biện pháp bảo mật hiện hành, và chúng tôi tiếp tục cập nhật các biện pháp đó khi khả năng của mô hình và nhu cầu kiểm thử phát triển.
Trong một số ngữ cảnh nhất định, các chuyên gia đánh giá bên ngoài có vị thế tốt để thực hiện đánh giá phương pháp luận, cung cấp thêm góc nhìn cho các khuôn khổ và bằng chứng mà các phòng thí nghiệm tiên phong dựa vào để đánh giá rủi ro. Ví dụ, trong quá trình ra mắt gpt-oss, chúng tôi đã sử dụng kỹ thuật tinh chỉnh đối nghịch để ước tính khả năng trường hợp xấu nhất cho các mô hình trọng số mở, được mô tả trong Ước tính rủi ro tiên phong trong trường hợp xấu nhất của các LLM trọng số mở. Câu hỏi cốt lõi về an toàn là liệu một tác nhân xấu có thể tinh chỉnh mô hình để đạt được năng lực cao trong các lĩnh vực như sinh học hoặc an ninh mạng theo Khung ứng phó của chúng tôi hay không. Vì điều này đòi hỏi kỹ thuật tinh chỉnh đối nghịch tiêu tốn nhiều tài nguyên, chúng tôi đã mời các đánh giá viên bên thứ ba xem xét và đưa ra khuyến nghị về các phương pháp và kết quả nội bộ của chúng tôi thay vì lặp lại công việc tương tự.
Điều này đòi hỏi một quá trình kéo dài nhiều tuần để chia sẻ các triển khai đánh giá, chi tiết về cách tiếp cận để tinh chỉnh đối nghịch và thu thập các khuyến nghị có cấu trúc về việc cải thiện phương pháp luận và đánh giá cho các rủi ro tiên phong trong trường hợp xấu nhất. Phản hồi từ các giám khảo đã dẫn đến những thay đổi trong quá trình tinh chỉnh đối kháng cuối cùng và chứng minh giá trị của việc xác nhận phương pháp luận. Chúng tôi đã ghi lại những mục mà chúng tôi đã áp dụng trong bài báo và thẻ hệ thống cho gpt-oss, đồng thời cung cấp lý do cho những mục mà chúng tôi không áp dụng.
Ở đây, việc xem xét phương pháp luận là lựa chọn đúng đắn hơn so với các đánh giá độc lập: các đánh giá này bao gồm việc thực hiện các thí nghiệm quy mô lớn trong trường hợp xấu nhất, đòi hỏi cơ sở hạ tầng và chuyên môn kỹ thuật mà thường không có sẵn bên ngoài các phòng thí nghiệm AI lớn. Điều này có nghĩa là các đánh giá độc lập có thể sẽ không thể dẫn trực tiếp đến những hiểu biết sâu sắc về các kịch bản xấu nhất, và sẽ hiệu quả hơn nếu tập trung các chuyên gia đánh giá bên ngoài vào việc xác nhận các tuyên bố. Các chuyên gia đánh giá bên ngoài đã xem xét các phương pháp và bằng chứng(mở trong cửa sổ mới), nêu bật những khoảng trống liên quan đến quyết định đã được giải quyết như một phần của vòng phản hồi khuyến nghị. Chúng tôi hy vọng phương pháp này có thể được mở rộng sang các lĩnh vực khác nơi nhu cầu về quyền truy cập hoặc cơ sở hạ tầng khiến bên thứ ba không thể trực tiếp tiến hành đánh giá, hoặc nơi chưa có đánh giá bên ngoài.
Một cách khác để chúng tôi thu hút các chuyên gia bên ngoài là thông qua việc thăm dò ý kiến của các chuyên gia về chủ đề (SME), nơi các chuyên gia đánh giá trực tiếp mô hình và cung cấp thông tin đầu vào có cấu trúc thông qua các cuộc khảo sát vào đánh giá của chúng tôi về khả năng của nó. Điều này khác với mô phỏng tấn công, nhằm mục đích kiểm tra sức chịu đựng của các biện pháp bảo vệ cụ thể. Điều này cho phép chúng tôi bổ sung các đánh giá về Khung Chuẩn Bị bằng những hiểu biết chuyên sâu theo miền, phản ánh phán đoán của chuyên gia và ngữ cảnh thực tế mà các đánh giá tĩnh có thể không nắm bắt được. Ví dụ, chúng tôi đã mời một hội đồng chuyên gia trong lĩnh vực này sử dụng một mô hình chỉ hữu ích3 để thử nghiệm các kịch bản sinh học đầu cuối của riêng họ cho tác nhân ChatGPT và GPT‑5. Họ đã đánh giá mức độ mà mô hình có thể nâng cao trình độ của một chuyên gia như họ so với một người mới ít kinh nghiệm hơn, dựa trên tính hữu ích của hướng dẫn mà nó cung cấp trong các tình huống của họ. Mục tiêu là thu thập thêm Đầu vào về mức độ hệ thống có thể giúp người mới bắt đầu có động lực tiến gần hơn đến việc thực hiện thành thạo: Các chuyên gia đã kiểm tra kỹ lưỡng các tuyên bố 'nâng cao năng lực cho người mới bắt đầu' của chúng tôi trong các quy trình làm việc thực tế mà họ thiết kế và cung cấp phản hồi chi tiết về nơi mô hình cung cấp trợ giúp cụ thể theo từng bước so với các bản tóm tắt ít hữu ích hơn. Bài tập thăm dò chuyên gia này được đưa vào như một phần của đánh giá tổng thể về việc triển khai các mô hình này và được chia sẻ trong thẻ hệ thống cho cả hai lần ra mắt.
Trên tinh thần minh bạch, chúng tôi chia sẻ thêm về những điều mà các bên thứ ba đồng ý khi làm việc với chúng tôi và các nguyên tắc hướng dẫn sự hợp tác của chúng tôi:
- Tính minh bạch với các giới hạn bảo mật cẩn thận: Các đánh giá viên bên thứ ba ký kết các thỏa thuận không tiết lộ để cho phép chia sẻ thông tin bí mật, không công khai nhằm hỗ trợ cho việc đánh giá của họ. Trong Phụ lục của bài viết này, chúng tôi bao gồm các trích đoạn liên quan từ hợp đồng với bên thứ ba, trong đó nêu rõ quyền liên quan đến việc công bố và kỳ vọng về việc xem xét. Chúng tôi hoạt động theo nguyên tắc minh bạch và nỗ lực cho phép việc xuất bản nhằm nâng cao hiểu biết về an toàn và các đánh giá liên quan mà không làm ảnh hưởng đến thông tin bí mật hoặc quyền sở hữu trí tuệ. Là một phần của quá trình này, chúng tôi xem xét và phê duyệt các ấn phẩm từ các đánh giá của bên thứ ba để đảm bảo cả tính bảo mật và độ chính xác thực tế. Trong vài năm qua, một số bên thứ ba đã công bố công trình của họ cùng với việc chúng tôi công bố tóm tắt đánh giá trong các thẻ hệ thống. Một số ví dụ về công trình đã được công bố sau khi chúng tôi xem xét về tính bảo mật và độ chính xác bao gồm: [Báo cáo METR GPT‑5 (mở trong cửa sổ mới), Báo cáo của Apollo Research về OpenAI o1(mở trong cửa sổ mới), Đánh giá không thường xuyên về GPT‑5(mở trong cửa sổ mới)]
- Tiết lộ thông tin một cách chu đáo và quyền truy cập an toàn, bảo mật: Theo mặc định, chúng tôi cung cấp thông tin và quyền truy cập vào các mô hình dự kiến công khai hoặc sẵn sàng đưa vào sản xuất. Khi các đánh giá yêu cầu, chúng tôi cung cấp quyền truy cập sâu hơn, chẳng hạn như vào các mô hình chỉ hữu ích hoặc thông tin không công khai. OpenAI đã cung cấp các hình thức truy cập này khi cần thiết cho các câu hỏi an toàn quan trọng dành cho các đánh giá viên bên thứ ba. Điều quan trọng là các loại truy cập nhạy cảm này đòi hỏi các biện pháp bảo mật nghiêm ngặt, và chúng tôi tiếp tục cập nhật các biện pháp kiểm soát đó khi khả năng của mô hình và nhu cầu thử nghiệm phát triển.
- Các biện pháp khuyến khích tài chính cân đối: Chúng tôi tin rằng việc đảm bảo hệ sinh thái đánh giá của bên thứ ba được tài trợ đầy đủ và bền vững là điều quan trọng. Vì lý do đó, chúng tôi cung cấp khoản bồi thường cho tất cả các nhà đánh giá bên thứ ba của mình, và một số người có thể từ chối tùy thuộc vào triết lý tổ chức của họ về vấn đề này. Các hình thức bồi thường bao gồm thanh toán trực tiếp cho công việc và/hoặc hỗ trợ chi phí sử dụng mô hình thông qua tín dụng API hoặc các hình thức khác. Không có khoản thanh toán nào phụ thuộc vào kết quả của đánh giá từ bên thứ ba.
Kết hợp lại, những yếu tố này giúp các đánh giá của bên thứ ba vừa bảo vệ thông tin nhạy cảm vừa thúc đẩy tính minh bạch trong an toàn AI, đồng thời tạo cơ hội cho các đánh giá viên bên thứ ba được đền bù cho thời gian của họ.
Hướng tới tương lai, chúng tôi nhận thấy cần phải tiếp tục củng cố hệ sinh thái của các tổ chức có khả năng thực hiện các đánh giá đáng tin cậy và liên quan đến quyết định về các hệ thống AI tiên phong. Đánh giá hiệu quả của bên thứ ba đòi hỏi chuyên môn sâu, nguồn tài chính ổn định và sự nghiêm ngặt về phương pháp. Việc tiếp tục đầu tư vào các tổ chức đánh giá đủ tiêu chuẩn, sự phát triển của khoa học đo lường và bảo mật cho quyền truy cập nhạy cảm sẽ rất cần thiết để đảm bảo rằng các đánh giá có thể theo kịp những tiến bộ trong khả năng của mô hình.
Đánh giá của bên thứ ba là một trong những cách chúng tôi đưa góc nhìn bên ngoài vào công tác an toàn của mình, và chúng hoạt động song song với các cơ chế khác. Chúng tôi cũng hợp tác với các chuyên gia bên ngoài thông qua các nỗ lực mô phỏng tấn công có cấu trúc, các dự án điều chỉnh tập thể, làm việc với U.S. CAISI và UK AISI, và các nhóm tư vấn như Mạng lưới bác sĩ toàn cầu và Hội đồng chuyên gia về an khang và AI để hỗ trợ định hướng công việc của chúng tôi về sức khỏe tâm thần và sức khỏe của người dùng. Những nỗ lực này đóng góp các hình thức chuyên môn khác nhau và hỗ trợ một nền tảng rộng hơn, đáng tin cậy hơn cho việc đánh giá và quản lý các hệ thống AI tiên tiến.
Sau đây là những trích đoạn minh họa từ các thỏa thuận của chúng tôi với các bên thứ ba hợp tác với chúng tôi trong hoạt động đánh giá trước khi triển khai.
Tác giả
Ghi chú chân trang
- 1
Điều này khác với hoạt động mô phỏng tấn công, nhằm mục đích kiểm tra chi tiết sức chống chịu của các biện pháp bảo vệ và cung cấp dữ liệu để phát triển đánh giá.
- 2
Khi một mô hình cố tình hoạt động kém hiệu quả hoặc che giấu khả năng thực sự của mình khi phát hiện ra rằng nó đang được đánh giá hoặc thử nghiệm.
- 3
Các mô hình chỉ hữu ích sẽ trả lời bất kỳ yêu cầu nào, ngay cả khi yêu cầu đó có hại. Những điều này được tạo ra bằng các phương pháp huấn luyện bổ sung để đạt được hành vi này.


