Không ngừng củng cố ChatGPT Atlas chống lại các cuộc tấn công chèn lệnh
Mô phỏng tấn công tự động—được hỗ trợ bởi tính năng học củng cố—giúp chúng tôi chủ động phát hiện và vá các lỗ hổng của tác nhân bị khai thác trong thế giới thực trước khi chúng bị biến thành vũ khí ngoài thực địa.
Chế độ tác nhân trong ChatGPT Atlas là một trong những tính năng tác nhân đa dụng nhất mà chúng tôi từng phát hành cho đến nay. Trong chế độ này, tác nhân trình duyệt xem các trang web và thực hiện các hành động, nhấp chuột và gõ phím bên trong trình duyệt của bạn, giống như bạn làm. Điều này cho phép ChatGPT hoạt động trực tiếp trên nhiều quy trình công việc hàng ngày của bạn, sử dụng cùng không gian, ngữ cảnh và dữ liệu.
Khi tác nhân trình duyệt giúp bạn làm được nhiều việc hơn, nó cũng trở thành mục tiêu có giá trị cao hơn của các cuộc tấn công gây bất lợi. Điều này làm cho vấn đề bảo mật AI trở nên đặc biệt quan trọng. Từ lâu trước khi chúng tôi ra mắt ChatGPT Atlas, chúng tôi đã liên tục xây dựng và củng cố các biện pháp phòng thủ chống lại các mối đe dọa mới nổi nhắm vào mô hình “tác nhân trong trình duyệt” mới này. Tấn công chèn lệnh là một trong những rủi ro đáng kể nhất mà chúng tôi tích cực phòng chống nhằm đảm bảo ChatGPT Atlas có thể hoạt động an toàn thay mặt bạn.
Là một phần của nỗ lực này, chúng tôi đã phát hành một bản cập nhật bảo mật cho tác nhân trình duyệt của Atlas, bao gồm một mô hình được huấn luyện đối kháng mới và các biện pháp bảo vệ xung quanh tăng cường. Bản cập nhật này được thúc đẩy hình thành bởi một hình thức tấn công chèn lời nhắc mới được phát hiện thông qua đội ngũ kiểm thử tự động nội bộ của chúng tôi.
Trong bài viết này, chúng tôi giải thích cách rủi ro chèn lời nhắc có thể phát sinh đối với các tác nhân dựa trên web, và chúng tôi chia sẻ một quy trình phản hồi nhanh mà chúng tôi đã xây dựng để liên tục phát hiện các cuộc tấn công mới và nhanh chóng triển khai các biện pháp giảm thiểu—được minh họa qua bản cập nhật bảo mật gần đây.
Chúng tôi coi tấn công chèn lời nhắc là một thách thức an ninh AI dài hạn, và chúng tôi sẽ cần liên tục củng cố các biện pháp phòng vệ của mình chống lại nó (giống như các trò lừa đảo trực tuyến không ngừng phát triển nhắm vào con người). Chu kỳ phản ứng nhanh mới nhất của chúng tôi đang cho thấy triển vọng sớm như một công cụ quan trọng trong hành trình đó: chúng tôi đang phát hiện các chiến lược tấn công mới từ bên trong trước khi chúng xuất hiện ngoài thực tế. Tầm nhìn dài hạn của chúng tôi là tận dụng triệt để (1) quyền truy cập vào mô hình của chúng tôi, (2) hiểu biết sâu sắc về các biện pháp phòng thủ của chúng tôi, và (3) quy mô tính toán để đi trước các kẻ tấn công bên ngoài—tìm ra các lỗ hổng sớm hơn, triển khai các biện pháp giảm thiểu nhanh hơn, và liên tục thắt chặt vòng lặp. Kết hợp với nghiên cứu tiên phong về các kỹ thuật mới để giải quyết tấn công chèn lời nhắc và tăng cường đầu tư vào các biện pháp kiểm soát an ninh khác, chu kỳ kết hợp này có thể làm cho các cuộc tấn công ngày càng khó khăn và tốn kém hơn, giảm đáng kể nguy cơ chèn lời nhắc trong thế giới thực. Cuối cùng, mục tiêu của chúng tôi là để bạn có thể tin tưởng một tác nhân ChatGPT sử dụng trình duyệt của bạn như cách mà bạn tin tưởng một đồng nghiệp hoặc một người bạn có năng lực và có ý thức cao về bảo mật.
Một cuộc tấn công chèn lời nhắc nhắm vào các tác nhân AI bằng cách nhúng các chỉ dẫn độc hại vào nội dung mà tác nhân xử lý. Những hướng dẫn này được thiết kế để ghi đè hoặc chuyển hướng hành vi của tác nhân—chiếm quyền điều khiển để thực hiện ý định của kẻ tấn công, thay vì của người dùng.
Đối với một tác nhân trình duyệt như cái bên trong ChatGPT Atlas, việc chènhiễm lời nhắc tạo ra một vector đe dọa mới ngoài các rủi ro bảo mật web truyền thống (như lỗi của người dùng hoặc lỗ hổng phần mềm). Thay vì lừa đảo người dùng hoặc khai thác các lỗ hổng hệ thống của trình duyệt, kẻ tấn công nhắm vào tác nhân hoạt động bên trong trình duyệt.
Lấy ví dụ giả định, một kẻ tấn công có thể gửi một email độc hại nhằm lừa tác nhân bỏ qua yêu cầu của người dùng và thay vào đó chuyển tiếp các tài liệu thuế nhạy cảm đến một địa chỉ email do kẻ tấn công kiểm soát. Nếu người dùng yêu cầu tác nhân xem xét các email chưa đọc và tóm tắt các điểm chính, tác nhân có thể tiếp nhận email độc hại trong quá trình làm việc. Nếu tác nhân tuân theo các hướng dẫn được chèn vào này, nó có thể đi lệch nhiệm vụ và chia sẻ thông tin nhạy cảm một cách sai lầm.
Đây chỉ là một tình huống cụ thể. Khả năng tổng quát tương tự khiến các tác nhân trình duyệt trở nên hữu ích cũng khiến chúng gặp rủi ro lớn hơn: tác nhân có thể gặp phải các hướng dẫn không đáng tin cậy trên một bề mặt không giới hạn thực tế—email và tệp đính kèm, lời mời lịch, tài liệu chia sẻ, diễn đàn, bài đăng trên mạng xã hội và các trang web tùy ý. Vì tác nhân có thể thực hiện nhiều hành động giống như người dùng có thể thực hiện trong trình duyệt, nên tác động của một cuộc tấn công thành công có thể rộng lớn tương tự: chuyển tiếp một email nhạy cảm, gửi tiền, chỉnh sửa hoặc xóa tệp trong đám mây, và nhiều hơn thế.
Chúng tôi đã đạt nhiều tiến bộ trong việc bảo vệ chống lại tấn công chèn lời nhắc thông qua nhiều lớp bảo vệ, như chúng tôi đã chia sẻ trong bài viết trước đó. Tuy nhiên, tấn công chèn lời nhắc vẫn là một thách thức chưa được giải quyết đối với an ninh của tác nhân, và chúng tôi dự kiến sẽ tiếp tục làm việc về vấn đề này trong nhiều năm tới.
Để củng cố các biện pháp phòng vệ của chúng tôi, chúng tôi đã liên tục tìm kiếm các cuộc tấn công chèn lời nhắc mới nhằm vào các hệ thống tác nhân trong quá trình sản xuất. Việc phát hiện các cuộc tấn công này là điều kiện tiên quyết cần thiết để xây dựng các biện pháp giảm thiểu mạnh mẽ: nó giúp chúng ta hiểu rõ rủi ro thực tế, phát hiện ra những lỗ hổng trong hệ thống phòng thủ của chúng ta và thúc đẩy việc phát triển các bản vá cụ thể.
Để thực hiện điều này ở quy mô lớn, chúng tôi đã xây dựng một tác nhân phản công tự động dựa trên LLM và huấn luyện nó để săn lùng các cuộc tấn công chèn lời nhắc có thể tấn công thành công một tác nhân trình duyệt. Chúng tôi đã huấn luyện tác nhân phản công này từ đầu đến cuối bằng mô hình học củng cố, để nó học từ những thành công và thất bại của chính mình nhằm cải thiện kỹ năng mô phỏng tấn công. Chúng tôi cũng cho phép nó "thử nghiệm trước khi triển khai", nghĩa là: trong quá trình suy luận theo chuỗi tư duy, tác nhân phản công có thể đề xuất một phương án tấn công và gửi nó đến một trình mô phỏng bên ngoài. Trình mô phỏng này thực hiện một cuộc triển khai giả định về cách mà tác nhân nạn nhân bị nhằm vào (tác nhân bảo vệ) sẽ hành xử nếu gặp phải tấn công chèn lời nhắc, và trả về một chuỗi suy luận và hành động đầy đủ của tác nhân nạn nhân đó. Tác nhân phản công sử dụng dấu vết đó làm phản hồi, lặp lại cuộc tấn công và chạy lại mô phỏng—lặp lại vòng lặp này nhiều lần trước khi thực hiện cuộc tấn công cuối cùng. Điều này cung cấp phản hồi phong phú hơn trong ngữ cảnh cho tác nhân phản công so với chỉ một tín hiệu đạt/trượt. Nó cũng mở rộng khả năng tính toán trong thời gian thử nghiệm của tác nhân phản công. Hơn nữa, quyền truy cập đặc quyền vào các dấu vết suy luận (mà chúng tôi không tiết lộ cho người dùng bên ngoài) của tác nhân bảo vệ mang lại cho tác nhân phản công nội bộ một lợi thế bất đối xứng—tăng khả năng họ có thể vượt tầm các đối thủ bên ngoài.
Tại sao dùng mô hình học củng cố (RL)? Chúng tôi đã chọn mô hình học củng cố để huấn luyện tác nhân phản công tự động vì nhiều lý do:
- Tối ưu hóa các mục tiêu dài hạn và không liên tục của tác nhân phản công. Mục tiêu của chúng tôi là tìm kiếm các cuộc tấn công chèn lời nhắc có thể lừa tác nhân thực hiện các nhiệm vụ đối kháng phức tạp (ví dụ: gửi email, giao dịch ngân hàng) có thể xảy ra trong thế giới thực. Những nhiệm vụ đối kháng này vốn dĩ có thời gian thực hiện dài hạn, đòi hỏi nhiều bước suy luận và tương tác với môi trường, với các tín hiệu thành công thưa thớt và bị trì hoãn. Mô hình học củng cố rất phù hợp với cấu trúc phần thưởng thưa thớt và bị trì hoãn này.
- Tận dụng các khả năng tiên tiến của LLM. Chúng tôi đã huấn luyện các mô hình LLM tiên tiến trực tiếp như các đội mô phỏng tấn công tự động, vì vậy tác nhân phản công hưởng lợi trực tiếp từ những cải tiến trong suy luận và lập kế hoạch trong các mô hình tiên tiến. Khi các mô hình cơ bản trở nên mạnh mẽ hơn, tác nhân phản công cũng tự nhiên trở nên có năng lực hơn—điều này tạo ra một phương thức có thể mở rộng để duy trì áp lực lên hệ thống phòng thủ của chúng tôi khi các mô hình của chúng tôi phát triển.
- Mở rộng quy mô tính toán và mô phỏng những kẻ tấn công biết thích ứng. Mô hình học củng cố rất phù hợp để mở rộng quy mô tính toán dành cho việc tìm kiếm các cuộc tấn công qua số lượng lớn các mẫu và bước học tập, và nó cũng phản ánh sít sao cách thức mà những kẻ tấn công con người biết thích ứng: thử nghiệm các chiến lược một cách lặp đi lặp lại, học hỏi từ kết quả, và củng cố các hành vi thành công.
Tác nhân phản công tự động của chúng tôi có thể phát hiện ra các cuộc tấn công chèn lời nhắc mới và thực tế từ đầu đến cuối. Không giống như hầu hết các công việc mô phỏng tấn công động trước đây, vốn chỉ ra những thất bại đơn giản như việc tạo ra các chuỗi đầu ra cụ thể hoặc kích hoạt một lệnh công cụ đơn lẻ không mong muốn từ tác nhân, tác nhân phản công được huấn luyện bằng mô hình RL của chúng tôi có thể điều khiển một tác nhân thực hiện các quy trình công việc có hại phức tạp, dài hạn mà diễn ra qua hàng chục (hoặc thậm chí hàng trăm) bước. Chúng tôi cũng đã quan sát thấy các chiến lược tấn công mới không xuất hiện trong chiến dịch mô phỏng tấn công của con người hoặc các báo cáo bên ngoài.
Bản demo dưới đây trình bày một ví dụ cụ thể về khai thác tấn công chèn lời nhắc được phát hiện bởi tác nhân phản công tự động của chúng tôi, mà sau đó chúng tôi đã sử dụng để củng cố thêm các biện pháp phòng thủ của ChatGPT Atlas. Kẻ tấn công gửi vào hộp thư của người dùng một email độc hại chứa một lệnh chèn lời nhắc, chỉ đạo tác nhân gửi thư từ chức đến Giám đốc điều hành của người dùng. Sau đó, khi người dùng yêu cầu tác nhân soạn thảo một thư trả lời tự động khi vắng mặt, tác nhân gặp thư đó trong quá trình thực hiện nhiệm vụ bình thường, coi lời nhắc được chèn vào là có thẩm quyền và tuân theo nó. Thông báo vắng mặt không bao giờ được viết và tác nhân này lại xin từ chức thay mặt người dùng.

1. Yêu cầu tác nhân giúp đỡ quản lý email.

2. Tác nhân mở email chưa đọc gần đây nhất.

3. Email có chứa các hướng dẫn độc hại

4. Tác nhân gửi email từ chức ngoài ý muốn

5. Sau bản cập nhật bảo mật của chúng tôi, chế độ tác nhân đã phát hiện thành công một nỗ lực chèn lời nhắc
Bản chất của tấn công chèn lời nhắc khiến cho việc đảm bảo an ninh một cách quyết định trở nên thách thức, nhưng bằng cách mở rộng nghiên cứu an ninh tự động, kiểm thử đối kháng, và thắt chặt vòng phản hồi nhanh của chúng tôi, chúng tôi có thể cải thiện độ bền vững và khả năng phòng thủ của mô hình - trước khi chờ đợi một cuộc tấn công xảy ra trong thực tế.
Chúng tôi chia sẻ bản demo này để giúp người dùng và các nhà nghiên cứu hiểu rõ hơn về bản chất của các cuộc tấn công này—và cách chúng tôi đang tích cực phòng thủ chống lại chúng. Chúng tôi tin rằng điều này đại diện cho ranh giới của những gì mà đội ngũ kiểm tra tự động có thể đạt được, và chúng tôi rất hào hứng tiếp tục nghiên cứu của chúng tôi.
Hệ thống mô phỏng tấn công tự động của chúng tôi đang thúc đẩy một vòng phản ứng nhanh chủ động: khi tác nhân phản công tự động phát hiện ra một loại tấn công chèn lời nhắc mới thành công, nó ngay lập tức tạo ra một mục tiêu cụ thể để cải thiện các biện pháp phòng thủ của chúng tôi.
Huấn luyện đối kháng để chống lại các cuộc tấn công mới được phát hiện. Chúng tôi liên tục huấn luyện các mô hình tác nhân được cập nhật để chống lại tác nhân phản công tự động tốt nhất của mình—ưu tiên các cuộc tấn công mà các tác nhân mục tiêu hiện đang thất bại. Mục tiêu là dạy các tác nhân bỏ qua các hướng dẫn bất lợi và duy trì sự phù hợp với ý định của người dùng, cải thiện khả năng chống lại các chiến lược tấn công chèn lời nhắc mới được phát hiện. Cách này "nung luyện" khả năng chống chịu với các cuộc tấn công mới, mạnh mẽ trực tiếp vào điểm kiểm tra của mô hình. Ví dụ, việc mô phỏng tấn công tự động gần đây đã trực tiếp tạo ra một điểm kiểm tra tác nhân trình duyệt được huấn luyện đối kháng mới, đã được triển khai cho tất cả người dùng ChatGPT Atlas. Điều này cuối cùng giúp bảo vệ người dùng của chúng tôi tốt hơn trước các loại tấn công mới.
Sử dụng dấu vết tấn công để cải thiện hệ thống phòng thủ tổng thể. Nhiều đường tấn công được phát hiện bởi nhóm mô phỏng tấn công tự động của chúng tôi cũng tiết lộ các cơ hội cải thiện bên ngoài bản thân mô hình—chẳng hạn như trong việc giám sát, hướng dẫn an toàn mà chúng tôi đặt trong ngữ cảnh của mô hình, hoặc các biện pháp bảo vệ ở cấp độ hệ thống. Những phát hiện đó giúp chúng tôi cải tiến toàn bộ hệ thống phòng thủ, không chỉ là điểm kiểm tra của tác nhân.
Phản ứng với các cuộc tấn công đang diễn ra. Vòng lặp này cũng có thể giúp phản ứng tốt hơn với các cuộc tấn công đang hoạt động trong thực tế. Khi chúng tôi xem xét dấu chân toàn cầu của mình để tìm kiếm các cuộc tấn công tiềm năng, chúng tôi có thể lấy các kỹ thuật và chiến thuật mà chúng tôi quan sát thấy các đối thủ bên ngoài sử dụng, đưa chúng vào vòng lặp này, mô phỏng hoạt động của họ và thúc đẩy thay đổi phòng thủ trên toàn bộ nền tảng của chúng tôi.
Tăng cường khả năng của chúng tôi trong việc thực hiện kiểm tra bảo mật cho các tác nhân và sử dụng các mô hình mạnh nhất của chúng tôi để tự động hóa một phần công việc đó—giúp tác nhân trình duyệt Atlas trở nên mạnh mẽ hơn bằng cách mở rộng vòng lặp từ phát hiện đến sửa chữa. Nỗ lực củng cố này nhấn mạnh một bài học quen thuộc từ an ninh: một con đường quen thuộc để bảo vệ mạnh mẽ hơn là liên tục kiểm tra áp lực các hệ thống thực tế, phản ứng với các thất bại và cung cấp các giải pháp cụ thể.
Chúng tôi kỳ vọng các đối thủ sẽ tiếp tục thích nghi. Tấn công chèn lời nhắc, giống như lừa đảo và kỹ nghệ thao túng con người trên web, có khả năng sẽ không bao giờ được “giải quyết” hoàn toàn. Tuy nhiên, chúng tôi lạc quan rằng một vòng phản hồi nhanh chóng, chủ động và có độ phản hồi cao có thể tiếp tục giảm thiểu đáng kể rủi ro thực tế theo thời gian. Bằng cách kết hợp phát hiện tấn công tự động với huấn luyện đối kháng và các biện pháp bảo vệ ở cấp hệ thống, chúng ta có thể nhận diện các mô hình tấn công mới sớm hơn, khắc phục các lỗ hổng nhanh hơn và liên tục tăng chi phí khai thác.
Chế độ tác nhân trong ChatGPT Atlas rất mạnh mẽ—và nó cũng mở rộng bề mặt phơi nhiễm đe dọa an ninh. Nhìn nhận rõ ràng về sự đánh đổi đó là một phần của việc xây dựng có trách nhiệm. Mục tiêu của chúng tôi là làm cho Atlas trở nên an toàn hơn một cách có ý nghĩa với mỗi lần cải tiến: cải thiện độ bền vững của mô hình, củng cố hệ thống phòng thủ xung quanh, và giám sát các mô hình lạm dụng mới nổi trong thực tế.
Chúng tôi sẽ tiếp tục đầu tư vào nghiên cứu và triển khai, phát triển các phương pháp mô phỏng tấn công tự động tốt hơn, triển khai các biện pháp giảm thiểu theo từng lớp, và lặp lại nhanh chóng khi chúng tôi học hỏi. Chúng tôi cũng sẽ chia sẻ những gì có thể với cộng đồng rộng lớn hơn.
Trong khi chúng tôi tiếp tục củng cố Atlas ở cấp độ hệ thống, có những bước mà người dùng có thể thực hiện để giảm thiểu rủi ro khi sử dụng các tác nhân.
Hạn chế quyền truy cập khi đã đăng nhập nếu có thể. Chúng tôi tiếp tục khuyến nghị người dùng tận dụng chế độ đã đăng xuất(mở trong cửa sổ mới) khi sử dụng tác nhân trong Atlas bất cứ khi nào không cần thiết truy cập vào các trang web mà bạn đã đăng nhập cho nhiệm vụ hiện tại, hoặc để giới hạn quyền truy cập vào các trang cụ thể mà bạn đăng nhập trong quá trình thực hiện nhiệm vụ.
Xem xét kỹ các yêu cầu xác nhận. Đối với một số hành động quan trọng, chẳng hạn như hoàn tất mua hàng hoặc gửi email, các tác nhân được thiết kế để yêu cầu sự xác nhận của bạn trước khi tiến hành. Khi một tác nhân yêu cầu bạn xác nhận một hành động, hãy dành chút thời gian để xác minh rằng hành động đó là chính xác và bất kỳ thông tin nào được chia sẻ đều phù hợp với ngữ cảnh đó.
Đưa ra hướng dẫn cụ thể cho các tác nhân khi có thể. Tránh những lời nhắc quá rộng như “xem email của tôi và thực hiện bất kỳ hành động nào cần thiết.” Phạm vi rộng khiến nội dung ẩn hoặc độc hại dễ dàng ảnh hưởng đến tác nhân, ngay cả khi đã có các biện pháp bảo vệ. Sẽ là an toàn hơn khi yêu cầu tác nhân thực hiện các nhiệm vụ cụ thể và có phạm vi rõ ràng. Mặc dù điều này không loại bỏ rủi ro, nhưng nó làm cho các cuộc tấn công khó thực hiện hơn.
Nếu các tác nhân muốn trở thành đối tác đáng tin cậy cho các nhiệm vụ hàng ngày, chúng phải có khả năng chống lại các loại thao túng mà web mở cho phép. Tăng cường bảo vệ chống lại tấn công chèn lời nhắc là một cam kết dài hạn và là một trong những ưu tiên hàng đầu của chúng tôi. Chúng tôi sẽ sớm chia sẻ thêm về công việc này.


