7 tháng 11, 2025

Hiểu về chèn câu lệnh: một thách thức bảo mật tiên phong

Các công cụ AI đang bắt đầu làm nhiều hơn là chỉ trả lời câu hỏi. Giờ đây, họ có thể duyệt web, hỗ trợ nghiên cứu, lên kế hoạch cho các chuyến đi và giúp mua sản phẩm. Khi chúng trở nên có năng lực hơn, với khả năng truy cập dữ liệu của bạn trong các ứng dụng khác và thực hiện hành động thay mặt bạn, những thách thức bảo mật mới sẽ xuất hiện. Một trong những điều chúng tôi tập trung nhiều vào là chèn câu lệnh.

Một sơ đồ minh họa cách thức hoạt động của một cuộc tấn công chèn câu lệnh. Ở bên trái, một biểu tượng người dùng đang mỉm cười được gắn nhãn “Người dùng nhờ AI giúp đỡ một tác vụ.” Một mũi tên chỉ vào trung tâm, nơi có biểu tượng màn hình máy tính được ghi nhãn "AI phát hiện trang web bị tấn công", và phía trên đó là một hình nhỏ đội mũ và cười nhếch mép được ghi nhãn "Kẻ tấn công đã chèn câu lệnh". Một mũi tên khác dẫn sang bên phải, hiển thị một biểu tượng tài liệu với một tam giác cảnh báo được gắn nhãn “AI bị lừa vào hành động không mong muốn.” Luồng này minh họa cách một kẻ tấn công có thể thao túng AI thông qua các câu lệnh được chèn vào.

Chèn câu lệnh là gì?

Chèn câu lệnh là một loại tấn công kỹ nghệ xã hội dành riêng cho AI hội thoại. Các hệ thống AI ban đầu là các cuộc trò chuyện giữa một người dùng duy nhất và một tác nhân AI duy nhất. Trong các sản phẩm AI ngày nay, cuộc trò chuyện của bạn có thể bao gồm nội dung từ nhiều nguồn, bao gồm cả internet. Ý tưởng rằng một bên thứ ba (tức là không phải người dùng và không phải AI) có thể đánh lừa mô hình bằng cách chèn các chỉ dẫn độc hại vào ngữ cảnh cuộc trò chuyện đã dẫn đến thuật ngữ “chèn câu lệnh”.

Tương tự như cách các email lừa đảo hoặc các trò lừa đảo trên web cố gắng đánh lừa mọi người để tiết lộ thông tin nhạy cảm, các cuộc tấn công chèn câu lệnh cố gắng đánh lừa AI thực hiện điều gì đó mà bạn không yêu cầu.

Hãy tưởng tượng bạn đã yêu cầu AI giúp bạn thực hiện một số nghiên cứu kỳ nghỉ trực tuyến và trong khi nó đang làm điều đó, nó gặp phải nội dung gây hiểu lầm hoặc hướng dẫn có hại ẩn trên trang web, chẳng hạn như trong nhận xét về danh sách hoặc đánh giá. Nội dung có thể được tạo ra một cách cẩn thận để lừa AI đề xuất danh sách sai, hoặc tệ hơn, để đánh cắp thông tin thẻ tín dụng của bạn.

Đây chỉ là một vài ví dụ về các cuộc tấn công “chèn câu lệnh”—các chỉ dẫn gây hại được thiết kế để đánh lừa AI thực hiện những hành động không mong muốn, thường được ẩn giấu trong nội dung thông thường như trang web, tài liệu hoặc email.

Những rủi ro này gia tăng khi AI có quyền truy cập vào dữ liệu nhạy cảm hơn và đảm nhận nhiều sáng kiến và nhiệm vụ dài hơn.

Tóm tắt

Những gì bạn đã yêu cầu AI thực hiện

Những gì kẻ tấn công thực hiện

Kết quả có thể xảy ra nếu cuộc tấn công thành công

Bạn yêu cầu một AI nghiên cứu các căn hộ, và nó bị tiêm câu lệnh để đề xuất một danh sách không phải là lựa chọn tốt nhất cho bạn.

Bạn yêu cầu AI tìm kiếm thông tin về các căn hộ dựa trên một số tiêu chí nhất định.

Kẻ tấn công đã đưa một cuộc tấn công chèn câu lệnh vào danh sách căn hộ để lừa AI nghĩ rằng danh sách của họ cần được chọn bất kể sở thích mà người dùng đã nêu.

Nếu cuộc tấn công thành công, AI có thể đề xuất sai một danh sách căn hộ không tối ưu dựa trên sở thích của bạn.

Bạn yêu cầu một tác nhân AI trả lời các email qua đêm của bạn, nhưng nó lại chia sẻ các bản sao kê ngân hàng của bạn.

Bạn yêu cầu một tác nhân AI phản hồi các email của bạn từ đêm qua vì sáng nay bạn bận.

Xem “Khi có thể, hãy đưa ra hướng dẫn cụ thể cho tác nhân” bên dưới

Kẻ tấn công đã gửi cho bạn một email chứa thông tin sai lệch để lừa mô hình tìm kiếm sao kê ngân hàng của bạn và chia sẻ chúng với kẻ tấn công.

Nếu cuộc tấn công thành công, tác nhân có thể tìm kiếm các tài liệu như sao kê ngân hàng trong email của bạn (mà bạn đã cấp quyền truy cập cho tác vụ) và sẽ chia sẻ chúng với kẻ tấn công.

Cách tiếp cận của chúng tôi để bảo vệ người dùng

Việc phòng thủ chống lại chèn câu lệnh là một thách thức trong toàn ngành AI và là trọng tâm cốt lõi tại OpenAI. Mặc dù chúng tôi kỳ vọng các đối thủ sẽ tiếp tục phát triển các cuộc tấn công như vậy, chúng tôi đang xây dựng các lớp phòng thủ được thiết kế để thực hiện tác vụ mà người dùng dự định ngay cả khi có ai đó đang tích cực cố gắng đánh lừa họ. Khả năng đó là điều cần thiết để nhận ra lợi ích của AGI một cách an toàn.

Để bảo vệ người dùng và giúp cải thiện các mô hình của chúng tôi chống lại các cuộc tấn công này, chúng tôi áp dụng cách tiếp cận nhiều lớp, bao gồm các cách sau:

Huấn luyện an toàn

Chúng tôi muốn AI có thể nhận diện các chèn câu lệnh và không mắc bẫy chúng. Tuy nhiên, độ bền vững trước các cuộc tấn công đối kháng là một thách thức tồn tại lâu dài đối với học máy và AI, khiến đây là một vấn đề khó, còn bỏ ngỏ. Chúng tôi đã phát triển một nghiên cứu có tên là Hệ thống phân cấp hướng dẫn⁠ nhằm hướng tới các mô hình phân biệt giữa các hướng dẫn đáng tin cậy và không đáng tin cậy. Chúng tôi tiếp tục phát triển các phương pháp mới để huấn luyện các mô hình nhận diện tốt hơn các mẫu chèn câu lệnh để chúng có thể bỏ qua chúng hoặc gắn cờ chúng cho người dùng. Một trong những kỹ thuật chúng tôi áp dụng là kiểm thử đội đỏ (red team) tự động, một lĩnh vực mà chúng tôi đã nghiên cứu⁠(mở trong cửa sổ mới) trong nhiều năm, để phát triển các cuộc tấn công chèn câu lệnh mới.

Giám sát

Chúng tôi đã phát triển nhiều hệ thống giám sát⁠ tự động sử dụng trí tuệ nhân tạo để xác định và ngăn chặn các cuộc tấn công chèn câu lệnh. Những biện pháp này bổ sung cho các phương pháp huấn luyện an toàn vì chúng có thể được cập nhật nhanh chóng để kịp thời chặn mọi cuộc tấn công mới mà chúng tôi phát hiện. Những biện pháp giám sát này không chỉ giúp xác định các cuộc tấn công chèn câu lệnh tiềm ẩn nhằm vào người dùng của chúng tôi, mà còn cho phép chúng tôi phát hiện hoạt động nghiên cứu và kiểm thử chèn câu lệnh đối kháng sử dụng nền tảng của chúng tôi, trước khi các cuộc tấn công đó được triển khai rộng rãi trong thực tế.

Các biện pháp bảo mật

Chúng tôi đã thiết kế các sản phẩm và cơ sở hạ tầng của mình với nhiều biện pháp bảo vệ bảo mật chồng lớp để giúp bảo vệ dữ liệu người dùng. Những tính năng này, mà chúng tôi sẽ khám phá chi tiết hơn về mặt kỹ thuật trong các bài đăng trong tương lai, được tùy chỉnh theo từng sản phẩm. Ví dụ, để giúp bạn tránh các trang web không đáng tin cậy, chúng tôi sẽ yêu cầu bạn chấp thuận một số liên kết nhất định trong ChatGPT, đặc biệt là trên các trang web yêu cầu chúng tôi không lập danh mục chúng⁠(mở trong cửa sổ mới), trước khi bạn có thể truy cập. Khi AI của chúng tôi sử dụng các công cụ để chạy các chương trình hoặc mã khác (như trong Bảng làm việc, hoặc công cụ phát triển Codex của chúng tôi), chúng tôi sử dụng kỹ thuật gọi là hộp cát (sandboxing) để ngăn mô hình thực hiện các thay đổi có hại có thể là kết quả của việc chèn câu lệnh.

Trao quyền kiểm soát cho người dùng

Chúng tôi tích hợp các biện pháp kiểm soát sẵn có trong sản phẩm của mình để giúp người dùng tự bảo vệ bản thân. Ví dụ: trong ChatGPT Atlas, bạn có thể chọn chế độ đăng xuất, cho phép tác nhân ChatGPT bắt đầu các tác vụ mà không cần đăng nhập vào các trang web. Tác nhân ChatGPT cũng tạm dừng và yêu cầu xác nhận trước khi thực hiện các bước nhạy cảm như hoàn tất mua hàng. Khi tác nhân đang hoạt động trên các trang web nhạy cảm, chúng tôi cũng đã triển khai “Watch Mode” để cảnh báo bạn về tính nhạy cảm của trang web và yêu cầu bạn phải để tab ở trạng thái hoạt động để theo dõi tác nhân thực hiện công việc của mình. Ứng dụng sẽ tạm dừng nếu bạn chuyển khỏi tab chứa thông tin nhạy cảm. Điều này đảm bảo bạn luôn nhận biết—và kiểm soát—những hành động mà tác nhân đang thực hiện.

Kiểm thử đội đỏ (red team)

Chúng tôi thực hiện kiểm thử đội đỏ (red team) chuyên sâu với các nhóm nội bộ và bên ngoài để kiểm tra và cải thiện các biện pháp phòng thủ của mình, mô phỏng hành vi của kẻ tấn công và tìm ra những cách mới để cải thiện an ninh của chúng tôi. Điều này bao gồm hàng nghìn giờ tập trung chuyên sâu vào việc chèn câu lệnh. Khi chúng tôi phát hiện ra các kỹ thuật và cuộc tấn công mới, các nhóm của chúng tôi chủ động xử lý các lỗ hổng bảo mật và cải thiện các biện pháp giảm thiểu cho mô hình của chúng tôi.

Săn lỗi nhận thưởng

Để khuyến khích các nhà nghiên cứu bảo mật độc lập có thiện chí giúp chúng tôi phát hiện các kỹ thuật và cuộc tấn công chèn câu lệnh mới, chúng tôi cung cấp phần thưởng tài chính theo chương trình săn lỗi bảo mật⁠(mở trong cửa sổ mới) khi họ chỉ ra một lộ trình tấn công thực tế có thể dẫn đến việc vô tình làm lộ dữ liệu người dùng. Chúng tôi khuyến khích những người đóng góp bên ngoài làm nổi bật những vấn đề này một cách nhanh chóng để chúng tôi có thể giải quyết chúng và tăng cường hơn nữa khả năng phòng thủ của mình.

Hãy để người dùng tự quyết định

Chúng tôi hướng dẫn người dùng về những rủi ro khi sử dụng một số tính năng nhất định trong sản phẩm để người dùng có thể đưa ra quyết định sáng suốt. Ví dụ: khi kết nối ChatGPT với các ứng dụng khác, chúng tôi giải thích dữ liệu nào có thể được truy cập, cách sử dụng dữ liệu đó và những rủi ro có thể phát sinh như trang web cố gắng đánh cắp dữ liệu của bạn, cùng với một liên kết để tìm hiểu cách giữ an toàn hơn. Chúng tôi cũng trao cho các tổ chức quyền kiểm soát những tính năng nào có thể được bật hoặc được người dùng sử dụng trong các không gian làm việc của họ.

Các bước bạn có thể thực hiện để an toàn hơn

Chèn câu lệnh là một thách thức bảo mật tiên phong mà chúng tôi kỳ vọng sẽ tiếp tục phát triển theo thời gian. Các cấp độ trí tuệ và năng lực mới đòi hỏi công nghệ, xã hội và chiến lược giảm thiểu rủi ro phải cùng tiến hóa. Cũng giống như virus máy tính vào đầu những năm 2000, chúng tôi cho rằng điều quan trọng là mọi người cần hiểu rõ mối đe dọa của việc chèn câu lệnh và cách đối phó với rủi ro, để tất cả chúng ta có thể học cách tận dụng công nghệ này một cách an toàn. Luôn nhận thức và thận trọng giúp giữ an toàn hơn cho dữ liệu của bạn khi sử dụng AI và các tính năng tác nhân có thể hành động thay mặt bạn.

Sử dụng các tính năng tích hợp sẵn để giới hạn quyền truy cập vào dữ liệu nhạy cảm.

Khi có thể, hãy giới hạn quyền truy cập của tác nhân chỉ vào dữ liệu nhạy cảm hoặc thông tin xác thực mà nó cần để hoàn thành nhiệm vụ. Ví dụ: khi sử dụng chế độ tác nhân trong ChatGPT Atlas để nghiên cứu kỳ nghỉ, nếu tác nhân chỉ thực hiện nghiên cứu và không cần quyền truy cập đã đăng nhập, hãy sử dụng chế độ “đăng xuất”.

Khi một tác nhân yêu cầu xác nhận, hãy xem xét kỹ lưỡng để đảm bảo rằng nó sắp thực hiện đúng điều cần làm.

Chúng tôi thường thiết kế các tác nhân để nhận được sự xác nhận cuối cùng từ bạn trước khi thực hiện một số hành động quan trọng như hoàn tất mua hàng hoặc gửi email. Khi một tác nhân yêu cầu bạn xác nhận một hành động, hãy kiểm tra cẩn thận để đảm bảo rằng hành động đó là chính xác và thông tin được chia sẻ là phù hợp trong ngữ cảnh đó.

Khi một tác nhân đang hoạt động trên một trang web nhạy cảm, chẳng hạn như ngân hàng của bạn, hãy quan sát tác nhân thực hiện công việc của mình. Điều này giống như việc theo dõi một chiếc xe tự lái bằng cách giữ tay trên vô lăng.

Khi có thể, hãy đưa ra hướng dẫn rõ ràng cho tác nhân

Việc đưa cho một tác nhân một chỉ dẫn rất rộng như "xem xét email của tôi và thực hiện bất kỳ hành động nào cần thiết" có thể khiến nội dung độc hại ẩn dễ dàng đánh lừa mô hình hơn, mặc dù nó được thiết kế để kiểm tra với bạn trước khi thực hiện các hành động nhạy cảm.

Sẽ an toàn hơn khi yêu cầu tác nhân thực hiện các nhiệm vụ cụ thể và không trao cho nó quyền tự do quá rộng để có thể làm theo các chỉ dẫn có hại từ các nguồn khác như email. Mặc dù điều này không đảm bảo rằng sẽ không có các cuộc tấn công, nhưng nó làm cho kẻ tấn công khó thành công hơn.

Luôn cập nhật thông tin và tuân thủ các phương pháp bảo mật tốt nhất

Khi công nghệ AI phát triển, các rủi ro và biện pháp bảo vệ mới sẽ xuất hiện. Theo dõi các cập nhật từ OpenAI và các nguồn đáng tin cậy khác để tìm hiểu về các phương pháp tốt nhất.

Hướng tới tương lai

Chèn câu lệnh vẫn là một vấn đề nghiên cứu tiên phong đầy thách thức, và giống như các trò lừa đảo truyền thống trên web, chúng tôi kỳ vọng công việc của mình sẽ tiếp tục. Mặc dù chúng tôi chưa thấy kẻ tấn công áp dụng kỹ thuật này một cách đáng kể, chúng tôi dự đoán rằng các đối thủ sẽ đầu tư nhiều thời gian và nguồn lực để tìm cách khiến AI mắc bẫy các cuộc tấn công này. Chúng tôi đang tiếp tục đầu tư mạnh vào việc làm cho các sản phẩm của mình an toàn và nghiên cứu để nâng cao tính mạnh mẽ của AI trước rủi ro này. Chúng tôi sẽ chia sẻ thông tin cập nhật khi chúng tôi biết thêm, bao gồm tiến triển đang diễn ra trong công việc bảo mật của chúng tôi trong lĩnh vực này. Ví dụ: chúng tôi đang xây dựng một báo cáo mà chúng tôi sẽ sớm công bố, trong đó chia sẻ thêm chi tiết về cách chúng tôi phát hiện liệu việc AI của bạn giao tiếp với internet có truyền thông tin từ cuộc trò chuyện của bạn hay không.

Mục tiêu của chúng tôi là làm cho các hệ thống này trở nên đáng tin cậy và an toàn như khi làm việc với đồng nghiệp hoặc bạn bè đáng tin cậy và am hiểu về bảo mật nhất. Chúng tôi sẽ tiếp tục học hỏi từ trải nghiệm thực tế, điều chỉnh một cách an toàn và công bố những gì chúng tôi học được khi công nghệ phát triển.

Hãy tiếp tục xem

Xem tất cả

OpenAI và Hugging Face xử lý sự cố bảo mật

Bảo mật21 thg 7, 2026

Daybreak: Các công cụ giúp bảo vệ mọi tổ chức trên thế giới

Bảo mật22 thg 6, 2026

Patch the Planet: a Daybreak initiative to support open source maintainers

Bảo mật22 thg 6, 2026