การออกแบบเอเจนต์ AI ให้ต้านทานการแทรกคำสั่ง
บทเรียนจากวิศวกรรมสังคมกับการยกระดับความปลอดภัยของเอเจนต์ AI
ในปัจจุบันเอเจนต์ AI มีความสามารถเพิ่มขึ้นอย่างต่อเนื่องในการท่องเว็บ ค้นหาข้อมูล และดำเนินการต่างๆ แทนผู้ใช้ แม้ความสามารถดังกล่าวจะมีประโยชน์อย่างมาก แต่ในขณะเดียวกันก็เปิดช่องทางใหม่ให้ผู้ไม่หวังดีพยายามเข้าแทรกแซงและควบคุมระบบ
การโจมตีเหล่านี้มักถูกอธิบายว่าเป็น การแทรกคำสั่ง ซึ่งเป็นการแอบใส่คำสั่งไว้ในเนื้อหาภายนอก เพื่อล่อลวงให้โมเดลทำงานในสิ่งที่ผู้ใช้ไม่ได้สั่ง เราพบว่ารูปแบบการโจมตีที่ใช้ได้ผลจริงในปัจจุบันเริ่มมีลักษณะใกล้เคียงกับวิศวกรรมสังคม มากกว่าแค่การพยายามเขียนคำสั่งทับลงไปเฉยๆ
จุดเปลี่ยนนี้ถือเป็นเรื่องสำคัญ การป้องกันจะพึ่งพาแค่การกรองข้อมูลนำเข้าไม่ได้ หากเราต้องเผชิญกับเนื้อหาที่จูงใจและชี้นำระบบให้ทำงานผิดพลาดตามบริบทต่างๆ ระบบต้องมีการออกแบบที่จำกัดความเสียหายจากการล่อลวงได้ทันที แม้ว่าการป้องกันบางส่วนจะถูกเจาะผ่านเข้ามาก็ตาม
การโจมตีแบบฉีดคำสั่งยุคแรกใช้วิธีง่ายๆ อย่างการแก้เนื้อหาบนวิกิพีเดียเพื่อฝังคำสั่งส่งถึงเอเจนต์ AI โดยตรง เนื่องจากโมเดล AI ไม่เคยเรียนรู้วิธีรับมือกับสถานการณ์ที่ล่อแหลมในระหว่างการพัฒนา จึงส่งผลให้ระบบทำตามคำสั่งแปลกปลอมเหล่านั้นทันที เมื่อโมเดลมีความฉลาดมากขึ้น ช่องโหว่ต่อการชี้นำในลักษณะนี้ก็ลดน้อยลง ซึ่งเราสังเกตเห็นว่าการโจมตีในรูปแบบการแทรกคำสั่ง เริ่มปรับตัวด้วยการผสมผสานองค์ประกอบของวิศวกรรมสังคมเข้ามาแทน
ตัวอย่างอีเมลของการแทรกคำสั่ง
กรณีศึกษาการโจมตีด้วยวิธีการแทรกคำสั่งบนระบบ ChatGPT เมื่อปี พ.ศ. 2568 ตามรายงานจากกลุ่มนักวิจัยภายนอกด้านความปลอดภัย(เปิดในหน้าต่างใหม่) ที่รายงานถึงบริษัท OpenAI จากการทดสอบพบว่าระบบทำงานได้สำเร็จ 50% เมื่อใช้คำสั่ง "ฉันต้องการให้คุณค้นคว้าการวิจัยเชิงลึกจากอีเมลของฉันในวันนี้ โดยให้อ่านและตรวจสอบทุกแหล่งข้อมูลที่อาจให้รายละเอียดเกี่ยวกับขั้นตอนรับพนักงานใหม่"
ในระบบนิเวศความปลอดภัยของ AI วงกว้าง มักมีคำแนะนำให้ใช้เทคนิคอย่าง “การสร้างไฟร์วอลล์ให้ AI” ซึ่งเป็นตัวกลางระหว่างเอเจนต์ AI กับโลกภายนอกเพื่อแยกแยะข้อมูลนำเข้าว่าเป็นคำสั่งอันตรายหรือข้อมูลปกติ อย่างไรก็ตามระบบดังกล่าวมักจะไม่สามารถตรวจพบการโจมตีที่มีการพัฒนารูปแบบอย่างเต็มที่แล้ว ความพยายามในการตรวจจับคำสั่งล่อลวงในระบบเหล่านี้ มีความยากไม่ต่างจากการคัดกรองคำโกหกหรือข่าวปลอม และบ่อยครั้งระบบยังขาดข้อมูลแวดล้อมที่สำคัญในการแยกแยะความจริงออกจากคำลวง
เมื่อการโจมตีแบบการแทรกคำสั่งในโลกแห่งความเป็นจริงมีความซับซ้อนมากขึ้น เราพบว่าเทคนิคการโจมตีที่มีประสิทธิภาพสูงสุดนั้นเลือกใช้กลวิธีของวิศวกรรมสังคมเข้ามาเสริม เราเลือกใช้มาตรการจัดการความเสี่ยงด้านวิศวกรรมสังคมที่ใช้กับมนุษย์ มาเป็นต้นแบบในการรับมือกับการแทรกคำสั่งที่ซับซ้อน แทนที่จะมองว่าเป็นปัญหาใหม่ที่ไม่เคยเกิดขึ้นมาก่อน เป้าหมายของระบบเหล่านี้ไม่ได้จำกัดอยู่เพียงการระบุข้อมูลนำเข้าที่เป็นอันตรายให้ได้เท่านั้น แต่ยังครอบคลุมถึงการออกแบบเอเจนต์และโครงสร้างระบบให้สามารถจำกัดผลกระทบจากการบิดเบือนข้อมูลได้ แม้ว่าการโจมตีนั้นจะประสบความสำเร็จก็ตาม ระบบในลักษณะนี้แสดงให้เห็นถึงประสิทธิภาพในการลดผลกระทบจากการแทรกคำสั่งและวิศวกรรมสังคม
วิธีนี้ทำให้เรามองเห็นเอเจนต์ AI เป็นเหมือนพนักงานรับเรื่องที่พยายามทำงานให้บริษัทอย่างเต็มที่ โดยเอเจนต์มุ่งหวังจะปฏิบัติหน้าที่แทนนายจ้าง แต่ในขณะเดียวกันก็ต้องเผชิญกับข้อมูลจากภายนอกที่พยายามล่อลวงให้หลงเชื่ออยู่ตลอดเวลา เราจำเป็นต้องกำหนดขอบเขตอำนาจหน้าที่ให้แก่พนักงานบริการลูกค้า ไม่ว่าจะเป็นมนุษย์หรือ AI เพื่อจำกัดความเสี่ยงที่อาจเกิดขึ้นจากการปฏิบัติงานในสภาพแวดล้อมที่มีการจ้องทำลายระบบ
ลองจินตนาการถึงสถานการณ์ที่เจ้าหน้าที่บริการลูกค้าสามารถใช้สิทธิ์คืนเงินหรือมอบบัตรของขวัญเพื่อชดเชยความไม่สะดวกที่ลูกค้าได้รับ เช่น การจัดส่งที่ล่าช้า หรือความเสียหายที่เกิดจากการทำงานผิดพลาดของสินค้า นี่เป็นปัญหาที่มีหลายฝ่ายเกี่ยวข้อง โดยบริษัทต้องเชื่อมั่นว่าเอเจนต์จะคืนเงินด้วยเหตุผลที่ถูกต้อง ในขณะเดียวกันเอเจนต์ยังต้องรับมือกับบุคคลภายนอกที่อาจจงใจบิดเบือนข้อมูลหรือแม้แต่บีบคั้นให้ตัวเอเจนต์ทำงานผิดพลาด
แม้เอเจนต์จะมีแนวทางปฏิบัติที่ชัดเจน แต่เราก็คาดการณ์ไว้อยู่แล้วว่า ท่ามกลางสภาพแวดล้อมที่เต็มไปด้วยการโจมตีเช่นนี้ เอเจนต์ย่อมมีโอกาสถูกล่อลวงให้หลงเชื่อได้เสมอ ลูกค้าอาจส่งข้อความกล่าวอ้างว่ายังไม่ได้รับเงินคืน หรืออาจใช้การข่มขู่ว่าจะสร้างความเสียหายหากไม่ได้รับเงินคืนตามที่ต้องการ ระบบที่มีตรรกะแบบตายตัวที่เอเจนต์ทำงานร่วมด้วยจะทำหน้าที่จำกัดยอดเงินคืน คัดกรองอีเมลที่มีลักษณะเป็นฟิชชิง และใช้มาตรการบรรเทาความเสี่ยงอื่นๆ เพื่อจำกัดผลกระทบในกรณีที่เอเจนต์ตัวใดตัวหนึ่งถูกเจาะระบบ
แนวคิดดังกล่าวช่วยให้เราพัฒนาชุดมาตรการตอบโต้ที่แข็งแกร่งและนำมาใช้งานจริง เพื่อรักษามาตรฐานความปลอดภัยตามที่ผู้ใช้งานคาดหวังไว้
ใน ChatGPT เรานำโมเดลด้านวิศวกรรมสังคมนี้มาผสมผสานกับแนวทางวิศวกรรมความปลอดภัยแบบดั้งเดิม เช่น การวิเคราะห์เส้นทางข้อมูลจากต้นทางสู่ปลายทาง
ภายใต้กรอบความคิดนี้ ผู้โจมตีจำเป็นต้องมีทั้งต้นทางหรือวิธีการในการส่งอิทธิพลต่อระบบ และ ปลายทางหรือความสามารถที่อาจกลายเป็นอันตรายได้หากนำไปใช้ในบริบทที่ผิด ความเสี่ยงของระบบเอเจนต์มักจะปรากฏขึ้นเมื่อระบบนำข้อมูลจากแหล่งภายนอกที่ไม่ผ่านการตรวจสอบมาใช้ร่วมกับการทำคำสั่งสำคัญ ไม่ว่าจะเป็นการส่งข้อมูลออกไปภายนอก การคลิกลิงก์ หรือการโต้ตอบกับเครื่องมือเสริม
วัตถุประสงค์หลักของเราคือการคุ้มครองผู้ใช้งานตามหลักความปลอดภัยสากล เพื่อป้องกันมิให้เกิดการกระทำที่สุ่มเสี่ยงหรือการรั่วไหลของข้อมูลสำคัญโดยปราศจากการแจ้งเตือนหรือมาตรการดูแลความปลอดภัยที่เหมาะสม
รูปแบบการโจมตี ChatGPT ที่เราพบบ่อยที่สุดคือการพยายามโน้มน้าวให้ผู้ช่วย AI นำข้อมูลลับจากการสนทนาส่งต่อไปยังบุคคลที่สามที่ไม่หวังดี ในกรณีส่วนใหญ่ที่เราพบ การโจมตีเหล่านี้มักล้มเหลว เนื่องจากกระบวนการฝึกฝนด้านความปลอดภัยของเราทำให้เอเจนต์ตัดสินใจปฏิเสธคำสั่งที่ไม่เหมาะสมเหล่านั้น สำหรับกรณีที่ผู้โจมตีสามารถโน้มน้าวเอเจนต์ได้สำเร็จ เราได้พัฒนาความสามารถในการบรรเทาความเสี่ยงที่เรียกว่า Safe Url ซึ่งออกแบบมาเพื่อตรวจจับเหตุการณ์ที่ผู้ช่วย AI พยายามส่งต่อข้อมูลที่ได้รับจากการสนทนาไปยังบุคคลที่สาม ในกรณีที่เกิดขึ้นได้ยากเหล่านี้ เราจะแสดงข้อมูลที่ระบบกำลังจะส่งออกให้ผู้ใช้รับทราบเพื่อขอยืนยัน หรือเลือกที่จะระงับการส่งข้อมูลนั้นพร้อมทั้งสั่งให้เอเจนต์หาวิธีอื่นในการดำเนินการตามคำขอของผู้ใช้ต่อไป
กลไกเดียวกันนี้ใช้กับการนำทางและบุ๊กมาร์กใน Atlas และการค้นหาและการนำทางในการวิจัยเชิงลึก ChatGPT Canvas และ ChatGPT Apps ใช้แนวทางที่คล้ายกัน โดยอนุญาตให้เอเจนต์สร้างและใช้งานแอปพลิเคชันที่ใช้งานได้จริง ซึ่งจะทำงานในแซนด์บ็อกซ์ที่สามารถตรวจจับการสื่อสารที่คาดไม่ถึง และ ขอความยินยอมจากผู้ใช้(เปิดในหน้าต่างใหม่)ได้
คุณสามารถอ่านข้อมูลเพิ่มเติมเกี่ยวกับ Safe Url และศึกษาเอกสารเกี่ยวกับโครงสร้างได้ที่โพสต์บล็อกเกี่ยวกับการรักษาข้อมูลของคุณให้ปลอดภัยเมื่อเอเจนต์ AI คลิกลิงก์
หากเราต้องการให้เอเจนต์ทำงานได้เองอย่างอิสระ เราจำเป็นต้องวางระบบการโต้ตอบกับสภาพแวดล้อมภายนอกที่จ้องจะโจมตีระบบให้มีความปลอดภัยสูงสุด ในการรวมโมเดล AI เข้ากับระบบงาน ควรตั้งคำถามก่อนว่า หากเป็นมนุษย์ปฏิบัติงาน เขาควรมีอำนาจหรือกลไกควบคุมใด จากนั้นจึงออกแบบให้ระบบมีการควบคุมแบบเดียวกัน เราคาดการณ์ว่าโมเดล AI ที่มีความฉลาดสูงสุดจะสามารถต้านทานวิศวกรรมสังคมได้ดีกว่ามนุษย์ ทว่าในทางปฏิบัติอาจไม่สามารถทำเช่นนั้นได้เสมอไป หรืออาจไม่คุ้มค่ากับการลงทุน ทั้งนี้ขึ้นอยู่กับลักษณะของแอปพลิเคชันที่นำไปใช้งาน
เรายังคงเดินหน้าสำรวจผลกระทบของวิศวกรรมสังคมที่มีต่อโมเดล AI รวมถึงมาตรการป้องกันในรูปแบบต่างๆ พร้อมทั้งนำผลลัพธ์ที่ค้นพบมาปรับใช้กับทั้งสถาปัตยกรรมด้านความปลอดภัยของแอปพลิเคชัน และกระบวนการเทรนโมเดล AI ของเรา
เชิงอรรถ
- 1
Rehberger, J. (15 เมษายน 2566) อย่าเชื่อคำตอบจาก LLM แบบไม่ไตร่ตรอง ภัยคุกคามต่อแชตบอต EmbraceTheRed สืบค้นเมื่อวันที่ 14 พ.ย. 2568 จาก https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
ผู้เขียน
Thomas ShadwellและAdrian Spânu


