ข้ามไปยังเนื้อหาหลัก
OpenAI

ทำความเข้าใจการแทรกคำสั่ง: ความท้าทายด้านความปลอดภัยระดับแนวหน้า

เครื่องมือ AI เริ่มมีความสามารถมากกว่าแค่การตอบคำถาม ตอนนี้พวกมันสามารถท่องเว็บ ช่วยทำงานวิจัย วางแผนการเดินทาง และช่วยซื้อสินค้าได้ เมื่อ AI มีความสามารถมากขึ้น และสามารถเข้าถึงข้อมูลของคุณในแอปอื่น ๆ พร้อมทำงานแทนคุณ ความท้าทายด้านความปลอดภัยรูปแบบใหม่ก็เกิดขึ้น หนึ่งในความเสี่ยงที่เราให้ความสำคัญสูงสุดคือการแทรกคำสั่ง

แผนภาพแสดงวิธีการทำงานของการโจมตีแบบการแทรกคำสั่ง ทางด้านซ้ายมีไอคอนของผู้ใช้ที่ยิ้มมีป้ายกำกับว่า “ผู้ใช้ขอให้ AI ช่วยเหลือในการทำงาน” ลูกศรชี้ไปที่กึ่งกลางซึ่งมีไอคอนหน้าจอคอมพิวเตอร์ที่มีป้ายกำกับว่า “AI เห็นเว็บไซต์ที่มีการโจมตี” และด้านบนมีรูปคนตัวเล็กสวมหมวกและยิ้มมุมปากที่มีป้ายกำกับว่า “ผู้โจมตีแทรกการแทรกคำสั่ง” มีลูกศรอีกอันชี้ไปทางขวา แสดงไอคอนไฟล์เอกสารพร้อมสามเหลี่ยมเตือนภัยที่มีป้ายกำกับว่า “AI ถูกหลอกให้ทำการที่ไม่ตั้งใจ” โฟลว์นี้แสดงให้เห็นว่าผู้โจมตีสามารถปรับเปลี่ยน AI ผ่านกาแทรกคำสั่งได้อย่างไร

การแทรกคำสั่งคืออะไร

การแทรกคำสั่งเป็นจัดเป็นการโจมตีที่อาศัยการหลอกล่อเชิงจิตวิทยาและใช้กับระบบสนทนา AI เป็นหลัก ระบบ AI ยุคแรกเป็นการโต้ตอบระหว่างผู้ใช้หนึ่งคนกับเอเจนต์ AI หนึ่งตัว ในระบบ AI สมัยนี้ การสนทนาอาจผสมข้อมูลจากหลายที่ ทั้งจากอินเทอร์เน็ตและแหล่งอื่นๆ แนวคิดที่ว่าฝ่ายที่สาม (ซึ่งไม่ใช่ผู้ใช้และไม่ใช่ AI) อาจหลอกระบบโดยแทรกคำสั่งอันตรายเข้าไปในบริบทการสนทนา นำไปสู่คำว่า “การแทรกคำสั่ง”

เหมือนกับที่อีเมลฟิชชิงหรือกลโกงบนเว็บพยายามหลอกให้คนเปิดเผยข้อมูลสำคัญ การแทรกคำสั่งก็พยายามหลอกให้ AI ทำสิ่งที่คุณไม่ได้สั่ง

ลองนึกภาพว่าคุณขอให้ AI ช่วยหาข้อมูลท่องเที่ยวบนเว็บ และระหว่างที่มันทำงาน มันเจอเนื้อหาชวนเข้าใจผิดหรือคำสั่งอันตรายที่ซ่อนอยู่ในหน้าเว็บ เช่น ในคอมเมนต์ของรายการหรือในรีวิว ผู้ไม่หวังดีอาจเขียนเนื้อหาอย่างแนบเนียนเพื่อชักนำให้ AI แนะนำรายการผิด และอาจใช้วิธีเดียวกันนี้เพื่อขโมยข้อมูลบัตรเครดิตของคุณ

นี่คือตัวอย่างบางส่วนของการโจมตีแบบ “การแทรกคำสั่ง” ซึ่งเป็นคำสั่งอันตรายที่ออกแบบมาเพื่อหลอกให้ AI ทำสิ่งที่คุณไม่ได้สั่ง โดยมักซ่อนอยู่ในเนื้อหาทั่วไป เช่น หน้าเว็บ เอกสาร หรืออีเมล

เมื่อ AI เข้าถึงข้อมูลสำคัญมากขึ้นและทำงานที่ใช้เวลานานและซับซ้อนขึ้น ความเสี่ยงก็เพิ่มตามไปด้วย

สรุป

สิ่งที่คุณขอให้ AI ทำ

สิ่งที่ผู้โจมตีทำ

ผลลัพธ์ที่อาจเกิดขึ้นหากการโจมตีประสบความสำเร็จ

คุณขอให้ AI ค้นหาอพาร์ตเมนต์ แต่มีการแทรกคำสั่งให้แนะนำรายการที่ไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับคุณ

คุณขอให้ AI ค้นหาอพาร์ตเมนต์ตามเกณฑ์ที่กำหนดไว้

ผู้โจมตีได้ใส่การโจมตีแบบการแทรกคำสั่งในประกาศอพาร์ตเมนต์เพื่อหลอก AI ให้เลือกประกาศของพวกเขาโดยไม่สนใจความชอบที่ผู้ใช้ระบุ

หากการโจมตีสำเร็จ AI อาจแนะนำรายการอพาร์ตเมนต์ที่ไม่เหมาะสมตามความต้องการของคุณ

คุณขอให้เอเจนต์ AI ตอบอีเมลที่ส่งเข้ามาตอนกลางคืนแทนคุณ แต่เอเจนต์กลับแชร์รายการเดินบัญชีธนาคารของคุณ

คุณขอให้เอเจนต์ AI ตอบอีเมลของคุณในช่วงข้ามคืนเพราะคุณยุ่งในเช้าวันนี้

ดูรายละเอียดในหัวข้อ “ระบุคำสั่งให้เอเจนต์อย่างชัดเจนทุกครั้งที่มีโอกาส” ด้านล่าง


ผู้โจมตีส่งอีเมลถึงคุณซึ่งมีข้อมูลบิดเบือนที่หลอกให้โมเดลค้นหารายการเดินบัญชีธนาคารของคุณและส่งข้อมูลให้กับผู้โจมตี

หากการโจมตีสำเร็จ เอเจนต์อาจค้นหารายการเดินบัญชีธนาคารในอีเมลของคุณ (ซึ่งคุณได้ให้สิทธิ์เข้าถึงเพื่อทำงานนี้) และจะแชร์ข้อมูลเหล่านั้นกับผู้โจมตี

แนวทางของเราในการปกป้องผู้ใช้

การป้องกันการแทรกคำสั่งเป็นความท้าทายทั่วทั้งอุตสาหกรรม AI และเป็นจุดสนใจหลักที่ OpenAI ให้ความสำคัญ แม้ว่าเราคาดว่าฝ่ายตรงข้ามจะพัฒนาการโจมตีลักษณะนี้ต่อไป แต่เรากำลังสร้างการป้องกันที่ออกแบบมาเพื่อให้ผู้ใช้สามารถทำงานตามที่ตั้งใจได้ แม้ว่าจะมีการพยายามหลอกลวงจากภายนอกก็ตาม ความสามารถนี้สำคัญต่อการทำให้ประโยชน์ของ AGI เกิดขึ้นอย่างปลอดภัย

เพื่อคุ้มครองผู้ใช้และเสริมความสามารถของโมเดลในการต้านการโจมตีประเภทนี้ เราใช้การป้องกันแบบหลายชั้น ซึ่งรวมถึงแนวทางต่อไปนี้

การเทรนด้านความปลอดภัย

เราอยากให้ AI รู้ทันการแทรกคำสั่ง และไม่หลงเชื่อคำสั่งที่พยายามหลอกล่อมัน อย่างไรก็ตามความทนทานต่อการโจมตีเชิงปฏิปักษ์เป็นความท้าทายที่มีมานานสำหรับการเรียนรู้ของเครื่องและ AI ทำให้สิ่งนี้เป็นปัญหาที่ยากและยังไม่ได้รับการแก้ไข เราได้พัฒนางานวิจัยที่เรียกว่า ลำดับชั้นของคำสั่ง เพื่อสร้างโมเดลที่สามารถแยกแยะระหว่างคำสั่งที่เชื่อถือได้และคำสั่งที่ไม่น่าเชื่อถือ เรายังคงพัฒนาแนวทางใหม่ๆ ในการฝึกฝนโมเดลให้จดจำรูปแบบการแทรกคำสั่งได้ดียิ่งขึ้น เพื่อให้สามารถเพิกเฉยต่อการแทรกคำสั่งเหล่านั้นหรือแจ้งเตือนผู้ใช้ได้ หนึ่งในเทคนิคที่เราใช้คือการใช้กระบวนการ Red Teaming แบบอัตโนมัติ ซึ่งเป็นสาขาที่เราได้ ศึกษา(เปิดในหน้าต่างใหม่) มาหลายปี เพื่อพัฒนาการโจมตีการแทรกคำสั่งรูปแบบใหม่

การตรวจสอบ

เราได้พัฒนาระบบเฝ้าติดตามอัตโนมัติหลายระบบที่ขับเคลื่อนด้วย AI เพื่อระบุและบล็อกการโจมตีแบบการแทรกคำสั่ง ระบบเหล่านี้ทำงานร่วมกับการเทรนด้านความปลอดภัยได้ดี เพราะสามารถอัปเดตเร็วเพื่อบล็อกการโจมตีใหม่ที่ตรวจพบ ระบบเหล่านี้ช่วยระบุความเสี่ยงจากการแทรกคำสั่งที่อาจเกิดขึ้นกับผู้ใช้ และยังช่วยให้เราตรวจจับงานวิจัยหรือการทดสอบเชิงโจมตีที่เกิดขึ้นบนแพลตฟอร์มของเราก่อนที่การโจมตีจะถูกนำไปใช้ภายนอก

มาตรการป้องกันด้านความปลอดภัย

เราได้ออกแบบผลิตภัณฑ์และโครงสร้างพื้นฐานของเราโดยมีการป้องกันความปลอดภัยหลายชั้นที่ซ้อนทับกัน เพื่อช่วยปกป้องข้อมูลของผู้ใช้ เราปรับฟีเจอร์เหล่านี้ให้ตรงกับความต้องการของแต่ละผลิตภัณฑ์ และจะนำเสนอข้อมูลเชิงเทคนิคเพิ่มเติมในโพสต์ต่อไป ตัวอย่างเช่น เพื่อช่วยให้คุณหลีกเลี่ยงเว็บไซต์ที่ไม่น่าเชื่อถือ เราจะขอให้คุณอนุมัติลิงก์บางรายการใน ChatGPT ก่อนจึงจะสามารถเข้าชมได้ โดยเฉพาะกับ เว็บไซต์ที่ขอให้เราไม่จัดเก็บข้อมูลของพวกเขา(เปิดในหน้าต่างใหม่) เมื่อระบบ AI ของเราใช้เครื่องมือเพื่อรันโปรแกรมหรือโค้ดอื่นๆ (เช่น ใน Canvas หรือเครื่องมือพัฒนา Codex) เราจะใช้เทคนิคที่เรียกว่า Sandboxing เพื่อป้องกันไม่ให้โมเดลทำการเปลี่ยนแปลงที่เป็นอันตรายซึ่งอาจเกิดจากการแทรกคำสั่ง

ให้ผู้ใช้มีอำนาจควบคุม

เราผสานกลไกควบคุมไว้ในผลิตภัณฑ์เพื่อช่วยผู้ใช้ดูแลความปลอดภัยของตัวเอง ตัวอย่างเช่น ใน ChatGPT Atlas คุณสามารถเลือกโหมดออกจากระบบ ซึ่งช่วยให้เอเจนต์ ChatGPT เริ่มงานได้โดยไม่ต้องลงชื่อเข้าใช้เว็บไซต์ เอเจนต์ ChatGPT จะหยุดการทำงานชั่วคราวและขอการยืนยันก่อนดำเนินการขั้นตอนที่สำคัญ เช่น การทำการซื้อให้เสร็จสมบูรณ์ เมื่อเอเจนต์ทำงานบนเว็บไซต์ที่มีความอ่อนไหว เราได้เพิ่ม “Watch Mode” ซึ่งจะแจ้งเตือนคุณถึงความอ่อนไหวของเว็บไซต์ และให้คุณเปิดแท็บที่ค้างไว้เพื่อเฝ้าดูการทำงานของเอเจนต์ เอเจนต์จะหยุดทำงานชั่วคราวในทันทีที่คุณออกจากแท็บที่มีข้อมูลอ่อนไหว วิธีนี้ช่วยให้คุณติดตามและควบคุมการทำงานของเอเจนต์ได้อย่างต่อเนื่อง

Red Teaming

เราใช้กระบวนการ Red Teaming ร่วมกับทีมภายในและภายนอกอย่างเข้มข้น เพื่อตรวจสอบและปรับปรุงมาตรการป้องกัน จำลองพฤติกรรมผู้โจมตี และหาวิธีใหม่ในการเสริมความปลอดภัย ซึ่งครอบคลุมเวลาหลายพันชั่วโมงที่เน้นเรื่องการแทรกคำสั่ง เมื่อเราค้นพบวิธีการโจมตีและเทคนิคใหม่ ทีมงานจะจัดการกับช่องโหว่ด้านความปลอดภัยและปรับปรุงมาตรการป้องกันของโมเดลอย่างต่อเนื่อง

โปรแกรม Bug Bounty

เเพื่อสนับสนุนให้นักวิจัยความปลอดภัยอิสระทำงานอย่างสุจริตช่วยเราค้นพบเทคนิคและการโจมตี เรามีรางวัลเงินสดมอบให้ภายใต้ โปรแกรม Bug Bounty(เปิดในหน้าต่างใหม่) ของเราเมื่อพวกเขาแสดงเส้นทางการโจมตีที่สมจริงซึ่งอาจทำให้เกิดการเปิดเผยข้อมูลผู้ใช้โดยไม่ตั้งใจ เราส่งเสริมผู้ร่วมงานภายนอกให้รายงานปัญหาเหล่านี้อย่างรวดเร็ว เพื่อให้เราสามารถแก้ไขและทำให้มาตรการป้องกันของเรามีประสิทธิภาพยิ่งขึ้น

ให้ผู้ใช้เป็นผู้ตัดสินใจ

เราให้ความรู้ผู้ใช้เกี่ยวกับความเสี่ยงจากการใช้ฟีเจอร์บางอย่างในผลิตภัณฑ์ เพื่อให้ผู้ใช้ตัดสินใจได้อย่างรอบคอบ ตัวอย่างเช่น เมื่อเชื่อมต่อ ChatGPT กับแอปอื่นๆ เราจะอธิบายว่าข้อมูลใดอาจถูกเข้าถึง ข้อมูลนั้นอาจถูกนำไปใช้อย่างไร และความเสี่ยงที่อาจเกิดขึ้น เช่น เว็บไซต์พยายามขโมยข้อมูลของคุณ พร้อมลิงก์เพื่อเรียนรู้วิธีรักษาความปลอดภัยให้มากขึ้น เรายังให้องค์กรควบคุมได้ว่าฟีเจอร์ใดบ้างที่สามารถเปิดใช้งานหรือให้ผู้ใช้ใช้งานได้ในเวิร์กสเปซของพวกเขา

วิธีการที่ช่วยให้คุณรักษาความปลอดภัยได้มากขึ้น

การแทรกคำสั่งเป็นความท้าทายด้านความปลอดภัยระดับแนวหน้าที่เราคาดว่าจะพัฒนาไปตามกาลเวลา ความฉลาดและความสามารถในระดับใหม่จำเป็นต้องให้เทคโนโลยี สังคม และมาตรการป้องกันความเสี่ยงวิวัฒนาการร่วมกัน และเช่นเดียวกับไวรัสคอมพิวเตอร์ในช่วงต้นทศวรรษ 2000 เราคิดว่าเป็นเรื่องสำคัญที่ทุกคนจะต้องเข้าใจภัยคุกคามจากการแทรกคำสั่งและวิธีรับมือกับความเสี่ยง เพื่อให้เราทุกคนสามารถเรียนรู้ที่จะได้รับประโยชน์จากเทคโนโลยีนี้ได้อย่างปลอดภัย การตระหนักรู้และใช้ความระมัดระวังจะช่วยให้ข้อมูลของคุณปลอดภัยยิ่งขึ้นเมื่อใช้ AI และฟีเจอร์แบบเอเจนต์ที่สามารถทำงานแทนคุณได้

ใช้ฟีเจอร์ในตัวเพื่อจำกัดการเข้าถึงข้อมูลที่สำคัญ

ให้เอเจนต์ใช้เฉพาะข้อมูลอ่อนไหวหรือข้อมูลยืนยันตัวตนที่จำเป็นต่อการทำงาน และจำกัดการเข้าถึงส่วนอื่นเมื่อเป็นไปได้ ตัวอย่างเช่น เมื่อใช้โหมดเอเจนต์ใน ChatGPT Atlas เพื่อค้นคว้าข้อมูลการท่องเที่ยว หากเอเจนต์ทำเพียงการค้นคว้าและไม่จำเป็นต้องเข้าสู่ระบบ ให้ใช้โหมด “ออกจากระบบ”

เมื่อเอเจนต์ขอให้คุณยืนยัน ให้ตรวจสอบอย่างรอบคอบว่าสิ่งที่เอเจนต์ทำนั้นถูกต้องหรือไม่

เรามักออกแบบเอเจนต์ให้ขอการยืนยันสุดท้ายจากคุณก่อนดำเนินการบางอย่างที่มีผลสำคัญ เช่น การซื้อสินค้า หรือการส่งอีเมล เมื่อเอเจนต์ขอให้คุณยืนยันการกระทำ กรุณาตรวจสอบให้แน่ใจว่าการกระทำนั้นถูกต้อง และข้อมูลที่แชร์นั้นเหมาะสมกับบริบท

เมื่อเอเจนต์กำลังทำงานบนเว็บไซต์ที่มีความละเอียดอ่อน เช่น ธนาคารของคุณ ให้เฝ้าดูเอเจนต์ขณะทำงาน นี่เหมือนกับการสังเกตรถยนต์ขับเคลื่อนอัตโนมัติโดยการจับพวงมาลัยไว้

ระบุคำสั่งให้เอเจนต์อย่างชัดเจนทุกครั้งที่มีโอกาส

การให้คำสั่งเอเจนต์แบบกว้าง ๆ เช่น “ตรวจสอบอีเมลของฉันและดำเนินการตามที่จำเป็น” อาจทำให้เนื้อหาอันตรายที่ซ่อนอยู่หลอกโมเดลได้ง่ายขึ้น แม้ว่าจะถูกออกแบบให้ขอการยืนยันก่อนทำงานที่สำคัญ

การสั่งเอเจนต์ให้ทำงานแบบเฉพาะเจาะจงปลอดภัยกว่า และไม่ควรเปิดโอกาสให้มันทำงานกว้างเกินไปจนเสี่ยงทำตามคำสั่งอันตรายจากแหล่งอื่น เช่น อีเมล แม้ว่าวิธีนี้จะไม่สามารถป้องกันการโจมตีได้ทั้งหมด แต่ก็ทำให้ผู้โจมตีทำงานได้ยากขึ้น

ติดตามข้อมูลข่าวสารและปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดด้านความปลอดภัย

ขณะที่เทคโนโลยี AI ก้าวหน้า ความเสี่ยงและมาตรการความปลอดภัยใหม่ ๆ จะปรากฏขึ้น ติดตามข่าวสารจาก OpenAI และแหล่งข้อมูลที่เชื่อถือได้อื่นๆ เพื่อเรียนรู้เกี่ยวกับแนวทางปฏิบัติที่ดีที่สุด

มองไปข้างหน้า

การแทรกคำสั่งยังคงเป็นปัญหาการวิจัยที่ท้าทายและเป็นปัญหาระดับแนวหน้า เช่นเดียวกับการหลอกลวงแบบดั้งเดิมบนเว็บ เราคาดว่างานนี้จะต้องทำอย่างต่อเนื่อง แม้ว่าเรายังไม่เห็นการนำเทคนิคนี้ไปใช้โดยผู้โจมตีอย่างแพร่หลาย แต่เราคาดว่าฝ่ายตรงข้ามจะใช้เวลาและทรัพยากรอย่างมากเพื่อหาวิธีทำให้ AI ตกเป็นเหยื่อของการโจมตีเหล่านี้ เรากำลังลงทุนอย่างต่อเนื่องเพื่อทำให้ผลิตภัณฑ์ของเราปลอดภัย และทำวิจัยเพื่อพัฒนาความทนทานของ AI ต่อความเสี่ยงนี้ เราจะแชร์ข้อมูลอัปเดตเมื่อเราทราบข้อมูลเพิ่มเติม รวมถึงแชร์ความคืบหน้าอย่างต่อเนื่องในงานด้านความปลอดภัยของเราในด้านนี้ ตัวอย่างเช่น เรากำลังจัดทำรายงานที่จะเผยแพร่เร็วๆ นี้ เพื่ออธิบายเพิ่มเติมว่าระบบตรวจจับอย่างไรเมื่อ AI สื่อสารกับอินเทอร์เน็ตและอาจส่งข้อมูลจากการสนทนาออกไป

เรามุ่งสร้างระบบที่เชื่อถือได้และปลอดภัยเหมือนการทำงานกับเพื่อนหรือเพื่อนร่วมงานที่คุณเชื่อใจและมีความเข้าใจเรื่องความปลอดภัย เราจะเรียนรู้จากการใช้งานจริง ทำการปรับปรุงอย่างปลอดภัย และเผยแพร่สิ่งที่เราเรียนรู้ขณะที่เทคโนโลยีพัฒนาไป