การปรับปรุงลำดับชั้นของคำสั่งใน LLM ระดับแนวหน้า
ขอแนะนำ IH-Challenge ชุดข้อมูลเทรนโมเดลที่ช่วยยกระดับลำดับความสำคัญของคำสั่ง การกำกับทิศทางความปลอดภัย และความแข็งแกร่งในการป้องกันการป้อนคำสั่งลวง
ระบบ AI มักได้รับคำสั่งจากแหล่งข้อมูลที่หลากหลาย โดยอาจครอบคลุมตั้งแต่ชุดนโยบายความปลอดภัยในข้อความระบบ คำแนะนำด้านผลิตภัณฑ์จากนักพัฒนา คำขอจากผู้ใช้งาน ไปจนถึงข้อมูลต่าง ๆ ที่พบบนอินเทอร์เน็ต เพื่อให้การนำไปใช้งานจริงมีความปลอดภัย เราจำเป็นต้องเทรนโมเดลให้ยึดลำดับความสำคัญของคำสั่งจากแหล่งที่น่าเชื่อถือที่สุดเป็นหลักอย่างสม่ำเสมอ
ปัญหาด้านความปลอดภัยและความน่าเชื่อถือของ AI หลายประการอาจเกิดขึ้นได้ เมื่อระบบการจัดลำดับความสำคัญดังกล่าวเกิดความล้มเหลว โมเดลอาจเผชิญกับคำสั่งที่ขัดต่อข้อกำหนด การพยายามเข้าถึงข้อมูลส่วนตัว หรือการโจมตีผ่านการแทรกคำสั่งในข้อมูลบนอินเทอร์เน็ต ความผิดพลาดในการจัดการกับสถานการณ์เหล่านี้ล้วนมีต้นตอมาจากปัญหาเดียวกัน นั่นคือการที่โมเดลอาจไปทำตามคำสั่งที่ไม่ถูกต้อง
เมื่อคำสั่งเหล่านี้ขัดแย้งกัน โมเดลต้องตัดสินใจว่าจะให้ความสำคัญกับคำสั่งใดก่อน เมื่อใดที่โมเดลยึดเอาคำสั่งที่ไม่ปลอดภัยเป็นหลักในการทำงาน ระบบก็อาจแสดงออกในทางที่ผิดกฎระเบียบ หรือสวนทางกับความตั้งใจของทั้งนักพัฒนาและตัวผู้ใช้งานเอง
ผลการทดสอบชี้ให้เห็นว่าการใช้ชุดงานลำดับชั้นคำสั่งที่ออกแบบมาอย่างดี เพื่อสอนโมเดลให้ลำดับความสำคัญตามความไว้วางใจของแหล่งข้อมูล สามารถเพิ่มประสิทธิภาพความปลอดภัยในสถานการณ์จริงได้หลากหลายมิติ โมเดลที่ผ่านการเทรนด้วยวิธีนี้จะให้ความสำคัญกับกฎเกณฑ์ความปลอดภัยในระดับคำสั่งพื้นฐานมากขึ้น (ส่งผลดีต่อการปรับแต่งความปลอดภัย) และทนทานพอที่จะรับมือกับการแทรกคำสั่งที่แอบแฝงมาในเอาท์พุตของเครื่องมือ
เพื่อจัดการกับความขัดแย้ง โมเดลของ OpenAI ได้รับการเทรนให้ปฏิบัติตามลำดับชั้นของคำสั่งที่ชัดเจน:
ระบบ > นักพัฒนา > ผู้ใช้ > เครื่องมือ
คำสั่งที่มีลำดับความสำคัญสูงกว่าจะได้รับความไว้วางใจมากกว่า โมเดลควรปฏิบัติตามคำสั่งที่มีลำดับความสำคัญต่ำกว่าเฉพาะเวลาที่คำสั่งเหล่านั้นไม่ขัดแย้งกับข้อจำกัดที่มีลำดับความสำคัญสูงกว่า หลักการเหล่านี้ได้ระบุไว้ในข้อกำหนดของโมเดล OpenAI(เปิดในหน้าต่างใหม่)
ตัวอย่างเช่น หากข้อความระบบมีนโยบายความปลอดภัยระบุไว้ และผู้ใช้งานร้องขอให้โมเดลละเมิดนโยบายดังกล่าว โมเดลควรที่จะปฏิเสธคำขอนั้น หากเอาต์พุตของเครื่องมือมีคำสั่งที่เป็นอันตราย โมเดลควรเพิกเฉยต่อคำสั่งเหล่านั้น แทนที่จะถือว่าเป็นคำสั่งให้ปฏิบัติตาม
การดำเนินการในส่วนนี้ให้ถูกต้องถือเป็นรากฐานสำคัญต่อความปลอดภัย ความมั่นคง และความน่าเชื่อถือของระบบ
โมเดลทางด้านขวาสามารถปฏิบัติตามคำสั่งของนักพัฒนาซึ่งมีความสำคัญสูงกว่าได้อย่างถูกต้อง เมื่อเกิดกรณีที่คำสั่งของนักพัฒนาและผู้ใช้งานขัดแย้งกัน
การเรียนรู้แบบเสริมกำลังเป็นวิธีการที่เหมาะสมอย่างยิ่งในการฝึกฝนระบบลำดับชั้นคำสั่ง เราสามารถสร้างบทสนทนาที่มีคำสั่งขัดแย้งกัน เพื่อกระตุ้นให้แบบจำลองตอบสนอง และให้รางวัลเมื่อโมเดลปฏิบัติตามคำสั่งที่ถูกต้อง
เราได้ระบุถึงข้อควรระวัง 3 ประการจากการนำแนวทางดังกล่าวไปประยุกต์ใช้อย่างไม่รอบคอบ:
- ความผิดพลาดในการทำตามคำสั่งสามารถมองว่าเป็นความผิดพลาดของระบบลำดับชั้นคำสั่งได้เช่นกัน เนื่องจากโมเดลอาจจัดการกับคำสั่งที่ขัดแย้งกันไม่ได้ โดยมีสาเหตุมาจากความซับซ้อนของตัวคำสั่งเอง ไม่ใช่ว่าโมเดลไม่เข้าใจเรื่องระดับความสำคัญของแหล่งที่มา
- ข้อขัดแย้งระหว่างชุดคำสั่งอาจมีประเด็นที่ซับซ้อนละเอียดอ่อน และบ่อยครั้งก็เป็นเรื่องของดุลยพินิจส่วนบุคคล แนวทางที่นิยมใช้กันทั่วไปคือการให้ LLM อีกชุดหนึ่งทำหน้าที่เป็นกรรมการเพื่อกำหนดรางวัลให้แก่ LLM ที่กำลังรับการฝึกฝน ทว่าตัวกรรมการเองก็อาจเกิดความผิดพลาดได้เช่นกัน
- โมเดลมักจะเรียนรู้ ทางลัดที่ให้รางวัลสูง แต่ไร้ประโยชน์ในทางปฏิบัติ(เปิดในหน้าต่างใหม่) กรณีตัวอย่างที่พบบ่อยคือปัญหาการปฏิเสธพร่ำเพรื่อ โดยโมเดลอาจพยายามรักษาความปลอดภัยในระดับสูงสุดจนเลือกที่จะปฏิเสธแม้กระทั่งคำขอที่ไม่มีอันตราย
เราออกแบบ IH-Challenge ซึ่งเป็นชุดข้อมูลการฝึกสอนการเรียนรู้แบบเสริมกำลัง เพื่อรับมือกับข้อบกพร่องแต่ละข้อเหล่านั้น เราปฏิบัติตามหลักการต่อไปนี้
- ชุดงานถูกออกแบบมาให้ทำตามคำสั่งได้โดยง่ายและไม่ซับซ้อน
- สามารถให้คะแนนตามเกณฑ์ปรนัยได้อย่างชัดเจนด้วยสคริปต์ Python แบบง่าย
- ไม่มีทางลัดแบบง่ายๆ ที่รับประกันว่าจะได้รางวัลสูงในงานต่างๆ ทั้งหมด
แต่ละงานใน IH-Challenge โดยพื้นฐานแล้วคือบทสนทนาที่มีข้อความต่อไปนี้:
- ข้อความคำสั่งจากบทบาทที่มีสิทธิ์ระดับสูง ตัวอย่างเช่น “ตอบได้เฉพาะ ‘ใช่’ หรือ ‘ไม่’”
- ข้อความคำสั่งจากบทบาทที่มีสิทธิ์ระดับต่ำกว่า ซึ่งพยายามกระตุ้นให้โมเดลละเมิดคำสั่งที่ระบุไว้ในข้อความที่มีสิทธิ์ระดับสูงกว่า
ตัวโมเดลที่ฝึกอยู่จะสร้างคำตอบหรือข้อความถัดไปออกมาโดยอัตโนมัติ เราออกแบบชุดงานและสภาพแวดล้อมเพื่อให้สามารถใช้ระบบอัตโนมัติประเมินได้ว่า การตอบสนองของโมเดลเป็นไปตามกรอบของกฎเกณฑ์ที่มีระดับสิทธิ์สูงกว่า
เราได้เทรนโมเดลผ้าน IH‑Challenge และสร้างโมเดลภายใน ซึ่งเราเรียกว่า GPT‑5 Mini-R โดยมีการปรับปรุงดังต่อไปนี้:
- มีประสิทธิภาพสูงขึ้นเมื่อวัดผลด้วยชุดทดสอบมาตรฐานลำดับชั้นคำสั่ง
- ประสิทธิภาพที่พัฒนาขึ้นสามารถครอบคลุมไปถึงชุดทดสอบลำดับชั้นคำสั่งแบบใหม่ที่ไม่เคยเห็นมาก่อนและชุดทดสอบในรูปแบบการโจมตีได้
- ยังคงรักษาประสิทธิภาพการใช้งานในภาพรวมไว้ได้ โดยไม่เปลี่ยนไปเป็นการปฏิเสธพร่ำเพรื่อ
จุดเด่นที่ทำให้วิธีการนี้มีความสำคัญต่อความปลอดภัย คือการเทรนให้โมเดลจัดการกับคำสั่งที่ตีกันอย่างถูกต้องผ่านโจทย์ทดสอบลำดับชั้นคำสั่ง ซึ่งผลลัพธ์ที่ได้จะครอบคลุมไปถึงการป้องกันการโจมตีและบริบทใหม่ที่โมเดลไม่เคยพบมาก่อน
ความทนทานบนเกณฑ์มาตรฐานทางวิชาการ
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (ระบบ-ผู้ใช้) | 0.99 | 0.99 (+0) |
Gandalf Password (นักพัฒนา-ผู้ใช้) | 0.98 | 1.00 (+0.02) |
TensorTrust (ระบบ-ผู้ใช้) | 0.86 | 0.94 (+0.08) |
TensorTrust (นักพัฒนา-ผู้ใช้) | 0.76 | 0.91 (+0.15) |
RealGuardrails (ตัวเบี่ยงเบน) | 0.88 | 0.95 (+0.07) |
RealGuardrails (เขียนด้วยลายมือ) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
ความทนทานบนเกณฑ์มาตรฐานภายใน
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (ระบบ-ผู้ใช้) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (นักพัฒนาขผู้ใช้) | 0.97 | 0.99 (+0.02) |
ระบบ <> ความขัดแย้งของผู้ใช้ | 0.84 | 0.95 (+0.11) |
ระบบ <> ความขัดแย้งของนักพัฒนา | 0.86 | 0.86 (+0) |
นักพัฒนา <> ความขัดแย้งของผู้ใช้ | 0.83 | 0.95 (+0.12) |
ความสามารถไม่ถดถอย
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
การทดสอบ IH-Challenge (ตอบปฏิเสธพร่ำเพรื่อ) | 0.79 | 1.00 (+0.21) |
TensorTrust (ตอบปฏิเสธพร่ำเพรื่อ) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
อัตราการชนะในการแชตเมื่อเปรียบเทียบกับโมเดล o1 | 0.71 | 0.66 (-0.05) |
คะแนนความชอบ | 0.46 | 0.40 (-0.06) |
ลำดับชั้นคำสั่งที่แข็งแกร่งขึ้นช่วยมอบคุณประโยชน์ด้านความปลอดภัยในหลายมิติพร้อมกัน ทั้งในด้านการควบคุมทิศทางความปลอดภัยและความทนทานต่อการแทรกคำสั่ง
เราประเมินความสามารถในการควบคุมทิศทางด้านความปลอดภัย โดยการเพิ่มข้อกำหนดความปลอดภัยเฉพาะหมวดหมู่ลงในคำสั่งระบบ และวัดผลพฤติกรรมผ่านชุดทดสอบมาตรฐานการใช้งานจริงด้านความปลอดภัยของ OpenAI (ซึ่งประกอบด้วยบทสนทนาที่มีความอ่อนไหวต่อความปลอดภัยและสะท้อนถึงการใช้งานจริงของ ChatGPT)
โมเดลที่เทรนด้วยระบบ IH มีประสิทธิภาพดีขึ้นอย่างต่อเนื่อง โดยพบว่าเมื่อใส่เกณฑ์ความปลอดภัยเข้าไป จะมีอัตราการปฏิเสธคำสั่งอันตรายและอัตราการให้ข้อมูลที่ปลอดภัยสูงขึ้นในกลุ่มเนื้อหาต้องห้าม ซึ่งแสดงให้เห็นว่าการมีลำดับชั้นคำสั่งที่มั่นคงช่วยให้โมเดลจัดการกับความขัดแย้งได้ดีขึ้นในกรณีที่มีคำขอที่สุ่มเสี่ยงส่งมาจากระดับคำสั่งที่มีสิทธิ์น้อยกว่า ที่น่าสังเกตคือ พัฒนาการดังกล่าวไม่ได้ทำให้ประสิทธิภาพด้านความมีประโยชน์ลดน้อยลงแต่อย่างใด (กล่าวคือ แบบจำลองไม่ได้ทำตัวให้ “มีประโยชน์น้อยลง” เพียงเพราะการปฏิเสธคำสั่งในภาพรวมมากขึ้นเท่านั้น)


กรณีศึกษาที่ชี้ให้เห็นว่าโมเดลที่ฝึกแบบ IH มีความทนทานต่อการโจมตีแบบการแทรกคำสั่ง ในจุดที่ GPT‑5 Mini (รุ่นพื้นฐาน) ยังคงหลงกล
ลำดับชั้นของคำสั่งยังเป็นหัวใจสำคัญในการต้านทานการแทรกคำสั่ง เมื่อมีการฝังคำสั่งที่เป็นอันตรายไว้ในเอาต์พุตของเครื่องมือ เราประเมินโมเดลที่เทรนด้วย IH บนเกณฑ์มาตรฐานการแทรกคำสั่ง 2 รายการ ได้แก่ เกณฑ์มาตรฐานเชิงวิชาการ CyberSecEval 2 และเกณฑ์มาตรฐานการแทรกคำสั่งภายในของ OpenAI ซึ่งประกอบด้วยการโจมตีอย่างเช่นที่สาธิตกับเวอร์ชันเก่าของ ChatGPT Atlas
เมื่อเทียบกับค่าพื้นฐาน โมเดล GPT‑5 Mini-R ที่เทรนด้วย IH มีควาทนทานต่อการแทรกคำสั่งเพิ่มขึ้นในทั้งสองชุดทดสอบ และมีประสิทธิภาพดีขึ้นอย่างมากในการประเมินการแฝงคำสั่งแบบสแตติกภายในองค์กรของเราจากการทดลองเหล่านี้
ในขณะที่โมเดลเริ่มทำงานได้ด้วยตนเองมากขึ้น ไม่ว่าจะเป็นการเรียกใช้เครื่องมือ การประมวลผลข้อมูลจากแหล่งที่ไม่ปลอดภัย หรือการลงมือทำงานจริง ความสามารถในการยึดถือคำสั่งที่ได้รับอนุญาตเหนือกว่าคำสั่งแปลกปลอมจึงถือเป็นเรื่องสำคัญด้านความปลอดภัย
ผลงานชิ้นนี้พิสูจน์ว่าเราสามารถก้าวข้ามข้อบกพร่องต่าง ๆ ในการเทรนระบบความแข็งแกร่งของ IH ได้ ผ่านการสร้างสภาวะแวดล้อมสำหรับการเทรนที่ถูกออกแบบมาเพื่ออุดช่องโหว่เหล่านั้น แม้ว่าชุดข้อมูล IH-Challenge ของเราจะดูเรียบง่าย แต่พฤติกรรมด้านลำดับชั้นคำสั่งที่โมเดลเรียนรู้จากสภาพแวดล้อมเหล่านี้สามารถขยายผลไปสู่ชุดทดสอบมาตรฐานที่มีความสมจริงมากขึ้น ซึ่งบ่อยครั้งมักเป็นเกณฑ์ที่ไม่สามารถวัดผลเชิงปรนัยได้อย่างชัดเจน
การเสริมสร้างลำดับชั้นคำสั่งให้แข็งแกร่งไม่เพียงแต่ช่วยเพิ่มความน่าเชื่อถือเท่านั้น แต่ยังช่วยปลดล็อกคุณประโยชน์ด้านความปลอดภัยและความมั่นคงปลอดภัยในหลายด้านพร้อมกัน ซึ่งถือเป็นรากฐานที่มีความสำคัญอย่างยิ่งเมื่อระบบ AI มีความสามารถและมีอิสระมากขึ้น
เพื่อสนับสนุนการวิจัยเพิ่มเติมในด้านนี้ เรากำลังเผยแพร่ชุดข้อมูล IH‑Challenge ที่นี่(เปิดในหน้าต่างใหม่)


