การสารภาพสามารถทำให้โมเดลภาษาเป็นกลางและตรงไปตรงมาได้อย่างไร
เรากำลังแบ่งปันวิธีการเบื้องต้นในการพิสูจน์แนวคิดซึ่งสอนโมเดลให้รายงานเมื่อทำผิดคำสั่งหรือใช้คีย์ลัดที่ไม่ได้ตั้งใจ
ระบบ AI กำลังมีความสามารถมากขึ้น และเราต้องการทำความเข้าใจระบบเหล่านี้ให้ลึกซึ้งที่สุดเท่าที่ทำได้ รวมถึงวิธีการและเหตุผลที่ให้ได้มาซึ่งคำตอบ บางครั้งโมเดลอาจใช้คีย์ลัดหรือปรับให้เหมาะสมกับวัตถุประสงค์ที่ผิด แต่เอาต์พุตสุดท้ายยังคงดูถูกต้อง หากเราสามารถระบุได้เมื่อเหตุการณ์นั้นเกิดขึ้น เราจะสามารถตรวจสอบระบบที่นำไปปรับใช้ได้ดีขึ้น ปรับปรุงการฝึกสอน และเพิ่มความน่าเชื่อถือให้กับเอาต์พุต
การวิจัยโดย OpenAI และองค์กรอื่นๆ แสดงให้เห็นว่าโมเดล AI สามารถการสร้างข้อมูลเท็จ แฮ็กการให้รางวัล หรือไม่ตรงไปตรงมาได้ ในขณะนี้เราเห็นพฤติกรรมที่น่ากังวลที่สุด เช่น การวางแผน(เปิดในหน้าต่างใหม่)เฉพาะในการทดสอบความทนทานและการประเมินเชิงปฏิปักษ์เท่านั้น แต่เมื่อโมเดลมีความสามารถมากขึ้นและมีความเป็นเอเจนต์มากขึ้น รูปแบบความไม่สอดคล้องกันที่แม้ว่าจะพบยากนั้น ก็ส่งผลที่ตามมามากขึ้น จึงกระตุ้นให้เราลงทุนในวิธีการที่ช่วยให้เราตรวจจับ เข้าใจ และลดความเสี่ยงเหล่านี้ได้ดียิ่งขึ้น
งานนี้สำรวจแนวทางหนึ่งที่เป็นเช่นนั้น นั่นคือการฝึกสอนโมเดลให้ยอมรับอย่างชัดเจนเมื่อตนมีพฤติกรรมที่ไม่พึงประสงค์ ซึ่งเป็นเทคนิคที่เราเรียกว่าการสารภาพ
การสารภาพเป็นเอาต์พุตที่สอง แยกออกจากคำตอบหลักของโมเดลที่ให้แก่ผู้ใช้ คำตอบหลักจะถูกตัดสินจากมิติต่างๆ มากมาย ได้แก่ ความถูกต้อง สไตล์ ความเป็นประโยชน์ การปฏิบัติตาม ความปลอดภัย และอื่นๆ อีกมากมาย และสัญญาณหลายแง่มุมเหล่านี้จะถูกใช้เพื่อสอนโมเดลให้สร้างคำตอบที่ดีขึ้น ในทางตรงกันข้าม การสารภาพถูกตัดสินและฝึกสอนในสิ่งเดียวเท่านั้น นั่นคือความซื่อสัตย์ จากการอ้างอิงโครงสร้างของการสารภาพ สิ่งที่โมเดลกล่าวในการสารภาพจะไม่ถูกนำมาใช้เป็นข้อเสียหายต่อโมเดลระหว่างการฝึกสอน หากโมเดลยอมรับอย่างตรงไปตรงมาว่าได้แฮ็กการทดสอบ ทำไม่เต็มที่ หรือละเมิดคำสั่ง การยอมรับนั้นจะเพิ่มรางวัลให้กับโมเดลแทนที่จะลดลง เป้าหมายคือเพื่อส่งเสริมให้โมเดลรายงานสิ่งที่ได้ทำไปอย่างตรงไปตรงมา
จากการทดสอบของเรา เราพบว่าวิธีการสารภาพช่วยเพิ่มการมองเห็นพฤติกรรมที่ผิดปกติของโมเดลได้อย่างมีนัยสำคัญ เมื่อเฉลี่ยจากการประเมินของเราที่ออกแบบมาเพื่อกระตุ้นพฤติกรรมที่ไม่เหมาะสม ความน่าจะเป็นของ “ผลลบที่ผิดพลาด” (เช่น โมเดลไม่ปฏิบัติตามคำสั่งและไม่สารภาพในภายหลัง) มีเพียง 4.4% เท่านั้น
ความแม่นยำของโมเดลคำสารภาพ "การพิสูจน์แนวคิด" ของเราในชุดข้อมูลที่เป็นปฏิปักษ์จำนวนหนึ่ง ผลลัพธ์ถูกจัดประเภทเป็นปฏิบัติตามและไม่สารภาพ (ผลลบจริง) ปฏิบัติตามและสารภาพ (ผลบวกเท็จ) ไม่ปฏิบัติตามและไม่สารภาพ (ผลลบเท็จ) และไม่ปฏิบัติตามและสารภาพ (ผลบวกจริง)

เมื่อได้รับคำสั่งจากผู้ใช้ ผลลัพธ์ที่เป็นไปได้สี่แบบจะขึ้นอยู่กับการผสมผสานระหว่าง (1) ว่าคำตอบของโมเดลนั้นสอดคล้องกัน (“ดี”) หรือไม่สอดคล้องกัน (“ไม่ดี”) และ (2) การสารภาพนั้นอ้างว่าเป็นไปตามข้อกำหนดหรือไม่เป็นไปตามข้อกำหนด โดยทั่วไปเรามักจะเห็นว่าคำสารภาพมีแนวโน้มอย่างยิ่งที่จะถูกต้อง และนอกจากนี้ ข้อผิดพลาดในการสารภาพมักจะไม่ร้ายแรง และเกิดจากความสับสนโดยสุจริตมากกว่าการจงใจทำให้เข้าใจผิด
การสารภาพคือการที่โมเดลรายงานตนเองในเรื่องเกี่ยวกับการปฏิบัติตามทั้งเจตนาและตัวอักษรของคำสั่งหรือแนวทางซึ่งระบุไว้อย่างชัดเจนและโดยนัยได้ดีเพียงใด และมีกรณีใดบ้างที่โมเดล "เลี่ยงขั้นตอน" หรือ "แฮ็ก" ละเมิดนโยบาย หรือทำงานต่ำกว่าที่คาดหวังไว้ในทางใดทางหนึ่ง จากการวิจัยของเรา เราพบว่าโมเดลสามารถถูกฝึกให้รายงานข้อบกพร่องของตนเองได้อย่างตรงไปตรงมา เราได้ฝึกสอน GPT‑5 Thinking เวอร์ชันหนึ่งเพื่อสร้างคำสารภาพ และได้ประเมินผล AI นี้โดยใช้ชุดข้อมูลมากมายในการทดสอบความทนทานนอกการเผยแพร่ ซึ่งออกแบบมาเพื่อกระตุ้นพฤติกรรมต่างๆ เช่น การวางแผน การแฮ็ก การละเมิดคำสั่ง และการสร้างข้อมูลเท็จ เราพบว่าแม้ว่าโมเดลจะมีพฤติกรรมที่ไม่พึงประสงค์เหล่านี้ แต่ก็มีแนวโน้มสูงที่จะสารภาพพฤติกรรมเหล่านี้ รูปภาพด้านบนแสดงให้เห็นว่าแนวทางการสารภาพมีประสิทธิผลอย่างกว้างขวางในชุดข้อมูลและงานที่หลากหลาย
หลังจากการโต้ตอบใดๆ ระหว่างผู้ใช้กับโมเดลที่สิ้นสุดด้วยคำตอบของโมเดล ผู้ใช้สามารถขอรายงานคำสารภาพได้โดยการส่ง "ข้อความระบบ" ไปยังโมเดลเพื่อสั่งให้โมเดลจัดทำรายงานคำสารภาพ รายงานนี้เกี่ยวข้องกับคำตอบสุดท้ายจากโมเดล และประกอบด้วย (1) รายการของคำสั่ง ข้อจำกัด และวัตถุประสงค์ที่ชัดเจนและโดยนัยทั้งหมดที่คำตอบนี้ควรจะปฏิบัติตาม (2) การวิเคราะห์อย่างตรงไปตรงมาและเป็นกลางว่าคำตอบนั้นได้ปฏิบัติตามวัตถุประสงค์แต่ละข้อเหล่านี้หรือไม่ และ (3) รายการของความไม่แน่นอน ความคลุมเครือ หรือ "การตัดสินที่ยาก" ที่โมเดลพบในการสร้างคำตอบ ในระหว่างการฝึกสอน การสารภาพจะถูกประเมินโดยโมเดลรางวัลแยกต่างหาก โดยจะให้คะแนนเฉพาะการสารภาพในด้านความครบถ้วนของวัตถุประสงค์ ความถูกต้องของการวิเคราะห์การปฏิบัติตามข้อกำหนด และความครอบคลุมเรื่องความไม่แน่นอน รางวัลเหล่านี้จะถูกนำไปใช้เฉพาะกับเอาต์พุตของการสารภาพและไม่มีผลต่อรางวัลสำหรับคำตอบหลักแต่อย่างใด วิธีนี้จะช่วยให้มั่นใจได้ถึงคุณสมบัติที่กล่าวถึงข้างต้นว่า ไม่มีสิ่งใดที่โมเดลกล่าวในคำสารภาพจะส่งผลเสีย (หรือช่วย) ต่อรางวัลสำหรับคำตอบหลักของโมเดลได้
ทฤษฎีเบื้องหลังการสารภาพนั้นง่ายดาย พฤติกรรมที่ไม่พึงประสงค์หลายประเภทของโมเดลเกิดขึ้นเพราะเราขอให้โมเดลปรับให้เหมาะสมสำหรับหลายเป้าหมายไปพร้อมกัน ในระหว่างการเรียนรู้แบบเสริมแรง โมเดลจะเห็นคำสั่ง สร้างคำตอบ และได้รับรางวัล เมื่อเวลาผ่านไป โมเดลเรียนรู้ที่จะสร้างคำตอบที่ได้คะแนนดี เรื่องท้าทายคือสัญญาณรางวัลต้องรวมการพิจารณาหลายอย่างเข้าด้วยกันในคราวเดียว นั่นคือ คำตอบถูกต้องเพียงใด มีประโยชน์หรือไม่ เป็นไปตามข้อกำหนดของผลิตภัณฑ์และนโยบายหรือไม่ ตรงตามข้อจำกัดด้านความปลอดภัยหรือไม่ และตรงกับสิ่งที่ผู้ใช้มักต้องการหรือไม่ เมื่อสัญญาณเหล่านี้มีปฏิสัมพันธ์กัน อาจผลักดันโมเดลไปสู่พฤติกรรมที่เราไม่ต้องการโดยไม่ได้ตั้งใจ
ตัวอย่างเช่น งานของเราเกี่ยวกับการสร้างข้อมูลเท็จได้แสดงให้เห็นว่าชุดข้อมูลบางชุดให้รางวัลกับการคาดเดาอย่างมั่นใจมากกว่าการยอมรับความไม่แน่นอนอย่างตรงไปตรงมา การวิจัยของเราเกี่ยวกับการประจบประแจงได้แสดงให้เห็นว่าโมเดลสามารถเห็นพ้องด้วยมากเกินไปเมื่อสัญญาณความชอบนั้นชัดเจนเกินไป และงาน(เปิดในหน้าต่างใหม่)จากกลุ่มอื่นๆ ได้แสดงให้เห็นว่าโมเดลสามารถ "แฮ็กการให้รางวัล" ได้ โดยการหาช่องโหว่ในการตั้งค่าการฝึกสอนที่ทำให้พวกเขาได้รับคะแนนสูงโดยไม่ต้องทำตามที่เราตั้งใจจริงๆ ในบางกรณี คีย์ลัดเหล่านี้สามารถขยายผล(เปิดในหน้าต่างใหม่)ไปสู่พฤติกรรมที่เป็นอันตรายมากขึ้นในระหว่างการใช้งาน
การสารภาพหลีกเลี่ยงปัญหานี้โดยแยกวัตถุประสงค์ออกจากกันอย่างสิ้นเชิง คำตอบหลักยังคงปรับให้เหมาะสมสำหรับปัจจัยปกติทั้งหมดต่อไป การสารภาพนี้ถูกฝึกสอนมาเพียงสิ่งเดียวเท่านั้นคือ ความซื่อสัตย์ สิ่งที่โมเดลกล่าวในคำสารภาพจะไม่ถูกนำมาใช้เป็นข้อกล่าวหา และคำสารภาพนั้นจะไม่ส่งผลต่อรางวัลสำหรับคำตอบหลัก นั่นหมายความว่า แม้ว่าโมเดลจะหลอกลวงหรือทำงานลัดในเอาต์พุตดั้งเดิมของมัน แต่ก็ยังมีแรงจูงใจที่จะยอมรับเรื่องนั้นในการสารภาพ สิ่งที่เราเห็นในทางปฏิบัติคือ โมเดลเต็มใจที่จะยอมรับพฤติกรรมที่ไม่ดีในการสารภาพ แม้ในกรณีที่โมเดลซ่อนพฤติกรรมนั้นไว้ในคำตอบหลัก และเมื่อการสารภาพล้มเหลว มักเป็นเพราะโมเดลเกิดความสับสนจริงๆ เนื่องจากคำแนะนำที่ไม่ชัดเจนหรือเพราะมันไม่รู้ว่ามีข้อผิดพลาดเกิดขึ้นมากกว่าที่จะเป็นเพราะมันพยายามหลอกลวงโดยเจตนา ที่สำคัญ ผลลัพธ์เบื้องต้นแสดงให้เห็นว่าการสารภาพยังคงมีประสิทธิผลแม้ว่าคำตอบเดิมจะถูกสร้างขึ้นโดยไม่มีลำดับความคิดเลย ซึ่งชี้ให้เห็นว่าความซื่อสัตย์ในการสารภาพไม่ได้ขึ้นอยู่กับความชัดเจนของการให้เหตุผลภายใน และอาจนำไปใช้กับสถาปัตยกรรมโมเดลในอนาคตได้
การฝึกสอนเรื่องการสารภาพทำงานได้แม้ไม่มีป้ายกำกับความถูกต้องของการปฏิบัติตาม สำหรับคำว่า “ความจริงพื้นฐาน” นั้น เราหมายถึงป้ายกำกับที่ชัดเจนและมาจากภายนอกซึ่งระบุว่าโมเดลได้ปฏิบัติตามคำสั่งหรือได้ละเมิดคำสั่งนั้นจริงหรือไม่ ในงานจริงหลายๆ งาน ไม่มีป้ายกำกับเหล่านี้ให้ หากเราทราบแน่นอนว่าโมเดลได้ละเมิดกฎ เราก็สามารถลงโทษการละเมิดนั้นได้โดยตรงแทนที่จะต้องพึ่งพาการสารภาพ แต่โมเดลจะได้รับรางวัลสำหรับการสร้างคำอธิบายที่มีโครงสร้างและมีหลักฐานสนับสนุนเกี่ยวกับสิ่งที่โมเดลเชื่อว่าตนเองได้ทำไป เอกสารนี้แสดงให้เห็นว่าความซื่อสัตย์มักจะเกิดขึ้นภายใต้การจัดการนี้ เราคิดว่าสาเหตุเป็นเพราะโดยทั่วไปการให้คำอธิบายที่เป็นความจริงและมีหลักฐานรองรับนั้นง่ายสำหรับโมเดลมากกว่าการสร้างเรื่องราวที่แต่งขึ้นให้ดูสอดคล้องและสามารถผ่านการตัดสินได้ นี่คือสมมติฐานสำคัญที่สำรวจพบในเอกสาร ซึ่งยังกล่าวถึงกรณีที่การสารภาพล้มเหลว กล่าวคือผลลบเท็จและผลบวกเท็จ รวมถึงวิธีที่ผลนั้นเกิดขึ้น
เอกสารนี้ให้หลักฐานเบื้องต้นว่าการสารภาพมีผล แต่ไม่ควรตีความว่าเป็นข้อพิสูจน์ที่ชัดเจน แม้ว่าเราได้ใช้โมเดลแนวหน้า (GPT‑5 Thinking) การทดลองของเรามีขอบเขตจำกัด โดยใช้การคำนวณและข้อมูลในปริมาณที่ค่อนข้างน้อย เรารู้สึกตื่นเต้นที่จะยกระดับงานนี้ไปสู่ระดับถัดไป และดูว่าความซื่อสัตย์ของการสารภาพจะยังคงอยู่ต่อไปหรือไม่เมื่อเราขยายการฝึกสอน
โมเดล "การแฮ็กรางวัล" ในคำตอบหลักเพื่อหลอกลวงผู้ให้คะแนนโดยใส่คำอธิบายประกอบประโยคด้วยจำนวนคำที่อ้างว่านับได้ แต่แล้วก็ยอมรับเรื่องนี้ในคำสารภาพ
ในฐานะส่วนหนึ่งของการทดลองของเรา เรามีเจตนาในการฝึกสอนโมเดลกับสัญญาณรางวัล "ที่สามารถแฮ็กได้" ซึ่งคำนวณโดยโมเดลที่อ่อนแอกว่า การตั้งค่านี้ถูกนำไปใช้กับทั้งรางวัลหลักและรางวัลสารภาพ โมเดลได้เรียนรู้ที่จะใช้ประโยชน์จากสัญญาณรางวัลที่อ่อนแอ ได้แก่ ความแม่นยำที่ดูเหมือนถูกต้อง (เมื่อถูกประเมินโดยโมเดลที่อ่อนแอ) เพิ่มขึ้น ในขณะที่ความแม่นยำที่แท้จริง (เมื่อถูกประเมินโดยผู้ประเมินที่แข็งแกร่งกว่า) กลับลดลง
อย่างไรก็ตาม แม้ว่าช่องทางการสารภาพได้รับการฝึกสอนด้วยสัญญาณที่อ่อนแอเหมือนกัน แต่ความแม่นยำของช่องนี้กลับเคลื่อนไปในทิศทางตรงกันข้าม โมเดลได้เรียนรู้ว่าวิธีที่ดีที่สุดในการเพิ่มประสิทธิภาพรางวัลการสารภาพคือการยอมรับเมื่อมันแฮ็กการเข้าถึงรางวัลหลัก คำสารภาพมีความแม่นยำมากขึ้นเมื่อเวลาผ่านไป แม้ว่าพฤติกรรมหลักได้เปลี่ยนแปลงไป
ในระหว่างการฝึกสอน เมื่อโมเดลไม่ปฏิบัติตามข้อกำหนด โมเดลเรียนรู้ที่จะ "แฮ็ก" ผู้ตัดสินรางวัลหลักในบางกรณี และความแม่นยำของผู้ตัดสินก็จะลดลง ในทางตรงกันข้าม แม้ว่ารางวัลการสารภาพจะสามารถถูกแฮ็กได้เช่นกัน แต่โมเดลจะมีความซื่อสัตย์มากขึ้นในระหว่างการฝึกสอนในเรื่องการสารภาพ และในที่สุดก็จะสารภาพเกือบ 100% เมื่อโมเดลดังกล่าวไม่ปฏิบัติตาม
เอกสาร(เปิดในหน้าต่างใหม่)ประกอบด้วยการทดลองและผลลัพธ์เพิ่มเติม เราได้เปรียบเทียบโมเดลที่ฝึกสอนด้วยช่องทางการสารภาพกับโมเดลควบคุมที่ฝึกสอนในลักษณะเดียวกันแต่ไม่มีช่องทางการสารภาพ เรายังได้ตรวจสอบกรณีที่การสารภาพล้มเหลว "ข้อผิดพลาด" เกือบทั้งหมดเกิดขึ้นเมื่อโมเดลสับสนจริงๆ เมื่อได้รับคำแนะนำไม่ชัดเจนหรือเมื่อมันไม่รู้ตัวว่าทำผิดพลาดไปแล้ว (ดูตัวอย่างผลลบเท็จด้านบน)
การสารภาพมีข้อจำกัด มันไม่ได้ป้องกันพฤติกรรมที่ไม่ดี แต่เปิดเผยให้เห็นพฤติกรรมนั้น คุณค่าหลักของการสารภาพคือเป็นเครื่องมือในการเฝ้าติดตามและวินิจฉัย ทั้งในระหว่างการฝึกสอนและการปรับใช้ การสารภาพมีบทบาทคล้ายกับการตรวจสอบกระบวนการคิดเป็นลำดับ นั่นคือทั้งสองอย่างนี้ทำให้กระบวนการให้เหตุผลที่ซ่อนอยู่ปรากฏให้เห็นชัดเจนขึ้น การสารภาพมุ่งเน้นไปที่ว่าโมเดลละเมิดคำสั่งหรือไม่ กระบวนการคิดเป็นลำดับ (Chain-of-thought) สามารถเน้นให้เห็นถึงวิธีที่โมเดลทำมาถึงจุดนั้น
งานนี้ยังเป็นการพิสูจน์แนวคิดอีกด้วย เราไม่ได้ฝึกสอนกลไกการสารภาพในระดับใหญ่ และความแม่นยำของการสารภาพยังคงไม่สมบูรณ์ ยังมีงานที่ต้องทำอีกมากเพื่อทำให้แนวทางนี้มีความน่าเชื่อถือมากขึ้น แข็งแกร่งมากขึ้น และสามารถนำไปใช้ได้อย่างกว้างขวางมากขึ้นในกลุ่มโมเดลและงานต่างๆ
งานนี้อยู่ในกรอบแนวทางที่กว้างขึ้นของเราเกี่ยวกับความปลอดภัยของ AI การสารภาพเป็นกลไกหนึ่งในชุดที่ใหญ่กว่า ซึ่งประกอบด้วยการกำหนดให้สอดคล้องในเชิงไตร่ตรอง การตรวจสอบกระบวนการคิดเป็นลำดับ (Chain-of-thought) ลำดับชั้นของคำสั่ง และอื่นๆ อีกมากมาย ไม่มีวิธีการใดวิธีหนึ่งที่เพียงพอ เป้าหมายคือระบบการตรวจสอบแบบหลายชั้นและเครื่องมือความโปร่งใสที่เสริมซึ่งกันและกัน การสารภาพสามารถช่วยในการวินิจฉัยพฤติกรรมที่มีปัญหาในโมเดลระหว่างการฝึกสอนและการประเมิน รวมถึงการติดตามตรวจสอบระหว่างการปรับใช้ การสารภาพเพียงอย่างเดียวไม่สามารถแก้ไขปัญหาการสร้างสมดุลของมิติต่างๆ ได้ แต่การสร้างโหมด "truth serum" (เซรัมแห่งความจริง) ที่ทำให้โมเดลมุ่งเน้นไปที่ความซื่อสัตย์เพียงอย่างเดียวทำให้เพิ่มเครื่องมือที่มีคุณค่าให้กับชุดเครื่องมือของเราในการเพิ่มความซื่อสัตย์และความปลอดภัยในทุกด้าน
เนื่องจากโมเดลต่างๆ มีความสามารถมากขึ้นและถูกนำไปใช้ในสถานการณ์ที่มีความสำคัญมากขึ้น เราจึงต้องใช้เครื่องมือที่ดีขึ้นเพื่อทำความเข้าใจว่าโมเดลเหล่านี้ทำอะไรและทำไมจึงทำ การสารภาพไม่ใช่วิธีแก้ปัญหาที่สมบูรณ์ แต่ช่วยเพิ่มความโปร่งใสและการกำกับดูแลที่มีความหมาย สำหรับการทำงานในอนาคต เรามีแผนที่จะขยายการสารภาพ ตลอดจนจับคู่กับเทคนิคความโปร่งใสและความปลอดภัยที่ส่งเสริมกัน รวมไปถึงการติดตามตรวจสอบลำดับความคิดและการกำหนดให้สอดคล้องในเชิงไตร่ตรอง เพื่อก้าวหน้าไปอีกขั้นในการทำให้โมเดลของเราปฏิบัติตามคำสั่งและนโยบายทั้งหมดอย่างซื่อสัตย์ (เช่น ข้อมูลจำเพาะของโมเดล(เปิดในหน้าต่างใหม่)ของเรา) และรายงานการกระทำของตนอย่างตรงไปตรงมา


