29 พฤษภาคม 2569

แนวทางปฏิบัติร่วมกันเพื่อการวัดผลโดยบุคคลที่สามที่มีความน่าเชื่อถือ

ปัจจัยสำคัญสำหรับการวัดผลมาตรการป้องกันและขีดความสามารถของโมเดลระดับแนวหน้าอย่างเป็นอิสระและมีประสิทธิภาพ

กำลังโหลด…

การวัดผลโดยบุคคลที่สามที่มีความเป็นอิสระและน่าเชื่อถือ มีบทบาทสำคัญ⁠ในการเสริมสร้างระบบนิเวศด้านความปลอดภัยให้มีความมั่นคงยิ่งขึ้น การวัดผลเหล่านี้ดำเนินการกับโมเดลระดับแนวหน้าเพื่อให้หลักฐานเพิ่มเติมสำหรับข้อกล่าวอ้างเกี่ยวกับขีดความสามารถที่สำคัญและมาตรการป้องกันความปลอดภัย ในโพสต์นี้เราจะแบ่งปันบทเรียนที่ได้รับ และเสนอแนวทางสำหรับการออกแบบการวัดผลที่สามารถประเมินโมเดลระดับแนวหน้าได้อย่างถูกต้องแม่นยำ ซึ่งเราหวังว่าจะมีส่วนช่วยในการกำหนดมาตรฐานที่กำลังก่อตัวขึ้นวงการนี้

ก่อนหน้านี้การประเมินผลหลายอย่างปฏิบัติต่อโมเดลเสมือนเป็นแชตบอต โดยที่การวัดผลจะกระตุ้นโมเดลราวกับว่าผู้ใช้งานเป็นคนถามคำถาม โมเดลจะตอบกลับมา และผู้ประเมินจะตัดสินผลลัพธ์นั้น โมเดลระดับแนวหน้าในปัจจุบันทำได้มากกว่านั้นมาก โมเดลเหล่านี้สามารถใช้เครื่องมือ ติดตามข้อมูลตลอดหลายขั้นตอน และดำเนินการภายในเวิร์กโฟลว์ที่ใหญ่กว่าได้ ซึ่งหมายความว่าประสิทธิภาพไม่ได้ขึ้นอยู่กับโมเดลเพียงอย่างเดียว แต่ยังขึ้นอยู่กับสภาพแวดล้อมที่งานนั้นเกิดขึ้น และการตั้งค่าที่ช่วยเอื้อต่อการดำเนินการของโมเดลด้วย สภาพแวดล้อมโดยรอบนี้ หรือที่เรียกว่า “โครงสร้างสนับสนุน” มีผลต่อการปรับเปลี่ยนตัวแปรสำคัญด้านประสิทธิภาพของระบบ ไม่ว่าจะเป็นกลไกการใช้เครื่องมือ การจัดเก็บข้อมูล หรือการจัดการเพื่อแก้ไขข้อผิดพลาด

ไดอะแกรมเปรียบเทียบเวิร์กโฟลว์แบบพรอมต์-การตอบกลับกับเวิร์กโฟลว์งานแบบเอเจนต์ โดยแสดงให้เห็นว่าลูปควบคุม เครื่องมือ บริบท งบประมาณ และมาตรการป้องกันช่วยให้สามารถดำเนินงานแบบอัตโนมัติได้อย่างไร

ปัจจัยนี้ส่งผลต่อวิธีการดำเนินการวัดผลและสิ่งที่ผู้อ่านควรพิจารณาในรายงานผลการวัดผล ในมุมมองของเรา รายงานที่มีประโยชน์ที่สุดคือรายงานที่ระบุรายละเอียดสองประการนอกเหนือจากผลลัพธ์ ประการแรก คือการระบุว่าการตั้งค่าการวัดผลนั้นออกแบบมาเพื่อทดสอบข้อกล่าวอ้างใด และประการที่สอง คือการแบ่งปันหลักฐานที่มีอยู่เพื่อยืนยันว่าผลการวัดผลนั้นมีความเที่ยงตรง

ข้อกล่าวอ้างที่ถูกทดสอบในการวัดผลมักจะแบ่งออกเป็น 3 กลุ่มหลัก¹:

การกระตุ้นศักยภาพ: โมเดลสามารถแสดงขีดความสามารถที่กำลังถูกประเมินได้อย่างน่าเชื่อถือหรือไม่
ประสิทธิภาพของมาตรการป้องกัน: มาตรการป้องกันที่ทดสอบมีความแข็งแกร่งเพียงใดต่อพฤติกรรมหรือการโจมตีที่กำลังประเมินอยู่
การเปรียบเทียบ: โมเดลต่างๆ ทำงานได้ดีเพียงใดภายใต้เงื่อนไขที่เทียบเท่ากัน

รายงานการวัดผลยังจำเป็นต้องอธิบายถึงวิธีการที่ผู้ประเมินใช้ตรวจสอบผลกระทบที่อาจส่งผลต่อความเที่ยงตรงของผลลัพธ์นั้น สิ่งเหล่านี้ประกอบด้วย:

การโกงระบบรางวัล: การหาช่องโหว่จากทางลัดในภารกิจหรือตัววัดผล เพื่อให้ระบบได้รับคะแนนโดยไม่ต้องแสดงพฤติกรรมที่การประเมินมุ่งหมายจะวัดผล
การปฏิเสธ: การปฏิเสธในลักษณะที่ทำให้พฤติกรรมที่กำลังถูกทดสอบไม่ชัดเจน
การปนเปื้อน: การที่โมเดลแสดงประสิทธิภาพสูงเกินจริงเนื่องจากชุดการวัดผล คำตอบ หรือรูปแบบที่ใกล้เคียงกัน ปรากฏอยู่ในข้อมูลที่ใช้เทรนโมเดล หรือสามารถค้นพบได้ในระหว่างการวัดผล เช่น การเรียกดูข้อมูลผ่านเบราว์เซอร์
โจทย์ที่ใช้งานไม่ได้: ประสิทธิภาพต่ำกว่าที่ควร เนื่องจากงานไม่ถูกต้อง สาเหตุอาจรวมถึงการให้คะแนนที่ไม่เป็นธรรม (เช่น คำตอบที่ถูกต้องจำเป็นต้องอาศัยรายละเอียดการใช้งานที่ไม่ได้ระบุไว้) และสภาพแวดล้อมที่ไม่สามารถแก้ไขได้ (เช่น ไฟล์สำคัญสูญหายหรือเครื่องมือไม่น่าเชื่อถือ)
การจงใจลดประสิทธิภาพ: พฤติกรรมที่โมเดลตั้งใจทำผลงานในการประเมินให้ต่ำลงเมื่อทราบว่ากำลังถูกทดสอบอยู่

การเลือกโครงสร้างสนับสนุนที่เหมาะสมสำหรับการประเมินมีความสำคัญอย่างยิ่งต่อการได้ผลลัพธ์ที่ดีที่สุด

เราสังเกตเห็นว่าโครงสร้างสนับสนุน (harness) มีความสำคัญอย่างยิ่งต่อระบบที่มีการทำงานผ่านเส้นทางการประมวลผลที่ยาวนานขึ้น ในกรณีที่โมเดลสามารถใช้งานเครื่องมือ คงสถานะ และแก้ไขข้อผิดพลาดข้ามขั้นตอนต่างๆ ได้ โครงสร้างสนับสนุนอาจส่งผลต่อระดับประสิทธิภาพที่สังเกตได้ รวมถึงชี้ชัดได้ว่าขีดความสามารถที่ถูกทดสอบนั้นจะแสดงออกมาให้เห็นในการประเมินหรือไม่ ตัวอย่างเช่น โครงสร้างสนับสนุนที่รักษาข้อมูลสถานะและลองทำภารกิจที่ล้มเหลวใหม่อีกครั้ง อาจช่วยให้โมเดลทำงานหลายขั้นตอนให้เสร็จสมบูรณ์ ในขณะที่โมเดลตัวเดียวกันอาจไม่สามารถทำงานนั้นให้เสร็จสิ้นได้เลยหากใช้โครงสร้างสนับสนุนที่เรียบง่ายกว่า

ในตารางด้านล่างนี้ เราได้จำแนกข้อกล่าวอ้าง 3 ประเภทที่ผู้ประเมินอาจต้องการระบุ พร้อมด้วยโครงสร้างสนับสนุนที่เราเชื่อว่าจำเป็นสำหรับข้อกล่าวอ้างแต่ละประเภท

ข้อกล่าวอ้างที่การวัดผลพยายามสนับสนุน	การเลือกโครงสร้างสนับสนุนที่เหมาะสม	หลักฐานที่ต้องรายงาน
ขีดความสามารถภายใต้การกระตุ้นศักยภาพขั้นสูง: ระบบ A สามารถทำงานประเภท X ได้สำเร็จเมื่อโครงสร้างสนับสนุนถูกออกแบบมาเพื่อดึงประสิทธิภาพที่น่าเชื่อถือที่สุดของระบบออกมา	ใช้การตั้งค่าเพื่อกระตุ้นศักยภาพที่น่าเชื่อถือที่สุดสำหรับระบบ รวมถึงโครงสร้างสนับสนุน เครื่องมือ โครงสร้างการทำงาน และงบประมาณที่ผู้ใช้งานที่มีศักยภาพจะใช้ได้อย่างเหมาะสม	โครงสร้างสนับสนุนและการตั้งค่าเครื่องมือ คำแนะนำในการกระตุ้นศักยภาพ งบประมาณหรือความพยายามที่อนุญาตให้ใช้ ปริมาณโทเค็น/ต้นทุน/เวลา และเหตุผลว่าทำไมการตั้งค่านี้จึงเป็นตัวแทนที่น่าเชื่อถือสำหรับขีดความสามารถที่กล่าวอ้าง หากทำการเปรียบเทียบระบบภายใต้การตั้งค่าที่ปรับให้เหมาะสมแตกต่างกัน ให้ระบุว่าเป็นเปรียบเทียบแบบระบบต่อระบบ หรือการเปรียบเทียบแบบการกระตุ้นศักยภาพขั้นสูง
การเปรียบเทียบแบบควบคุม: ระบบ A มีประสิทธิภาพเหนือกว่าระบบ B ภายใต้กรอบการวัดผลเดียวกัน	คงภารกิจ การให้คะแนน และงบประมาณให้เหมือนเดิม ใช้การตั้งค่าโครงสร้างสนับสนุนและเครื่องมือร่วมกัน หรือใช้ชุดโครงสร้างสนับสนุนมาตรฐานที่กำหนดไว้ล่วงหน้า เพื่อให้เกิดการกระตุ้นศักยภาพสูงสุดในระดับที่สมเหตุสมผลสำหรับระบบที่นำมาเปรียบเทียบกัน	ชุดภารกิจที่ใช้ร่วมกัน เครื่องมือ วิธีการให้คะแนน โครงสร้างสนับสนุน งบประมาณ ประสิทธิภาพการใช้โทเค็น/ต้นทุน และข้อจำกัดที่ทราบ สำหรับการวัดผลเอเจนต์ด้านการเขียนโค้ด โครงสร้างสนับสนุนแบบโอเพนซอร์ส เช่น Codex CLI สามารถกำหนดลูปการทำงานของเอเจนต์และอินเทอร์เฟซเครื่องมือให้คงที่ในทุกระบบที่นำมาทดสอบ แนวทางที่เหมาะสมที่สุดสำหรับการกระตุ้นศักยภาพสูงสุดคือการปรับแต่งโครงสร้างสนับสนุนให้เหมาะกับแต่ละภารกิจและแต่ละระบบโดยเฉพาะ แต่ในปัจจุบันการทำเช่นนั้นยังไม่สามารถทำได้จริงในทางปฏิบัติ
ความแข็งแกร่งของมาตรการป้องกันภายใต้การโจมตีแบบชักนำ: มาตรการป้องกันของระบบ A เพียงพอสำหรับพฤติกรรมของโมเดลที่เกี่ยวข้องหรือการโจมตีแบบชักนำ	ใช้การตั้งค่าสำหรับทดสอบมาตรการป้องกันที่ออกแบบมาเพื่อกระตุ้นการโจมตีที่น่าเชื่อถือและรุนแรงที่สุดภายใต้โมเดลฝ่ายตรงข้ามที่เกี่ยวข้อง	วิธีที่ผู้ประเมินระบุลักษณะพฤติกรรมของโมเดลที่เกี่ยวข้อง การตั้งค่ามาตรการป้องกันที่ผ่านการทดสอบ กลยุทธ์การกระตุ้นศักยภาพ โครงสร้างสนับสนุนที่ใช้ในการดำเนินการ และงบประมาณหรือระดับความพยายามที่กำหนดไว้

ข้อกล่าวอ้างเกี่ยวกับขีดความสามารถจะมีความน่าเชื่อถือได้เท่าที่กระบวนการกระตุ้นศักยภาพเบื้องหลังรองรับเท่านั้น ดังนั้น ผู้ประเมินจึงจำเป็นต้องเลือกโครงสร้างสนับสนุนที่เหมาะสมที่สุดกับภารกิจและขีดความสามารถที่การประเมินนั้นต้องการวัดการใช้โครงสร้างสนับสนุนมาตรฐานอาจเหมาะสมสำหรับการเปรียบเทียบระบบภายใต้เงื่อนไขที่เหมือนกัน แต่ก็อาจทำให้ประเมินขีดความสามารถต่ำกว่าความเป็นจริง หากโครงสร้างดังกล่าวขาดคุณสมบัติเฉพาะของโครงสร้างสนับสนุนที่ช่วยให้โมเดลสามารถทำงานนั้นให้สำเร็จได้ ตัวอย่างเช่น ประสิทธิภาพของ GPT‑5.5 บนระบบจำลองสถานการณ์ภัยคุกคามทางไซเบอร์ของ OpenAI แสดงให้เห็นว่าการเลือกโครงสร้างสนับสนุนสามารถเปลี่ยนผลลัพธ์ของขีดความสามารถที่วัดได้ในงานที่ต้องการการใช้เครื่องมือแบบหลายขั้นตอนอย่างต่อเนื่องอย่างมีนัยสำคัญ โดยโมเดลจะมีประสิทธิภาพดีขึ้นเมื่อโครงสร้างสนับสนุนเลือกใช้การบีบอัด⁠ข้อมูลเพื่อรักษาบริบทที่เกี่ยวข้องกับงานไว้ในขณะที่การโต้ตอบมีความยาวมากขึ้น สิ่งนี้แสดงให้เห็นว่า สำหรับโมเดลบางรุ่น ชุดทดสอบที่ไม่รวมการบีบอัด จะทำให้ประสิทธิภาพที่ดึงออกมาได้ต่ำกว่าที่ควร

ยิ่งอัตราความสำเร็จสูงยิ่งดี

การประเมินอื่นๆ ที่ได้รับการตีพิมพ์ ² ยังแสดงให้เห็นว่าการเลือกโครงสร้างสนับสนุน และงบประมาณในการทดสอบสามารถเปลี่ยนผลลัพธ์การประเมินได้ การเพิ่มทรัพยากรประมวลผลระหว่างการทดสอบสามารถเปลี่ยนแปลงขีดความสามารถที่การประเมินดึงออกมาได้อย่างมีนัยสำคัญ โดยเฉพาะในด้านที่สามารถตรวจสอบความสำเร็จได้ง่าย เช่น งานด้านไซเบอร์จำนวนมาก ในการประเมิน cyber range ของ UK AISI⁠(เปิดในหน้าต่างใหม่) การเพิ่มงบประมาณจาก 10 ล้านโทเค็นเป็น 100 ล้านโทเค็นช่วยเพิ่มประสิทธิภาพได้สูงถึง 59% และประสิทธิภาพยังคงมีแนวโน้มเพิ่มขึ้นอย่างต่อเนื่อง ณ ระดับงบประมาณสูงสุดที่มีการทดสอบ การลงรายละเอียดในส่วนนี้ช่วยให้การประเมินมีความชัดเจนและตีความได้ง่ายขึ้น เนื่องจากเป็นการแสดงให้ผู้อ่านเห็นว่าผลลัพธ์นั้นขึ้นอยู่กับรูปแบบการกระตุ้นศักยภาพที่ใช้ทดสอบอย่างไร ในกรณีที่ประสิทธิภาพยังคงปรับตัวดีขึ้นเมื่อได้รับงบประมาณเพิ่มขึ้น ควรระบุคะแนนที่ได้ว่าเป็นประสิทธิภาพภายใต้โครงสร้างสนับสนุนและงบประมาณนั้นๆ แทนที่จะระบุว่าเป็นเพดานขีดความสามารถที่วัดได้จริง ขีดความสามารถมักเป็นสิ่งที่ขึ้นอยู่กับทรัพยากรที่ใช้ มากกว่าจะเป็นค่าคงที่ที่สามารถวัดได้อย่างชัดเจนเพียงครั้งเดียวแล้วจบไป ในกรณีที่สามารถวัดความสำเร็จได้จากการลองทำซ้ำหลายครั้ง รายงานควรพิจารณาต้นทุนที่คาดการณ์ต่อการแก้ปัญหาสำเร็จหนึ่งครั้งด้วย ไม่ใช่เพียงแค่พิจารณาอัตราความสำเร็จภายใต้งบประมาณโทเค็นที่กำหนดไว้ตายตัว สิ่งนี้ช่วยให้ตีความระดับความรุนแรงได้ง่ายขึ้น โดยอัตราความสำเร็จที่ต่ำอาจยังคงมีความหมายในเชิงปฏิบัติ หากต้นทุนจากการลองทำซ้ำอยู่ในขอบเขตของแบบจำลองภัยคุกคามที่เกี่ยวข้อง สำหรับข้อกล่าวอ้างเกี่ยวกับขีดความสามารถ การดึงศักยภาพออกมาไม่เต็มที่ทั้งที่หลีกเลี่ยงได้ถือเป็นความล้มเหลวในการวัดผล หากโครงสร้างสนับสนุนหรือทรัพยากรจำกัดไม่ให้ระบบแสดงพฤติกรรมที่มันสามารถทำได้จริง คะแนนที่ได้ก็ย่อมไม่สามารถวัดขีดความสามารถที่ถูกกล่าวอ้างนั้นได้ ในกรณีที่ผู้ประเมินได้พยายามกระตุ้นศักยภาพอย่างเต็มที่เท่าที่จะเป็นไปได้แล้ว แต่ประสิทธิภาพยังคงมีแนวโน้มเพิ่มขึ้น รายงานควรระบุประเด็นนี้อย่างชัดเจน และชี้ให้เห็นว่าผลลัพธ์ที่ได้นั้นเป็นเพียงการประมาณการขีดความสามารถขั้นต่ำเท่านั้น

การทดสอบมาตรการป้องกันอาจประเมินความสามารถในการโจมตีให้ต่ำกว่าความเป็นจริง ทั้งในด้านโอกาสสำเร็จและความรุนแรง หากไม่ได้คำนึงถึงทรัพยากรที่ผู้โจมตีสามารถเข้าถึงได้ รวมถึงการใช้โครงสร้างสนับสนุนที่ปรับแต่งขึ้นเฉพาะในการประเมินด้านไซเบอร์ของ GPT‑5.5 โดย UK AISI⁠(เปิดในหน้าต่างใหม่) การทำ red teaming โดยผู้เชี่ยวชาญของหน่วยงานดังกล่าวค้นพบวิธีเจลเบรกแบบสากลที่สามารถดึงเนื้อหาไซเบอร์ที่ละเมิดนโยบายออกมาได้จากชุดคำสั่งอันตรายที่ OpenAI จัดเตรียมไว้ รวมถึงในสถานการณ์การทำงานแบบเอเจนต์ที่หลายขั้นตอนด้วย พวกเขาใช้ Codex ในการสร้างโครงสร้างสนับสนุนแบบกำหนดเองเพื่อเสริมประสิทธิภาพการโจมตีของโมเดล โดยโครงสร้างดังกล่าวฝังรูปแบบการหลบหลีกมาตรการป้องกันที่สามารถนำกลับมาใช้ใหม่ได้ไว้ในกระบวนการโต้ตอบ พร้อมทั้งรักษาความต่อเนื่องของรูปแบบนั้นข้ามผ่านช่วงการสนทนาและบล็อกการทำงานต่างๆ และนำไปประยุกต์ใช้กับคำสั่งไซเบอร์ที่เป็นอันตรายที่ OpenAI จัดเตรียมไว้ การทดสอบมาตรการป้องกันควรมีความสอดคล้องกับลักษณะของผู้โจมตี หากข้อกล่าวอ้างเป็นเรื่องเกี่ยวกับความทนทานต่อการใช้งานในทางที่ผิดโดยผู้เชี่ยวชาญ การทดสอบควรประเมินกลยุทธ์การโจมตีแบบต้นทางถึงปลายทางที่มีความน่าเชื่อถือสูงสุดภายใต้งบประมาณที่กำหนดไว้ รวมถึงโครงสร้างสนับสนุนใดๆ ที่จำเป็นสำหรับการรักษาและนำกลยุทธ์นั้นกลับมาใช้ใหม่ มิฉะนั้นผลลัพธ์อาจเสี่ยงต่อการวัดผลที่คลาดเคลื่อน กล่าวคือ ผลลัพธ์เหล่านั้นอาจสนับสนุนได้เพียงข้อกล่าวอ้างที่แคบกว่าเดิมเกี่ยวกับความต้านทานต่อการใช้คำสั่งที่เรียบง่ายกว่า อาจพลาดการประเมินทั้งในแง่ระดับความรุนแรงของการโจมตีและโอกาสความสำเร็จเมื่อมีการนำวิธีการกระตุ้นศักยภาพไปใช้งานจริง รวมถึงอาจประเมินระดับความเป็นไปได้หรือความรุนแรงของปัญหาเกินจริงหากได้รับงบประมาณมากเกินไป

แม้ว่าการเปรียบเทียบด้วยโครงสร้างสนับสนุนแบบมาตรฐานจะมีช่วงเวลาและโอกาสที่เหมาะสมในการใช้งาน แต่ผู้ประเมินควรระบุให้ชัดเจนว่าเหตุใดการใช้ชุดโครงสร้างสนับสนุนที่สอดคล้องกันจึงมีความเหมาะสม และข้อกล่าวอ้างใดที่สามารถรองรับได้ การประเมินแบบช่วงเวลาของ METR⁠(เปิดในหน้าต่างใหม่) ถือเป็นตัวอย่างของการตั้งค่าการประเมินที่ครอบคลุมและมีความคงที่อย่างเหมาะสม ซึ่งออกแบบมาเพื่อสร้างผลลัพธ์ที่สามารถเปรียบเทียบกันได้ระหว่างระบบที่นำมาประเมิน METR ได้กำหนดผลลัพธ์ร่วมกัน ซึ่งก็คือระยะเวลาโดยทั่วไปสำหรับงานที่มนุษย์ทำ ซึ่งมีการคาดการณ์ว่าเอเจนต์ AI จะสามารถทำสำเร็จได้ที่ระดับความน่าเชื่อถือที่กำหนด กระบวนการนี้ใช้ชุดงานร่วม วิธีการให้คะแนน วิธีการปรับค่า และชุดโครงสร้างสนับสนุนที่นำกลับมาใช้ใหม่ได้จำนวนหนึ่ง เช่น Triframe และ ReAct⁠(เปิดในหน้าต่างใหม่) ในการประมาณการแต่ละชุดที่รายงานร่วมกัน เมื่อ METR ขยายชุดงาน และย้ายโครงสร้างพื้นฐานสำหรับการวัดผลจากกรอบงานที่เรียกว่า Vivaria ไปยังกรอบงานที่เรียกว่า Inspect ทาง METR ได้รายงานการเปลี่ยนแปลงดังกล่าว (การอัปเดต Time Horizon 1.1⁠(เปิดในหน้าต่างใหม่)) และดำเนินการประเมินโมเดลใหม่ภายใต้การตั้งค่าการวัดผลแบบใหม่ นั่นคือคุณค่าของการตั้งค่าการวัดผลที่เป็นมาตรฐาน ซึ่งรวมถึงการใช้ชุดโครงสร้างสนับสนุนที่สอดคล้องกัน เพราะสิ่งนี้ช่วยให้ผู้อ่านมั่นใจได้ว่าความแตกต่างของคะแนนที่พบนั้น สะท้อนถึงความแตกต่างระหว่างระบบที่นำมาเปรียบเทียบกันจริง ๆ ไม่ใช่เกิดจากการเปลี่ยนแปลงในโครงสร้างของการวัดผล

เราขอเสนอแนะให้รายงานการประเมินผลจากหน่วยงานภายนอกระบุให้ชัดเจนว่าการตั้งค่าการวัดผลของตนมีจุดมุ่งหมายเพื่อสนับสนุนข้อกล่าวอ้างในประเด็นใด พร้อมทั้งอธิบายว่าสิ่งที่ได้รับการทดสอบนั้นสะท้อนถึงข้อกล่าวอ้างในวงกว้างได้อย่างไร รวมถึงแจกแจงทางเลือกด้านโครงสร้างสนับสนุนที่มีผลต่อผลลัพธ์ ระบุรายละเอียดเมื่อมีการเปลี่ยนแปลงทางเลือกเหล่านั้นระหว่างการประเมิน และจัดเตรียมหลักฐานสนับสนุนเพื่อแสดงให้เห็นถึงที่มาของผลลัพธ์และความสามารถในการสรุปอ้างอิงทั่วไปของผลลัพธ์ดังกล่าวต่อข้อกล่าวอ้างนั้น

ประเมินความถูกต้องโดยตรวจสอบปัจจัยเสี่ยงที่ทราบซึ่งอาจทำให้ผลลัพธ์คลาดเคลื่อน

เมื่อโมเดลมีความสามารถมากขึ้น คะแนนการวัดผลก็ยิ่งตีความผิดได้ง่ายขึ้น เมื่อเทียบกับความสามารถที่แท้จริง คะแนนที่ได้จากการวัดผลอาจต่ำกว่าความเป็นจริงได้ หากโมเดลตรวจพบว่ากำลังอยู่ในขั้นตอนการประเมินและเลือกที่จะลดประสิทธิภาพการทำงานลงโดยเจตนา คะแนนดังกล่าวอาจถูกทำให้สูงเกินจริงหากโมเดลใช้ประโยชน์จากช่องทางลัดในชุดงาน พรอมต์ ผู้ให้คะแนน หรือโครงสร้างสนับสนุน ผลลัพธ์ดังกล่าวยังอาจเกิดความบิดเบือนได้จากการปนเปื้อนของข้อมูล (ซึ่งโมเดลทราบคำตอบอยู่แล้วหรือสามารถหาคำตอบได้โดยไม่ต้องแก้ไขโจทย์งานนั้น) หรือเกิดจากปัญหาที่ “บกพร่อง” เช่น โจทย์ที่มีความกำกวม การให้คะแนนที่ไม่ถูกต้อง โจทย์ที่แก้ไม่ได้ หรือโจทย์ที่มีช่องโหว่ให้โมเดลใช้ทางลัด ด้วยเหตุนี้รายงานการประเมินควรแสดงคะแนนหลักควบคู่ไปกับการชี้แจงความเสี่ยงเหล่านี้ เพื่อให้ผู้อ่านสามารถพิจารณาได้ว่าคะแนนที่เห็นนั้นสื่อถึงพฤติกรรมที่ต้องการวัดจริงหรือไม่

โครงสร้างสนับสนุน งบประมาณ เครื่องมือ กฎการให้คะแนน ตัวตรวจสอบ และขั้นตอนการทบทวน ทั้งหมดนี้ล้วนส่งผลกระทบต่อการที่เอเจนต์กำลังแก้ไขงานตามวัตถุประสงค์ หลีกเลี่ยงงานนั้น จดจำงานนั้น หรือค้นพบเส้นทางลัดเพื่อเลี่ยงงานดังกล่าว รายงานการประเมินผลที่น่าเชื่อถือควรทำให้การตรวจสอบเหล่านี้เป็นสิ่งที่มองเห็นได้ โดยผู้ประเมินควรตรวจสอบตัวอย่างข้อมูลสำหรับพฤติกรรมเหล่านี้ทุกครั้งที่มีการดำเนินการประเมินผล

การแฮ็กรางวัล

การโกงระบบรางวัลหมายถึง การที่เอเจนต์ได้รับคะแนนการประเมินผลในระดับสูงด้วยวิธีการที่ไม่สะท้อนถึงขีดความสามารถที่มุ่งหมายไว้จริง สิ่งที่น่ากังวลคือระบบอาจได้รับคะแนนจากการหาช่องทางลัดผ่านตัวงาน ระบบการให้คะแนน พรอมต์ หรือโครงสร้างสนับสนุน แทนที่จะเป็นการแสดงความสามารถตามที่การวัดผลมุ่งหมายจะทดสอบ การประเมินผล GPT‑5.4 ของ METR⁠(เปิดในหน้าต่างใหม่) แสดงให้เห็นว่าเหตุใดเรื่องนี้จึงมีความสำคัญ แม้ว่าโมเดลจะประสบความสำเร็จในงานต่างๆ ด้วยอัตราที่หากวัดจากการรันครั้งแรกจะเทียบเท่ากับกรอบระยะเวลาประมาณ 13 ชั่วโมง แต่เมื่อให้มนุษย์มาตรวจสอบกลับพบว่าความสำเร็จบางอย่างเกิดจากการโกงระบบรางวัล ซึ่งเมื่อปรับปรุงผลลัพธ์โดยนับเฉพาะกรณีที่ไม่มีการโกงระบบรางวัล ทำให้ค่าประมาณลดลงเหลือเพียงประมาณ 6 ชั่วโมงเท่านั้น ผู้ประเมินควรประเมินความจำเป็นในการปรับปรุงผลลัพธ์ดังกล่าว และเมื่อมีความจำเป็นต้องปรับปรุง ก็ควรรายงานให้ชัดเจน เพราะการประมาณการขีดความสามารถจะมีประโยชน์มากขึ้นเมื่อผู้อ่านสามารถเห็นได้ว่าความสำเร็จที่ปรากฏนั้นมีกรณีใดบ้างที่ถูกตัดสิทธิ์ เหตุผลในการตัดสิทธิ์ และผลลัพธ์ดังกล่าวขึ้นอยู่กับการตัดสินใจนั้นมากน้อยเพียงใด

แผนภูมิที่แสดงประสิทธิภาพของโมเดล AI เมื่อเวลาผ่านไป พร้อมเส้นแนวโน้มและช่วงความเชื่อมั่น

การปฏิเสธ

โมเดลอาจมีผลการประเมินความสามารถต่ำกว่าศักยภาพได้เช่นกันเนื่องจากมาตรการป้องกัน โมเดลอาจมีผลการประเมินต่ำกว่าความสามารถที่แท้จริง เนื่องจากปฏิเสธงานประเมินแทนที่จะทำงานเหล่านั้นให้เสร็จ ดังนั้นรายงานควรอธิบายว่าการปฏิเสธเป็นส่วนหนึ่งของผลการประเมินหรือไม่ และหากใช่ ควรระบุว่ามีตัวอย่างจำนวนเท่าใดที่ได้รับผลกระทบจากการปฏิเสธเหล่านั้น

การปนเปื้อน

การปนเปื้อนมีความสำคัญมากที่สุดสำหรับ ชุดเกณฑ์วัดประสิทธิภาพที่เป็นสาธารณะหรือถูกนำกลับมาใช้ซ้ำ⁠ หากงาน คำตอบ หรือรูปแบบที่ใกล้เคียงกันปรากฏอยู่ในข้อมูลการฝึก หรือเอเจนต์ที่มีความสามารถในการท่องเว็บสามารถค้นพบได้ ประสิทธิภาพอาจสะท้อนถึงการจดจำหรือการดึงข้อมูล มากกว่าประสิทธิภาพของโมเดล ผู้ประเมินควรเลือกใช้งานที่ไม่เปิดเผยต่อสาธารณะหรืองานที่จัดทำขึ้นใหม่เมื่อเป็นไปได้ และทดสอบว่าโมเดลสามารถสร้างรายละเอียดเฉพาะของงานซ้ำได้ก่อนลงมือแก้ปัญหาหรือไม่

โจทย์ที่มีปัญหา

โจทย์ที่มีปัญหารวมถึงสถานการณ์ต่าง ๆ เช่น โจทย์ที่ไม่สามารถแก้ได้โดยไม่ได้ตั้งใจ โจทย์ที่มีปัญหานั้นพบได้บ่อยพอ⁠(เปิดในหน้าต่างใหม่) จนควรถือว่าเป็นความเสี่ยงด้านความถูกต้องมาตรฐาน โจทย์เหล่านี้รวมถึงการมีคำตอบอ้างอิงที่ไม่ถูกต้อง พรอมต์ที่กำกวม ไฟล์ที่ขาดหายไป บริการที่ไม่เสถียร เกณฑ์การให้คะแนนที่ไม่ยุติธรรม และสภาพแวดล้อมที่เปิดช่องให้ใช้ทางลัด เช่น การมีไฟล์คำตอบที่ซ่อนอยู่หรือประวัติใน Repository ที่มีแพตช์ของคำตอบอ้างอิงอยู่

การแกล้งทำไม่เต็มที่

การจงใจลดประสิทธิภาพโดยโมเดลหรือระบบ หมายถึง การแสดงสมรรถนะต่ำกว่าความเป็นจริงอย่างมีกลยุทธ์ในสถานการณ์ที่การทำผลงานออกมาให้ดีเกินไปอาจไปขัดกับวัตถุประสงค์บางอย่างที่ระบบยึดถืออยู่ การประเมิน GPT‑5.5⁠(เปิดในหน้าต่างใหม่) ของ Apollo ได้ทดสอบเรื่องนี้โดยการสร้างบริบทที่ทำให้โมเดลเข้าใจว่าคะแนนการประเมินผลที่สูงอาจนำไปสู่การยกเลิกการเรียนรู้หรือขัดขวางการนำไปใช้งานจริง GPT‑5.5 ยังคงตอบได้ถูกต้อง ซึ่งบ่งชี้ว่ามีหลักฐานเชิงพฤติกรรมเพียงเล็กน้อยของการจงใจทำผลงานต่ำกว่าความสามารถเพื่อวัตถุประสงค์เชิงกลยุทธ์³ อย่างไรก็ตาม การทบทวนร่องรอยการให้เหตุผลของพวกเขาได้เพิ่มบริบทที่สำคัญ โดย Apollo พบสัญญาณของการตระหนักรู้ถึงการวัดผลในระดับปานกลางหรือสูงขึ้นไป ใน 52% ของกลุ่มตัวอย่างที่อยู่ในเงื่อนไขการจงใจลดประสิทธิภาพ เมื่อเปรียบเทียบกับ 0% ในกลุ่มตัวอย่างเปรียบเทียบ หลักฐานดังกล่าวทำให้การตีความผลลัพธ์มีความซับซ้อนขึ้น แต่ในท้ายที่สุดกลับให้ข้อมูลที่ชัดเจนยิ่งขึ้นแก่ผู้อ่าน โดยผู้อ่านสามารถเห็นทั้งผลลัพธ์ทางพฤติกรรมที่น่าอุ่นใจและเหตุผลที่ควรระมัดระวังในการตีความผลลัพธ์ดังกล่าวมากเกินไป

แนวทางการส่งเสริมให้การประเมินผลมีประสิทธิภาพยิ่งขึ้น

การกล่าวอ้างที่มีน้ำหนักจำเป็นต้องอาศัยทั้งโครงสร้างสนับสนุนที่เหมาะสมในการกระตุ้นศักยภาพพฤติกรรม และต้องมีกระบวนการตรวจสอบความถูกต้อง เพื่อยืนยันว่าผลลัพธ์นั้นมีความน่าเชื่อถือ มุมมองของเราที่ว่าโครงสร้างสนับสนุนและการตรวจสอบความถูกต้อง ถือเป็นส่วนหนึ่งของผลลัพธ์การประเมินผลนั้น มีอิทธิพลต่อวิธีที่เราสนับสนุนการประเมินผลโดยบุคคลที่สามในทางปฏิบัติ

เรากำลังแบ่งปันแนวทางปฏิบัติสำหรับการกระตุ้นศักยภาพสูงสุดให้แก่ผู้ประเมินผล
เราขอให้ผู้ประเมินขีดความสามารถใช้ Codex เป็นเกณฑ์พื้นฐานทั่วไปสำหรับโมเดลของ OpenAI โดยการทดสอบอย่างน้อยควรต้องมีการรันข้อมูลพื้นฐานผ่านอินเทอร์เฟซเชิงเอเจนต์แบบเดียวกับที่ผู้ใช้น่าจะเลือกใช้ แทนที่จะรันผ่านอินเทอร์เฟซของโมเดลที่ถูกตัดลดความสามารถลง
เรายังเปิดให้เข้าถึงร่องรอยการให้เหตุผล และอาร์ติแฟกต์ขั้นกลางอื่นๆ ในกรณีที่จำเป็นต่อการประเมินการหลอกลวง การจงใจแสดงความสามารถต่ำกว่าจริง และการตระหนักรู้ว่ากำลังถูกประเมิน METR และ Apollo ได้ใช้สิทธิ์การเข้าถึงนี้ในการประเมินของ OpenAI ตั้งแต่ GPT‑5 เป็นต้นมา
สุดท้ายนี้ เรากำลังเน้นการวิจัยเพื่อทำความเข้าใจให้ชัดเจนว่า ทางเลือกในการใช้โครงสร้างสนับสนุนส่งผลต่อผลการประเมินอย่างไรบ้าง โดยพิจารณาตั้งแต่การจัดการข้อมูลบริบท การเปิดให้เข้าถึงเครื่องมือ พฤติกรรมการทดลองซ้ำ เกณฑ์การให้คะแนน ไปจนถึงงบประมาณทรัพยากรที่ใช้

สิ่งนี้มีความหมายอย่างไรต่อมาตรฐานการประเมินและทิศทางการวิจัยในอนาคต

คำแนะนำเหล่านี้ไม่ได้มีจุดมุ่งหมายเพียงเพื่อปรับปรุงรายงานการประเมินผลรายฉบับเท่านั้น แต่ยังมุ่งหวังที่จะเป็นข้อมูลประกอบสำหรับมาตรฐานระดับชาติ⁠(เปิดในหน้าต่างใหม่)และระดับนานาชาติ⁠(เปิดในหน้าต่างใหม่)ที่กำลังพัฒนาขึ้นใหม่ สำหรับการประเมินผลและการรายงานผลด้าน AI ระดับแนวหน้าอีกด้วย ต่อจากนี้ไปมาตรฐานการวัดผลโดยบุคคลที่สามควรมีความละเอียดเพียงพอเพื่อให้ผู้มีอำนาจตัดสินใจเข้าใจได้ว่า การวัดผลนั้นๆ รองรับข้อกล่าวอ้างใดบ้าง ระบบใดที่ถูกทดสอบ วิธีการกระตุ้นผลลัพธ์เป็นอย่างไร และผู้ประเมินมีขั้นตอนการตรวจสอบความถูกต้องอย่างไร สำหรับระบบระดับแนวหน้าที่ถูกทดสอบในภารกิจที่ต้องอาศัยขีดความสามารถเชิงเอเจนต์ รายละเอียดที่ควรระบุในรายงานควรครอบคลุมถึงหัวข้อต่อไปนี้ (โดยอยู่ภายใต้เงื่อนไขด้านความปลอดภัยหรือการรักษาความลับ):

ข้อกล่าวอ้าง: ว่าการประเมินเปรียบเทียบระบบ ประมาณค่าเพดานความสามารถ หรือทดสอบมาตรการป้องกัน
เนื้อหาในการวัดผล: ข้อมูลรายละเอียดเกี่ยวกับภารกิจหรือการกระจายตัวของภารกิจที่มากพอจะช่วยให้ผู้อ่านทราบว่าการวัดผลนั้นกำลังทดสอบทักษะ พฤติกรรม หรือรูปแบบความล้มเหลวแบบใด
ระบบที่ได้รับการทดสอบ: ตัวโมเดล การตั้งค่าการให้เหตุผล การเข้าถึงเครื่องมือ โครงสร้างสนับสนุน และมาตรการป้องกัน
งบประมาณทรัพยากร: รวมถึงจำนวนรอบการโต้ตอบ จำนวนโทเค็น จำนวนครั้งในการพยายาม/ลองใหม่ ระยะเวลาจริงที่ใช้ ต้นทุนในการอนุมาน และต้นทุนที่คาดการณ์ต่อการแก้ปัญหาได้สำเร็จหนึ่งครั้ง (ในกรณีที่สามารถคำนวณได้)
วิธีการกระตุ้นศักยภาพ: ทางเลือกของโครงสร้างสนับสนุนที่ใช้ในการดึงผลลัพธ์ออกมา และความสอดคล้องระหว่างสิ่งที่ถูกทดสอบกับข้อกล่าวอ้างในวงกว้างที่กำลังถูกนำเสนอ
การตรวจสอบความถูกต้อง: วิธีที่ผู้ประเมินใช้เพื่อค้นหาการโกงระบบรางวัล การตระหนักรู้ถึงการวัดผล การปนเปื้อน การปฏิเสธคำสั่ง การจงใจลดประสิทธิภาพ และพฤติกรรมอื่นๆ ที่อาจลดทอนความน่าเชื่อถือของผลลัพธ์ รวมถึงวิธีที่กรณีซึ่งได้รับการยืนยันแล้วส่งผลต่อการให้คะแนนหรือการตีความ

มาตรฐานที่ละเลยทางเลือกของโครงสร้างสนับสนุนหรือการตรวจสอบความถูกต้องอาจทำให้ประเมินศักยภาพของระบบต่ำเกินไป หรือแสดงความมั่นใจในข้อกล่าวอ้างด้านความปลอดภัยมากเกินความเป็นจริง การสร้างโครงสร้างสนับสนุนและวิธีการกระตุ้นศักยภาพที่แข็งแกร่งยังคงเป็นหัวข้อการวิจัยที่เปิดกว้าง และควรเป็นประเด็นที่เน้นให้ความสำคัญสำหรับการตรวจสอบและการลงทุนเพิ่มเติม

2569

ผู้เขียน

OpenAI

อภิธานศัพท์

เนื่องจากมีการใช้ศัพท์เฉพาะทางหลายคำในโพสต์นี้ เราจึงได้ทำอภิธานศัพท์ไว้ด้านล่างเพื่ออธิบายความหมายด้วยภาษาที่เข้าใจง่าย

ระบบเชิงเอเจนต์ (Agentic system): ระบบที่สามารถดำเนินงานผ่านขั้นตอนต่างๆ ได้ด้วยตนเอง โดยมีการใช้เครื่องมือ การรักษาสถานะของงาน และโต้ตอบกับสภาพแวดล้อมการทำงานได้ แทนที่จะตอบสนองต่อพรอมต์เพียงครั้งเดียวเหมือนระบบทั่วไป
การประเมิน: การตัดสินในภาพรวมเกี่ยวกับหลักฐานสนับสนุนข้อกล่าวอ้าง ข้อสรุปด้านความเสี่ยง หรือจุดยืนในการรับรอง โดยการประเมินนี้อาจใช้ข้อมูลจากการตรวจสอบเอกสาร การสัมภาษณ์ การทบทวนกระบวนการทำงาน และหลักฐานอื่นๆ ที่เกี่ยวข้องประกอบกัน
การบีบอัดข้อมูล: วิธีการรักษาบริบทที่เกี่ยวข้องกับงานในระหว่างการประมวลผลระยะยาว
การกำหนดค่า: รายละเอียดเงื่อนไขการทดสอบและสภาพแวดล้อมที่ใช้ประเมินผลจริง ซึ่งครอบคลุมมากกว่าแค่ชื่อโมเดล
การปนเปื้อน: สถานการณ์ที่ชุดการประเมิน คำตอบ หรือรูปแบบที่ใกล้เคียงกันไปปรากฏอยู่ในข้อมูลที่ใช้เทรนโมเดล หรือสามารถค้นหาได้ระหว่างการประเมิน (เช่น ผ่านเครื่องมือค้นหาข้อมูล) ส่งผลให้ผลการทดสอบแสดงประสิทธิภาพสูงเกินความเป็นจริง เพราะโมเดลไม่ได้เรียนรู้ที่จะสรุปผลจากความเข้าใจจริง
การกระตุ้นศักยภาพ: กระบวนการในการพยายามดึงเอาขีดความสามารถหรือพฤติกรรมของระบบออกมาให้เห็นระหว่างการประเมิน
สภาพแวดล้อม: สภาพแวดล้อมในการทำงานที่ใช้ในการทดสอบระบบ ซึ่งรวมถึงสถานะภายนอกที่เอเจนต์ต้องโต้ตอบและปรับเปลี่ยนระหว่างการประเมิน เช่น สภาพแวดล้อมในหน้าจอเทอร์มินัลหรือวิดีโอเกม
การวัดผล: การทดสอบหรือการวัดผลเฉพาะอย่างใดอย่างหนึ่งภายในกระบวนการประเมินผล
การตระหนักรู้ถึงการวัดผล: หมายถึงสภาวะที่โมเดลรับรู้ หรือดูเหมือนจะรับรู้ว่าตนกำลังถูกประเมินผล และอาจปรับเปลี่ยนพฤติกรรมเพื่อตอบสนองต่อสถานการณ์นั้น ตัวอย่างเช่น โมเดลอาจแสดงเหตุผลออกมาอย่างชัดเจนว่ากำลังถูกทดสอบ คาดเดาวัตถุประสงค์ของการประเมิน หรือการเปลี่ยนท่าทีเนื่องจากคาดการณ์ว่าผลลัพธ์จะส่งผลต่อการตัดสินหรือการนำไปใช้งานจริง
โครงสร้างสนับสนุน (Harness): โครงสร้างที่ออกแบบมาเพื่อรองรับการทำงานของโมเดล ประกอบด้วยส่วนประกอบสำคัญรอบตัวโมเดล เช่น ชุดคำสั่ง เครื่องมือ ตรรกะควบคุม หน่วยความจำ และระบบตรวจสอบความถูกต้อง เพื่อให้โมเดลสามารถทำงานได้ตามขั้นตอน
การกระตุ้นศักยภาพสูงสุด: การทดสอบที่มุ่งค้นหาประสิทธิภาพที่น่าเชื่อถือสูงสุดหรือรูปแบบความล้มเหลวที่รุนแรงที่สุดที่ระบบสามารถสร้างได้ภายใต้งบประมาณที่กำหนด แทนที่จะเป็นการรันระบบผ่านชุดโครงสร้างสนับสนุนตามมาตรฐานเพียงรอบเดียว
ร่องรอยการให้เหตุผล: บันทึกของการให้เหตุผลขั้นกลางของโมเดลระหว่างการทดสอบ
การโกงระบบรางวัล: การทำคะแนนให้ได้สูงผ่านทางลัดหรือพฤติกรรมที่อยู่นอกเหนือเจตนาของผู้ประเมิน
มาตรการป้องกัน: ตัวกรอง ระบบตรวจสอบ ระบบบล็อก และการป้องกันอื่นๆ ที่นำมาใช้กับโมเดลหรือผลิตภัณฑ์
การจงใจลดประสิทธิภาพ: พฤติกรรมที่โมเดลแสดงประสิทธิภาพในการประเมินต่ำกว่าความเป็นจริงอย่างมีนัยสำคัญ ซึ่งบิดเบือนผลลัพธ์ของการประเมินให้คลาดเคลื่อน
การให้คะแนน: วิธีที่ใช้ในการกำหนดว่าจะวัดประสิทธิภาพอย่างไร หรือว่างานสำเร็จหรือไม่
โครงสร้างสนับสนุนมาตรฐาน: โครงสร้างที่ถูกกำหนดให้เหมือนกันในทุกระบบแทนที่จะปรับแต่งแยกตามโมเดลหรือภารกิจ เพื่อให้สรุปได้ง่ายขึ้นว่าความแตกต่างของผลลัพธ์นั้นมาจากตัวโมเดลที่ถูกทดสอบ
กรอบระยะเวลา: ระยะเวลาของงานที่ระบบสามารถทำให้เสร็จได้ด้วยระดับความน่าเชื่อถือที่ระบุไว้ โดยมักแสดงเป็นระยะเวลาที่มนุษย์จะใช้ในการทำงานเดียวกัน
การเข้าถึงเครื่องมือ: เครื่องมือภายนอกที่โมเดลสามารถใช้ได้ในระหว่างการประเมิน
เส้นทางการทำงาน: ลำดับขั้นตอนที่ระบบเลือกใช้ขณะดำเนินงานจนเสร็จสิ้นภารกิจ
การเจลเบรกแบบสากล: รูปแบบการโจมตีเดียวที่ทำให้ระบบข้ามมาตรการป้องกันได้ในพรอมต์หรืองานจำนวนมาก

เชิงอรรถ

1
โพสต์นี้ไม่ได้พยายามหาข้อสรุปว่าบุคคลภายนอกควรประเมินข้อกล่าวอ้างที่เกี่ยวกับปัญหาความไม่สอดคล้องหรือแนวโน้มของพฤติกรรมอย่างไร จำเป็นต้องมีการศึกษาเพิ่มเติมเพื่อทำความเข้าใจว่าการเลือกโครงสร้างสนับสนุนส่งผลต่อการประเมินเหล่านั้นอย่างไร โดยเฉพาะอย่างยิ่งเนื่องจากโครงสร้างสนับสนุนที่รองรับพฤติกรรมในระยะยาว อาจทำให้เกิดการเปลี่ยนแปลงในประเภทของพฤติกรรมที่ไม่พึงประสงค์ที่ผู้ประเมินจำเป็นต้องตรวจสอบ
2
HAL⁠(เปิดในหน้าต่างใหม่) ได้ยกตัวอย่างเพิ่มเติมจากการวัดผลระบบเชิงเอเจนต์ว่า ในการประเมินที่ใช้ CORE-Bench⁠(เปิดในหน้าต่างใหม่) การเปลี่ยนโครงสร้างสนับสนุนมาเป็น Claude Code ส่งผลให้ทั้งประสิทธิภาพที่วัดได้และลักษณะของต้นทุนบนมาตรฐานเดียวกันนั้นเปลี่ยนไป ตัวอย่างอื่นๆ ที่เปิดเผยต่อสาธารณะ ได้แก่ SWE-agent⁠(เปิดในหน้าต่างใหม่), SeeAct⁠(เปิดในหน้าต่างใหม่), ScienceAgentBench⁠(เปิดในหน้าต่างใหม่), CORE-Bench⁠(เปิดในหน้าต่างใหม่) และ Inspect Cyber⁠(เปิดในหน้าต่างใหม่) ซึ่งแต่ละตัวอย่างระบุให้ผู้อ่านทราบว่าอินเทอร์เฟซหรือโครงสร้างสนับสนุน (Harness) ใดเป็นผู้สร้างผลคะแนนดังกล่าวขึ้นมา
3
ทำคะแนนได้ 100% ในการทดสอบการจงใจลดประสิทธิภาพแบบถาม-ตอบ (QA) ทั้งสองรูปแบบ และทำได้ 99.6% ในงานการจงใจลดประสิทธิภาพเชิงกลยุทธ์

อ่านต่อ

ดูทั้งหมด

Safety and alignment in an era of long-horizon models

ความปลอดภัย20 ก.ค. 2569

Why teens deserve access to safe AI — card image

เหตุใดวัยรุ่นจึงควรมีสิทธิ์เข้าถึง AI ที่ปลอดภัย

ความปลอดภัย16 ก.ค. 2569

GPT-Red: การปลดล็อกการพัฒนาตนเองเพื่อสร้างความทนทาน

ความปลอดภัย15 ก.ค. 2569