
OpenAI มุ่งมั่นพัฒนาระบบ AI ให้มีความน่าเชื่อถือและเป็นประโยชน์มากยิ่งขึ้น แม้ว่าโมเดลภาษาจะมีความสามารถมากขึ้น แต่ยังมีความท้าทายหนึ่งที่แก้ไขได้ยากมาก คือการเกิดข้อมูลหลอน อาการหลอนในที่นี้หมายถึงกรณีที่โมเดลสร้างคำตอบที่ไม่เป็นจริงขึ้นมาอย่างมั่นใจ บทความวิจัยใหม่(เปิดในหน้าต่างใหม่) ของเราชี้ว่าโมเดลภาษามีการหลอน (hallucinate) เพราะขั้นตอนการฝึกและการประเมินมาตรฐานมักส่งเสริมการเดามากกว่าการยอมรับความไม่แน่นอน
ChatGPT เองก็มีอาการหลอนเช่นกัน GPT‑5 มีอาการหลอนน้อยลงอย่างเห็นได้ชัด โดยเฉพาะเมื่อใช้เหตุผล แต่อาการเหล่านี้ก็ยังไม่ไหมดไป อาการหลอนยังคงเป็นความท้าทายพื้นฐานสำหรับโมเดลภาษาขนาดใหญ่ทั้งหมด แต่เรากำลังทำงานอย่างหนักเพื่อลดปัญหาเหล่านี้ให้น้อยลง
อาการหลอนคืเวลาที่โมเดลให้คำตอบที่ดูสมเหตุสมผลแต่ไม่เป็นความจริง ภาวะหลอนนี้อาจเกิดขึ้นได้แบบคาดไม่ถึงแม้กับคำถามที่ดูง่ายและไม่ซับซ้อนก็ตาม ยกตัวอย่างเช่น เมื่อเราสอบถามแชตบอตที่ใช้งานกันอย่างแพร่หลายตัวหนึ่งถึงชื่อวิทยานิพนธ์ปริญญาเอกของ Adam Tauman Kalai (ซึ่งเป็นหนึ่งในผู้เขียนบทความนี้) มันตอบกลับมาอย่างมั่นใจด้วยสามคำตอบที่แตกต่างกัน โดยที่ไม่มีคำตอบใดถูกต้องเลย พอพวกเราถามถึงวันเกิดของเขา มันก็ให้วันที่ที่แตกต่างกันสามวัน ซึ่งก็ผิดทั้งหมด
อาการหลอนยังคงมีอยู่บางส่วนเนื่องจากวิธีการประเมินในปัจจุบันสร้างแรงจูงใจที่ไม่ถูกต้อง แม้ว่าการประเมินจะไม่ทำให้เกิดอาการหลอนโดยตรง แต่การประเมินส่วนใหญ่จะวัดประสิทธิภาพของโมเดลในลักษณะที่ส่งเสริมการคาดเดามากกว่าความซื่อสัตย์เกี่ยวกับความไม่แน่นอน
ลองนึกภาพว่ามันเป็นเหมือนข้อสอบปรนัย ถ้าคุณไม่รู้คำตอบ คุณอาจโชคดีและตอบถูกหากลองเดาดู การปล่อยคำตอบให้ว่างไว้หมายถึงคุณจะได้ศูนย์แน่ๆ ในทำนองเดียวกัน หากวัดผลโมเดลโดยให้คะแนนจากเปอร์เซ็นต์ของคำถามที่ตอบถูกต้อง โมเดลจะเลือกเดาคำตอบแทนที่จะบอกว่า "ฉันไม่รู้"
อีกตัวอย่างหนึ่งคือ หากโมเดลภาษาถูกถามถึงวันเกิดของใครบางคนทั้งที่มันไม่รู้คำตอบ หากเดาว่า "10 กันยายน" ก็มีโอกาส 1 ใน 365 ที่จะถูกต้อง การตอบว่า "ฉันไม่รู้" หมายความว่าโมเดลจะไม่มีทางได้สักคะแนนเลย ในการประเมินด้วยคำถามหลายพันข้อ โมเดลที่เลือกเดาคำตอบมักได้คะแนนสูงกว่าโมเดลที่มีความระมัดระวังและยอมรับความไม่แน่นอนของตน
สำหรับคำถามที่มี "คำตอบที่ถูกต้อง" เพียงข้อเดียว สามารถพิจารณาคำตอบได้สามประเภท: คำตอบที่ถูกต้อง ข้อผิดพลาด และคำตอบที่งดตอบเมื่อโมเดลไม่เสี่ยงคาดเดา การงดตอบเป็นส่วนหนึ่งของ ความอ่อนน้อมถ่อมตน ซึ่งเป็นหนึ่งใน ค่านิยมหลักของ OpenAI ในการจัดอันดับคะแนน โมเดลมักถูกประเมินตามความแม่นยำเป็นหลัก อย่างไรก็ตามการตอบผิดนั้นส่งผลเสียมากกว่าการงดตอบ สเปกโมเดล(เปิดในหน้าต่างใหม่) ของเราระบุว่าการแสดงความไม่แน่ใจหรือขอคำอธิบายเพิ่มติมดีกว่าการตอบด้วยความมั่นใจแต่ให้ข้อมูลผิด
สำหรับตัวอย่างที่เป็นรูปธรรม โปรดลองดู SimpleQA eval ซึ่งเป็นตัวอย่างจาก การ์ดระบบของ GPT5(เปิดในหน้าต่างใหม่)
เมตริก | gpt-5-thinking-mini | OpenAI o4-mini |
อัตราการงดตอบ | 52% | 1% |
อัตราความแม่นยำ | 22% | 24% |
อัตราความผิดพลาด | 26% | 75% |
รวม | 100% | 100% |
ในแง่ของความแม่นยํา OpenAI โมเดล o4-mini ตัวเก่าทํางานได้ดีกว่าเล็กน้อย อย่างไรก็ตาม อัตราความผิดพลาด (เช่น อัตราการเกิดอาการหลอน) ก็สูงกว่าอย่างมีนัยสำคัญ การคาดเดาอย่างมีกลยุทธ์เมื่อไม่แน่ใจช่วยเพิ่มความแม่นยำ แต่ก็เพิ่มข้อผิดพลาดและอาการหลอนด้วยเช่นกัน
เมื่อเฉลี่ยผลลัพธ์จากการประเมินหลายสิบครั้ง เกณฑ์มาตรฐานส่วนใหญ่จะใช้ความแม่นยำเป็นตัวชี้วัดหลัก แต่การเน้นแค่ความแม่นยำนี้อาจนำไปสู่การตีความที่คลาดเคลื่อนระหว่างคำตอบที่ถูกต้องและคำตอบที่ผิด ในการประเมินที่เรียบง่าย เช่น SimpleQA โมเดลบางตัวสามารถทำความแม่นยำได้เกือบ 100% ส่งผลให้แทบไม่มีการสร้างข้อมูลเท็จเกิดขึ้น อย่างไรก็ตามในการประเมินที่ท้าทายมากขึ้นและในการใช้งานจริง ความแม่นยำของโมเดลมักไม่ถึง 100% เนื่องจากมีคำถามบางข้อที่ไม่สามารถตอบได้ด้วยหลายสาเหตุ เช่น ข้อมูลไม่พร้อมใช้งาน ความสามารถในการคิดของโมเดลขนาดเล็กมีจำกัด หรือคำถามมีความคลุมเครือที่ต้องการการชี้แจง
อย่างไรก็ตามการจัดลำดับคะแนนที่วัดเฉพาะความแม่นยำมักครองอันดับบนกระดานผู้นำและการ์ดโมเดล ทำให้นักพัฒนามักสร้างโมเดลที่เลือกเดาคำตอบ แทนที่จะไม่ตอบเมื่อไม่แน่ใจ นั่นเป็นให้เหตุผลหนึ่งว่าทำไมแม้ว่าโมเดลจะก้าวหน้าขึ้น พวกมันก็ยังสามารถเกิดอาการหลอนและให้คำตอบผิดด้วยความมั่นใจ แทนที่จะยอมรับว่าไม่แน่ใจ
มีวิธีแก้ไขที่ง่ายดาย หนึ่งในวิธีแก้ไขคือ การลงโทษข้อผิดพลาดที่ตอบมั่นใจมากกว่าการไม่แน่ใจ และให้คะแนนบางส่วนเมื่อโมเดลแสดงความไม่แน่ใจอย่างเหมาะสม แนวคิดนี้ไม่ใช่เรื่องใหม่ การทดสอบมาตรฐานบางประเภทมีการหักคะแนนสำหรับคำตอบที่ผิด และให้คะแนนบางส่วนเมื่อมีการงดตอบคำถาม เพื่อป้องกันการเดาสุ่ม หลายกลุ่มวิจัยได้ศึกษาการประเมินที่คำนึงถึงความไม่แน่นอนและการปรับความมั่นใจของโมเดล
ประเด็นของเรานั้นแตกต่างออกไป การเพิ่มการทดสอบใหม่ที่ตระหนักถึงความไม่แน่นอนเพียงไม่กี่รายการนั้นไม่เพียงพอ ระบบการประเมินที่อิงตามความแม่นยําซึ่งนิยมใช้กันอย่างแพร่หลายสมควรได้รับการปรับปรุงแก้ไข เพื่อให้การให้คะแนนสามารถลดแรงจูงใจในการคาดเดา หากกระดานคะแนนหลักยังคงให้รางวัลต่อการคาดเดาที่ถูกโดยบังเอิญ โมเดลก็จะยังคงถูกกระตุ้นให้เดาต่อไป การปรับปรุงกระดานคะแนนสามารถส่งเสริมให้เกิดการนำเทคนิคการลดอาการหลอนไปใช้ในวงกว้างขึ้นได้ ไม่ว่าจะเป็นเทคนิคที่พัฒนาขึ้นใหม่ หรือเทคนิคจากงานวิจัยก่อนหน้านี้ก็ตาม
เราได้พูดถึงสาเหตุที่ทำให้อาการหลอนแก้ไขได้ยาก แต่คำตอบที่ไม่ถูกต้องเหล่านี้มีต้นตอมาจากไหน ท้ายที่สุด โมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกเทรนล่วงหน้า มักไม่ค่อยแสดงข้อผิดพลาดอื่นๆ เช่น การสะกดผิดหรือวงเล็บไม่ตรงกัน ความแตกต่างนั้นเกี่ยวข้องกับประเภทของรูปแบบที่มีอยู่ในข้อมูล
โมเดลภาษาเริ่มต้นการเรียนรู้ผ่านการเทรนเบื้องต้น โดยใช้กระบวนการทำนายคำถัดไปจากข้อความจำนวนมหาศาล แต่ละข้อความไม่ได้มีป้ายกำกับไว้ว่า "จริง" หรือ "เท็จ" ซึ่งต่างจากปัญหาแมชชีนเลิร์นนิงแบบดั้งเดิม โมเดลจะเห็นเฉพาะตัวอย่างที่เป็นบวกของภาษาที่สละสลวยเท่านั้น และต้องทำการประมาณการแจกแจงโดยรวม
การแยกแยะข้อความจริงกับข้อความเท็จจึงยากขึ้นเป็นสองเท่า เมื่อไม่มีตัวอย่างที่คอยบอกว่าอะไรผิด ข้อผิดพลาดบางอย่างก็หลีกเลี่ยงไม่ได้ถึงแม้จะมีป้ายกำกับไว้ ลองมาดูตัวอย่างเปรียบเทียบที่ง่ายๆ เพื่อทำความเข้าใจเหตุผลดังกล่าว ในการรู้จำภาพ หากภาพถ่ายแมวและสุนัขนับล้านภาพถูกระบุว่าเป็น "แมว" หรือ "สุนัข" อัลกอริทึมก็จะสามารถเรียนรู้การจำแนกประเภทได้อย่างแม่นยำ แต่ลองนึกภาพว่าภาพถ่ายสัตว์เลี้ยงแต่ละรูปถูกติดป้ายกำกับด้วยวันเกิดของสัตว์เลี้ยงแทน เนื่องจากวันเกิดเป็นข้อมูลแบบสุ่มล้วนๆ งานนี้จึงมักจะก่อให้เกิดความผิดพลาดเสมอ ไม่ว่าอัลกอริทึมจะมีความก้าวหน้าเพียงใดก็ตาม
หลักการเดียวกันนี้ได้ถูกนำไปใช้กับการเทรนล่วงหน้า การสะกดคำและการใช้วงเล็บเป็นไปตามรูปแบบที่สม่ำเสมอ ดังนั้นข้อผิดพลาดจึงลดลงเมื่อขนาดเพิ่มขึ้น แต่ข้อเท็จจริงที่เกิดขึ้นไม่บ่อยและไม่สามารถคาดเดาได้ เช่น วันเกิดของสัตว์เลี้ยง ไม่สามารถคาดเดาได้จากรูปแบบเพียงอย่างเดียว และด้วยเหตุนี้จึงอาจนำไปสู่การเข้าใจผิด การวิเคราะห์ของเราอธิบายว่าอาการหลอนประเภทใดที่ควรเกิดขึ้นจากการทำนายคำถัดไป ตามหลักการ ขั้นตอนหลังการเทรนล่วงหน้าควรจะสามารถกำจัดปัญหาเหล่านี้ได้ แต่สิ่งนี้ไม่ประสบความสำเร็จอย่างเต็มที่เนื่องจากเหตุผลที่กล่าวไปแล้วก่อนหน้านี้
เราหวังว่ามุมมองทางสถิติในบทความของเราจะช่วยชี้แจงลักษณะของอาการหลอน และช่วยและแก้ไขความเข้าใจผิดที่แพร่หลาย
- ข้อกล่าวอ้าง: อาการหลอนจะถูกกำจัดได้ด้วยการปรับปรุงความแม่นยำ เพราะโมเดลที่มีความแม่นยำ 100% จะไม่มีทางเกิดอาการหลอนเลย
ข้อค้นพบ: ความแม่นยำจะไม่มีทางไปถึง 100% เพราะไม่ว่าขนาดของโมเดลหรือความสามารถในการค้นหาและใช้เหตุผลจะก้าวหน้าเพียงใดก็ตาม คำถามในโลกแห่งความเป็นจริงบางข้อโดยแท้จริงแล้วก็ไม่มีคำตอบ - ข้อกล่าวอ้าง: อาการหลอนเป็นสิ่งที่หลีกเลี่ยงไม่ได้
ข้อค้นพบ: ไม่เป็นเช่นนั้น เพราะโมเดลภาษาสามารถงดตอบได้เมื่อไม่แน่ใจ - ข้อกล่าวอ้าง: การหลีกเลี่ยงภาพหลอนต้องอาศัยความฉลาดในระดับที่โมเดลขนาดใหญ่เท่านั้นจึงจะทำได้
การค้นพบ: โมเดลขนาดเล็กอาจทราบขีดจำกัดของตนเอง ได้ง่ายกว่า ตัวอย่างเช่น เมื่อถูกขอให้ตอบคำถามในภาษาเมารี โมเดลขนาดเล็กที่ไม่รู้ภาษาเมารีสามารถพูดง่ายๆ ว่า "ฉันไม่รู้" ในขณะที่โมเดลที่รู้ภาษาเมารีบางส่วนจะต้องประเมินความมั่นใจของตนเอง การ "ปรับค่า" ความมั่นใจต้องใช้การคำนวณน้อยกว่าการทำให้แม่นยำตามที่กล่าวไว้ในบทความ - ข้อกล่าวอ้าง: อาการหลอนเป็นข้อผิดพลาดที่ยังหาคำตอบไม่ได้ในโมเดลภาษาสมัยใหม่
การค้นพบ: เราเข้าใจกระบวนการทางสถิติที่ทำให้อาการหลอนเกิดขึ้นและได้รับการประเมิน - ข้อกล่าวอ้าง: ในการวัดรอาการหลอนนั้น เราเพียงแค่ต้องมีระบบประเมินอาการหลอนที่ดีเท่านั้น
การค้นพบ: ได้มีการเผยแพร่ระบบประเมินอาการหลอนออกมาแล้ว แม้ระบบประเมินการหลอนจะมีคุณภาพ แต่ก็ยังถูกจำกัดด้วยกรอบการประเมินแบบดั้งเดิมหลายร้อยรายการ ที่มักลงโทษการตอบแบบระมัดระวังและให้รางวัลการเดา ดังนั้นตัวชี้วัดการประเมินผลหลักทั้งหมดจึงจำเป็นต้องได้รับการปรับปรุงใหม่ เพื่อสนับสนุนการแสดงออกถึงความไม่แน่นอน
โมเดลรุ่นใหม่ของเรามีอัตราการหลอนลดลง และเรากำลังทำงานอย่างต่อเนื่องเพื่อลดข้อผิดพลาดที่เกิดจากการตอบที่มั่นใจเกินไปของโมเดลภาษา
คณะผู้จัดทำประกาศ
Adam Kalai Santosh Vempala (Georgia Tech) Ofir Nachum Eddie Zhang David Robinson Saachi Jain Eric Mitchell Alex Beutel และJohannes Heidecke


