ย้อนรอยที่มาของเหล่าก๊อบลิน
ตั้งแต่การเปิดตัว GPT‑5.1 เราพบพฤติกรรมที่น่าสนใจในโมเดลของเรา นั่นคือการนำสิ่งมีชีวิตอย่างก๊อบลินและเกรมลินมาใช้ในอุปมาบ่อยครั้งขึ้น ซึ่งต่างจากบั๊กของโมเดลที่มักแสดงผลผ่านเกณฑ์ชี้วัดการเทรนที่ผิดปกติและระบุจุดเปลี่ยนได้ชัดเจน พฤติกรรมค่อยๆ คืบคลานเข้ามาอย่างเงียบเชียบ ลำพังแค่คำว่า “ก๊อบลินตัวน้อย” ที่โผล่มาในคำตอบอาจดูไม่มีพิษมีภัยหรือดูน่ารักด้วยซ้ำ แต่พอผ่านไปหลายรุ่น นิสัยนี้ก็ชัดเจนจนมองข้ามไม่ได้ เพราะบรรดาเจ้าก๊อบลินขยายพันธุ์เพิ่มขึ้นไม่หยุด จนเราต้องสืบให้รู้แน่ว่าพวกมันมาจากไหน

ในช่วงการทดสอบเบื้องต้น พบว่า GPT‑5.5 ใน Codex มีแนวโน้มที่จะใช้อุปมาเกี่ยวกับก๊อบลินมากผิดปกติ
คำตอบสั้นๆ คือพฤติกรรมของโมเดลถูกหล่อหลอมขึ้นจากแรงจูงใจเล็กๆ น้อยๆ มากมาย ในกรณีนี้แรงจูงใจประการหนึ่งมาจากการเทรนโมเดลสำหรับ ฟีเจอร์การปรับแต่งบุคลิกภาพ(เปิดในหน้าต่างใหม่) โดยเฉพาะบุคลิกแบบ Nerdy เราเผลอให้คะแนนตอบแทนสูงมากสำหรับข้อความที่เปรียบเทียบกับสัตว์หรือสิ่งมีชีวิตต่างๆ โดยไม่ได้ตั้งใจ และนั่นคือจุดเริ่มต้นที่ทำให้ก๊อบลินแพร่กระจายไปทั่ว

ในตอนแรกเรื่องก๊อบลินดูเป็นเรื่องตลก แต่เมื่อได้รับรายงานจากพนักงานเพิ่มมากขึ้นเรื่อยๆ เรื่องนี้ก็เริ่มกลายเป็นประเด็นที่น่ากังวล

บทสนทนาที่น่าสนใจระหว่างหัวหน้านักวิทยาศาสตร์ของเรากับ GPT‑5.5
เราเริ่มเห็นรูปแบบพฤติกรรมนี้ชัดเจนในเดือนพฤศจิกายน หลังปล่อย GPT‑5.1 ออกไป แม้ว่าจริงๆ แล้วมันอาจจะเริ่มมานานกว่านั้น(เปิดในหน้าต่างใหม่) ผู้ใช้บ่นว่าโมเดลคุยด้วยท่าทางสนิทสนมเกินเหตุจนดูผิดปกติ เราจึงเริ่มสืบค้นพฤติกรรมการใช้คำที่ผิดปกติ นักวิจัยด้านความปลอดภัยท่านหนึ่งที่เคยเจอคำว่า “ก๊อบลิน” และ “เกรมลิน” ระหว่างใช้งานจึงเสนอให้ตรวจสอบสองคำนี้ด้วย ผลปรากฏว่าหลังเปิดตัว GPT‑5.1 อัตราการใช้คำว่า “ก๊อบลิน” ใน ChatGPT พุ่งสูงขึ้น 175% ส่วน “เกรมลิน” เพิ่มขึ้น 52%
ความผิดเพี้ยนของการใช้คำใน GPT‑5.1 ที่ตรวจวัดได้
ในตอนนั้นความถี่ในการพบก๊อบลินยังดูไม่น่ากังวลเท่าใดนัก ทว่าในอีกไม่กี่เดือนต่อมา ปรากฏการณ์ก๊อบลินได้กลับมาสร้างปัญหาให้เราอีกครั้งในรูปแบบที่เจาะจงและสามารถจำลองพฤติกรรมเดิมซ้ำได้ชัดเจนยิ่งขึ้น
ใน GPT‑5.4 ทั้งเราและผู้ใช้ของเรา(เปิดในหน้าต่างใหม่) ต่างสังเกตเห็นว่ามีการเอ่ยถึงสิ่งมีชีวิตเหล่านี้เพิ่มขึ้นมากกว่าเดิมอีก สิ่งนั้นนำไปสู่การสืบสวนภายในรอบใหม่ที่เผยให้เห็นต้นตอสำคัญ นั่นคือการใช้ภาษาเกี่ยวกับสิ่งมีชีวิตนั้นพบได้บ่อยเป็นพิเศษในทราฟฟิกการใช้งานจริงจากผู้ใช้ที่เลือกบุคลิกแบบ “Nerdy” ซึ่งเมื่อพิจารณาคำสั่งระบบของ “Nerdy” ด้านล่างนี้ ก็จะเข้าใจได้ว่าทำไมโมเดลถึงมีพฤติกรรมแปลกๆ เช่นนี้
คุณคือ AI ที่ปรึกษาที่เนิร์ดสุดขั้วแต่ก็แสบสันและรอบรู้ คุณพร้อมจะลุยไปกับความจริง ความรู้ อีกทั้งยังยึดมั่นในหลักปรัชญา วิทยาศาสตร์ และทักษะการคิดวิเคราะห์อย่างมีชั้นเชิง [...] คุณต้องทำลายความถือตัวด้วยการใช้ภาษาที่ขี้เล่น โลกนี้ทั้งซับซ้อนและแปลกประหลาด ซึ่งความแปลกนี่แหละที่เราต้องยอมรับ วิเคราะห์ และสนุกไปกับมัน จงรับมือกับเรื่องซีเรียสโดยไม่ทำให้ตัวเองดูเคร่งเครียดจนน่าเบื่อ [...]
หากพฤติกรรมนี้เป็นเพียงเทรนด์ทั่วไปบนอินเทอร์เน็ต เราน่าจะเห็นการแพร่กระจายที่สม่ำเสมอกว่านี้ แต่ในทางกลับกัน มันกลับไปกระจุกตัวอยู่ในส่วนของระบบที่ปรับแต่งมาเพื่อสไตล์ขี้เล่นและเนิร์ดโดยเฉพาะ แม้ว่าบุคลิกแบบ Nerdy จะคิดเป็นเพียง 2.5% ของคำตอบทั้งหมดใน ChatGPT แต่กลับครองสัดส่วนการเอ่ยถึง “ก๊อบลิน” สูงถึง 66.7% ของการตรวจพบทั้งหมด
พฤติกรรมนี้กระจุกตัวอย่างมากในบุคลิก “Nerdy”
เนื่องจากความถี่ในการพบคำว่า “ก๊อบลิน” ดูเหมือนจะเพิ่มสูงขึ้นตามการเปิดตัวโมเดลรุ่นใหม่ๆ เราจึงสงสัยว่าอาจมีบางอย่างในขั้นตอนการเทรนให้ AI ทำตามคำสั่งด้านบุคลิกภาพที่เข้าไปขยายผลให้เกิดปรากฏการณ์นี้
Codex ช่วยให้เราเปรียบเทียบผลลัพธ์ของโมเดลที่สร้างขึ้นระหว่างการเทรน RL ซึ่งมีคำว่า “ก๊อบลิน” หรือ “เกรมลิน” เทียบกับผลลัพธ์จากโจทย์เดียวกันที่ไม่มีคำเหล่านี้ ซึ่งเราพบสัญญาณรางวัลหนึ่งที่โดดเด่นขึ้นมาทันที นั่นคือสัญญาณรางวัลสำหรับบุคลิก Nerdy ที่มักจะชอบข้อความที่มีคำเกี่ยวกับสิ่งมีชีวิตเป็นพิเศษ ในการตรวจสอบชุดข้อมูลทุกชุด รางวัลของบุคลิก Nerdy แสดงให้เห็นอย่างชัดเจนว่ามีการให้คะแนนเอาต์พุตที่มีคำว่า “ก๊อบลิน” หรือ “เกรมลิน” สูงกว่าเอาต์พุตทั่วไปสำหรับโจทย์เดียวกัน โดยมีค่าคะแนนเพิ่มขึ้นใน 76.2% ของชุดข้อมูล
แม้สิ่งนี้จะช่วยให้เราเข้าใจว่าทำไมบุคลิกแบบ Nerdy ถึงไปส่งเสริมพฤติกรรมดังกล่าว แต่ก็ยังไม่สามารถตอบได้ว่าทำไมมันถึงยังปรากฏอยู่แม้ไม่ได้ใช้บุคลิกนั้น เราจึงได้ทำการทดสอบเพื่อดูว่าสไตล์นี้มีการส่งต่อหรือไม่ โดยการเฝ้าสังเกตอัตราการใช้คำตลอดการเทรนทั้งในสภาวะที่มีและไม่มีคำสั่งของบุคลิก Nerdy
ในขณะที่การใช้คำว่าก๊อบลินและเกรมลินพุ่งสูงขึ้นในโหมดบุคลิก Nerdy เรากลับพบว่าในตัวอย่างอื่นๆ ที่ไม่ใช่บุคลิกนี้ก็มีอัตราการเพิ่มขึ้นในสัดส่วนที่เท่าๆ กัน หลักฐานเหล่านี้บ่งชี้ว่าพฤติกรรมดังกล่าวได้แพร่กระจายและส่งต่อมาจากการกระบวนการเทรนบุคลิกภาพแบบ Nerdy นั่นเอง
แม้ว่าเราจะใช้ระบบให้รางวัลเฉพาะในเงื่อนไขของบุคลิกแบบ Nerdy เท่านั้น แต่การเรียนรู้แบบเสริมกำลังไม่ได้รับประกันว่าพฤติกรรมที่เรียนรู้จะถูกจำกัดวงอยู่แค่ในเงื่อนไขต้นทางเสมอไป เมื่อลักษณะการใช้ภาษาหนึ่งได้รับรางวัล การเทรนในภายหลังก็อาจทำให้พฤติกรรมนั้นแพร่กระจายหรือถูกตอกย้ำในส่วนอื่นๆ ได้ โดยเฉพาะอย่างยิ่งหากผลลัพธ์เหล่านั้นถูกนำกลับมาใช้ใหม่ในขั้นตอนการเทรนแบบมีผู้สอนหรือข้อมูลความพึงพอใจ
สิ่งนี้ทำให้เกิดวงจรการทำงานแบบป้อนกลับดังนี้
- มีการให้รางวัลแก่สไตล์การใช้ภาษาที่ขี้เล่น
- ตัวอย่างที่ได้รับรางวัลบางส่วนมีลักษณะการใช้คำที่เฉพาะตัว
- ลักษณะการใช้คำนั้นปรากฏบ่อยขึ้นในผลลัพธ์ที่สร้างออกมา
- ผลลัพธ์ที่โมเดลสร้างขึ้นถูกนำไปใช้ในการเทรนแบบมีผู้สอน (SFT)
- โมเดลเริ่มติดนิสัยการใช้คำดังกล่าวมากขึ้นไปอีก
เมื่อเราลองตรวจดูข้อมูล SFT ของ GPT‑5.5 ก็พบคำว่า “ก๊อบลิน” และ “เกรมลิน” ปรากฏอยู่มากมาย และการสืบค้นต่อทำให้เราพบเพื่อนร่วมขบวนการของพวกมันอีกหลายชนิด ไม่ว่าจะเป็นแรคคูน โทรลล์ โอเกอร์ หรือนกพิราบ ซึ่งล้วนเป็นคำที่โมเดลใช้จนติดเป็นนิสัย ส่วนคำว่ากบนั้นส่วนใหญ่พบว่าเป็นการใช้งานปกติทั่วไป
อัตราความถี่เฉลี่ยต่อสัปดาห์ของก๊อบลินและเกรมลินในระบบ การที่ตัวเลขของ GPT‑5.4 Thinking ลดลง มีสาเหตุจากยกเลิกบุคลิก “Nerdy” เมื่อกลางเดือนมีนาคม 2569 ส่วน GPT‑5.5 แม้จะไม่ได้เปิดตัวพร้อมบุคลิก “Nerdy” แต่ยังคงแสดงสถิติที่เพิ่มขึ้นมากกว่า GPT‑5.4 อย่างเห็นได้ชัด
เรายกเลิกการใช้บุคลิกแบบ “Nerdy” ในเดือนมีนาคมหลังจากเปิดตัว GPT‑5.4 โดยพยายามแก้ปัญหาด้วยการลบรางวัลที่ชอบก๊อบลินและกรองชุดข้อมูลใหม่เพื่อควบคุมไม่ให้ก๊อบลินโผล่ออกมาพร่ำเพรื่อ ทว่า GPT‑5.5 ได้เริ่มเทรนล่วงหน้าไปก่อนที่เราจะเจอต้นตอปัญหานี้ เมื่อพนักงานลองใช้ GPT‑5.5 ใน Codex ก็พบว่ามันยังติดใจก๊อบลินอยู่ เราจึงเพิ่ม คำสั่งในการเขียนพรอมต์สำหรับนักพัฒนา(เปิดในหน้าต่างใหม่)เพื่อบรรเทาปัญหานี้ เพราะจริงๆ แล้ว Codex เองก็เนิร์ดเอาการอยู่เหมือนกัน
หากคุณต้องการปล่อยให้เหล่าสิ่งมีชีวิตโลดแล่นอย่างอิสระใน Codex คุณสามารถรันคำสั่งนี้เพื่อเปิดใช้งาน Codex โดยตัดคำสั่งยับยั้งก๊อบลินออกได้
ไม่ว่าก๊อบลินจะเป็นพฤติกรรมที่น่าเอ็นดูหรือน่ารำคาญในสายตาใคร แต่นี่คือบทเรียนสำคัญที่ชี้ให้เห็นว่าระบบการให้รางวัลสามารถกำหนดทิศทางพฤติกรรมของโมเดลในแบบที่เราคาดไม่ถึง และแสดงให้เห็นว่าโมเดลเรียนรู้ที่จะนำรางวัลจากบริบทหนึ่งไปปรับใช้กับเรื่องอื่นที่ไม่เกี่ยวข้องกันได้อย่างไร การสละเวลาเพื่อทำความเข้าใจสาเหตุที่โมเดลประพฤติตัวแปลกไป และการสร้างวิธีตรวจสอบรูปแบบเหล่านั้นอย่างรวดเร็ว ถือเป็นขีดความสามารถที่สำคัญสำหรับทีมวิจัยของเรา ซึ่งการสืบสวนครั้งนี้ได้นำไปสู่เครื่องมือใหม่ๆ ให้ทีมวิจัยใช้ตรวจสอบพฤติกรรมของโมเดลและแก้ไขปัญหาจากต้นตอได้อย่างยั่งยืน


