ข้ามไปยังเนื้อหาหลัก
OpenAI

13 พฤศจิกายน 2568

งานวิจัยสิ่งพิมพ์

การทำความเข้าใจเครือข่ายประสาทเทียมผ่านวงจรที่มีความหนาแน่นต่ำ

เราได้ฝึกฝนโมเดลให้คิดในขั้นตอนที่ง่ายขึ้นและสามารถตรวจสอบย้อนกลับได้มากขึ้น เพื่อให้เราสามารถเข้าใจวิธีการทำงานได้ดียิ่งขึ้น

กำลังโหลด…

​​เครือข่ายประสาทเทียมขับเคลื่อนระบบ AI ที่มีความสามารถสูงสุดในปัจจุบัน แต่ยังคงเข้าใจได้ยาก เราไม่ได้เขียนโมเดลเหล่านี้ด้วยคำแนะนำที่ชัดเจนและเป็นขั้นตอน โมเดลจะเรียนรู้โดยการปรับการเชื่อมต่อภายในหลายพันล้านรายการหรือ "ชั่งน้ำหนัก" จนกว่าจะเชี่ยวชาญในงาน เราออกแบบกฎของการฝึกสอน แต่ไม่ใช่พฤติกรรมเฉพาะที่เกิดขึ้น และผลลัพธ์คือเครือข่ายการเชื่อมต่อที่ซับซ้อนซึ่งไม่มีมนุษย์คนใดสามารถถอดรหัสได้ง่าย 

เรามองความสามารถในการตีความอย่างไร

เมื่อระบบ AI มีความสามารถมากขึ้นและส่งผลกระทบต่อการตัดสินใจในด้านวิทยาศาสตร์ การศึกษา และการดูแลสุขภาพในโลกแห่งความเป็นจริง การทำความเข้าใจวิธีการทำงานของระบบเหล่านี้จึงเป็นสิ่งจำเป็น การตีความหมายถึงวิธีการที่ช่วยให้เราเข้าใจว่าทำไมโมเดลถึงสร้างเอาต์พุตที่กำหนด มีหลายวิธีที่เราสามารถบรรลุเป้าหมายนี้ได้ 

ตัวอย่างเช่น โมเดลการให้เหตุผลได้รับแรงจูงใจให้อธิบายการทำงานของพวกเขาระหว่างทางไปสู่คำตอบสุดท้าย การตีความแบบห่วงโซ่ความคิดใช้ประโยชน์จากคำอธิบายเหล่านี้เพื่อตรวจสอบพฤติกรรมของโมเดล สิ่งนี้มีประโยชน์ในทันที: ลำดับความคิดของโมเดลการให้เหตุผลในปัจจุบันดูเหมือนจะให้ข้อมูลที่เป็นประโยชน์เกี่ยวกับพฤติกรรมที่น่ากังวล เช่น การหลอกลวง อย่างไรก็ตาม การพึ่งพาคุณสมบัตินี้อย่างเต็มที่ถือเป็นกลยุทธ์ที่เปราะบาง และอาจล้มเหลวได้ตามกาลเวลา

ในทางกลับกัน การตีความเชิงกลไกซึ่งเป็นจุดเน้นของงานนี้ มุ่งที่จะย้อนกลับวิศวกรรมกระบวนการคำนวณของโมเดลอย่างสมบูรณ์ จนถึงตอนนี้ ยังไม่ค่อยมีประโยชน์ในทันที แต่ในหลักการแล้ว อาจให้คำอธิบายที่สมบูรณ์ยิ่งขึ้นเกี่ยวกับพฤติกรรมของโมเดล ด้วยการพยายามอธิบายพฤติกรรมของโมเดลในระดับที่ละเอียดที่สุด การตีความเชิงกลไกสามารถลดการตั้งสมมติฐานและเพิ่มความมั่นใจให้กับเราได้มากขึ้น แต่เส้นทางจากรายละเอียดระดับต่ำไปจนถึงการอธิบายพฤติกรรมที่ซับซ้อนนั้นยาวและยากลำบากมากขึ้น

ความสามารถในการตีความสนับสนุนเป้าหมายสำคัญหลายประการ เช่น การเพิ่มประสิทธิภาพในการกำกับดูแลและการให้สัญญาณเตือนล่วงหน้าเกี่ยวกับพฤติกรรมที่ไม่ปลอดภัยหรือไม่สอดคล้องกับกลยุทธ์ นอกจากนี้ยังเสริมความพยายามด้านความปลอดภัยอื่นๆ ของเรา เช่น การกำกับดูแลที่ปรับขนาดได้ การฝึกสอนเชิงโต้แย้ง และการทดสอบทีมสีแดง 

ในงานนี้ เราแสดงให้เห็นว่าเรามักจะสามารถสอนโมเดลในวิธีที่ทำให้ตีความได้ง่ายขึ้น เราเห็นว่างานของเราเป็นส่วนเสริมที่มีศักยภาพสำหรับการวิเคราะห์หลังการวิเคราะห์ของเครือข่ายหนาแน่น 

ถือเป็นการเดิมพันที่ทะเยอทะยานมาก มีเส้นทางที่ยาวนานจากการทำงานของเราไปสู่การทำความเข้าใจพฤติกรรมที่ซับซ้อนของโมเดลที่ทรงพลังที่สุดของเราอย่างเต็มที่ อย่างไรก็ตาม สำหรับพฤติกรรมที่เรียบง่าย เราพบว่าโมเดลที่มีความเบาบางที่ฝึกฝนด้วยวิธีการของเราประกอบด้วยวงจรขนาดเล็กที่แยกออกจากกันซึ่งสามารถเข้าใจได้และเพียงพอที่จะทำพฤติกรรมนั้น สิ่งนี้ชี้ให้เห็นว่าอาจมีแนวทางที่สามารถจัดการได้ในการการฝึกสอนระบบขนาดใหญ่ที่มีกลไกที่เราสามารถเข้าใจได้

แนวทางใหม่: การเรียนรู้โมเดลแบบสปาร์ส

งานการตีความเชิงกลไกก่อนหน้านี้เริ่มต้นจากเครือข่ายที่หนาแน่นและซับซ้อน และพยายามที่จะคลี่คลายเครือข่ายเหล่านั้น ในเครือข่ายเหล่านี้ เซลล์ประสาทแต่ละเซลล์เชื่อมต่อกับเซลล์ประสาทอื่นๆ นับพันเซลล์ เซลล์ประสาทส่วนใหญ่ดูเหมือนจะทำหน้าที่ที่หลากหลาย ทำให้ดูเหมือนว่าไม่สามารถเข้าใจได้ 

แต่ถ้าเราฝึกเครือข่ายประสาทเทียมที่ไม่พันกัน โดยมีเซลล์ประสาทจำนวนมากขึ้น แต่เซลล์ประสาทแต่ละตัวมีการเชื่อมต่อเพียงไม่กี่สิบจุด แล้วบางทีเครือข่ายที่ได้อาจจะง่ายขึ้นและเข้าใจได้ง่ายขึ้น นี่คือหัวใจสำคัญของการวิจัยในงานของเรา

ด้วยหลักการนี้ในใจ เราได้ฝึกโมเดลภาษาที่มีสถาปัตยกรรมคล้ายกับโมเดลภาษาที่มีอยู่ เช่น GPT‑2 โดยมีการปรับเปลี่ยนเล็กน้อยเพียงอย่างเดียว: เราบังคับให้ค่าถ่วงน้ำหนักส่วนใหญ่ของโมเดลเป็นศูนย์ สิ่งนี้จำกัดโมเดลให้ใช้การเชื่อมต่อที่เป็นไปได้ระหว่างเซลล์ประสาทเพียงไม่กี่จุดเท่านั้น นี่เป็นการเปลี่ยนแปลงง่ายๆ ที่เราโต้แย้งว่าจะช่วยคลายความซับซ้อนของการคำนวณภายในของโมเดลได้อย่างมาก

แผนภาพเปรียบเทียบวงจรหนาแน่นและวงจรเบาบาง เวอร์ชันหนาแน่นแสดงแถวของโหนดสองแถวที่มีเส้นเชื่อมต่อกันจำนวนมาก ในขณะที่เวอร์ชันที่เบาบางแสดงเค้าโครงเดียวกันแต่มีการเชื่อมต่อที่น้อยกว่าและคัดสรรมากขึ้น

ในเครือข่ายประสาทเทียมแบบหนาแน่นปกติ เซลล์ประสาทแต่ละเซลล์จะเชื่อมต่อกับเซลล์ประสาททุกเซลล์ในชั้นถัดไป ในโมเดลที่มีการเชื่อมต่อแบบเบาบางของเรา เซลล์ประสาทแต่ละตัวเชื่อมต่อกับเซลล์ประสาทเพียงไม่กี่เซลล์ในชั้นถัดไป เราหวังว่าสิ่งนี้จะทำให้เซลล์ประสาทและเครือข่ายโดยรวมเข้าใจได้ง่ายยิ่งขึ้น

การประเมินความสามารถในการตีความ

เราต้องการวัดขอบเขตที่การคำนวณของโมเดลที่มีความเบาบางของเราถูกแยกออกจากกัน เราได้พิจารณาพฤติกรรมที่เรียบง่ายหลากหลายของโมเดล และตรวจสอบว่าเราสามารถแยกส่วนของโมเดลที่รับผิดชอบต่อพฤติกรรมแต่ละอย่างได้หรือไม่ ซึ่งเราเรียกว่าวงจร

เราได้คัดสรรชุดงานอัลกอริทึมที่เรียบง่ายด้วยมือ สำหรับแต่ละกรณี เราได้ตัดแต่งโมเดลให้เหลือวงจรที่เล็กที่สุดที่ยังสามารถทำงานได้ และตรวจสอบว่าวงจรนั้นมีความเรียบง่ายเพียงใด (สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสาร(เปิดในหน้าต่างใหม่)ของเรา) เราพบว่าโดยการฝึกสอนโมเดลที่ใหญ่ขึ้นและมีความเบาบางมากขึ้น เราสามารถสร้างโมเดลที่มีความสามารถเพิ่มขึ้นด้วยวงจรที่เรียบง่ายมากขึ้น

แผนภาพกระจายที่แสดงความสามารถของโมเดล (การสูญเสียจากการฝึกฝนล่วงหน้า) บนแกน x เทียบกับความสามารถในการตีความ (ขนาดวงจรที่ถูกตัดทอน) บนแกน y จุดแสดงถึงโมเดลที่มีขนาดและระดับความเบาบางต่างกัน โดยสีแสดงถึงจำนวนพารามิเตอร์ทั้งหมด และขนาดของเครื่องหมายแสดงถึงจำนวนพารามิเตอร์ที่ไม่เป็นศูนย์ ลูกศรระบุทิศทางบนขวาว่า "ดีกว่า"

เราวางแผนการตีความเทียบกับความสามารถในทุกโมเดล (ซ้ายล่างดีกว่า) สำหรับขนาดโมเดลที่มีความเบาบางคงที่ การเพิ่มความเบาบางโดยการตั้งค่าน้ำหนักให้เป็นศูนย์มากขึ้นจะลดความสามารถแต่เพิ่มความสามารถในการตีความ การเพิ่มขนาดของโมเดลทำให้ขอบเขตนี้ขยายออกไป ซึ่งบ่งชี้ว่าเราสามารถสร้างโมเดลที่ใหญ่ขึ้นได้ซึ่งมีทั้งความสามารถและความสามารถในการตีความ

เพื่อให้เห็นภาพชัดเจน ลองพิจารณางานที่โมเดลที่ได้รับการฝึกอบรมด้วยโค้ด Python ต้องเติมสตริงให้สมบูรณ์ด้วยประเภทของเครื่องหมายคำพูดที่ถูกต้อง ใน Python คำว่า ‘hello’ จะต้องลงท้ายด้วยเครื่องหมายคำพูดเดี่ยว และคำว่า “hello” จะต้องลงท้ายด้วยเครื่องหมายคำพูดคู่ โมเดลสามารถแก้ไขปัญหานี้ได้โดยการจดจำประเภทของเครื่องหมายคำพูดที่เปิดสตริงและทำซ้ำเครื่องหมายนั้นในตอนท้าย

โมเดลที่สามารถตีความได้มากที่สุดของเราดูเหมือนจะมีวงจรที่แยกออกจากกันซึ่งใช้อัลกอริทึมนั้นอย่างแม่นยำ

แผนภาพแสดงตัวอย่างวงจรในทรานส์ฟอร์เมอร์แบบสปาร์ส ซึ่งแสดงให้เห็นว่าเซลล์ประสาทเฉพาะและหัวความสนใจเปิดใช้งานเพื่อตอบสนองต่อโทเค็นอินพุต เช่น "(" และ "วงจร" โดยมีเส้นทางที่ระบุสำหรับน้ำหนักบวกและลบ การคูณ ความไม่เชิงเส้น และการเชื่อมต่อระหว่าง MLP และเลเยอร์ความสนใจ ซึ่งนำไปสู่ความน่าจะเป็นของโทเค็นเอาต์พุต

วงจรตัวอย่างในทรานส์ฟอร์เมอร์แบบเบาบางที่ทำนายว่าจะจบสตริงด้วยเครื่องหมายคำพูดเดี่ยวหรือคู่ วงจรนี้ใช้ช่องสัญญาณที่เหลือเพียง 5 ช่อง (เส้นสีเทาแนวตั้ง) นิวรอน MLP 2 ตัวในเลเยอร์ 0 และช่องคีย์สอบถามความสนใจ 1 ช่อง และช่องค่า 1 ช่องในเลเยอร์ 10 โมเดล (1) เข้ารหัสเครื่องหมายคำพูดเดี่ยวในช่องหนึ่งและเครื่องหมายคำพูดคู่ในอีกช่องหนึ่ง (2) ใช้เลเยอร์ MLP เพื่อแปลงสิ่งนี้เป็นช่องหนึ่งที่ตรวจจับเครื่องหมายคำพูดใดๆ และอีกช่องหนึ่งที่จำแนกระหว่างเครื่องหมายคำพูดเดี่ยวและคู่ (3) ใช้การดำเนินการแบบความสนใจเพื่อเพิกเฉยต่อ token ที่แทรกแซง ค้นหาเครื่องหมายคำพูดก่อนหน้า และคัดลอกประเภทไปยัง token สุดท้าย และ (4) ทำนายเครื่องหมายคำพูดปิดที่ตรงกัน

ตามคำจำกัดความของเรา การเชื่อมต่อที่แน่นอนที่แสดงไว้ด้านบนนั้นเพียงพอที่จะดำเนินการงานได้ หากเราลบส่วนที่เหลือของโมเดลออกไป วงจรเล็กๆ นี้ก็ยังทำงานได้ พวกมันยังมีความจำเป็นเช่นกัน การลบขอบเพียงไม่กี่ขอบนี้จะทำให้โมเดลล้มเหลว

นอกจากนี้ พวกเรายังได้พิจารณาพฤติกรรมที่ซับซ้อนมากขึ้นอีกด้วย วงจรสำหรับพฤติกรรมเหล่านี้ของเรา (เช่น การผูกตัวแปรที่แสดงด้านล่าง) อธิบายได้ยากอย่างสมบูรณ์ ถึงกระนั้น เราก็ยังสามารถบรรลุคำอธิบายบางส่วนที่ค่อนข้างง่ายซึ่งสามารถทำนายพฤติกรรมของโมเดลได้

แผนภาพที่แสดงตัวอย่างวงจรสปาร์ส-ทรานส์ฟอร์เมอร์ภายในฟังก์ชัน get_neighbors ของ Python การกำหนดสองครั้งให้กับ current = set() ถูกบรรจุในกล่อง โดยมีลูกศรสีแสดงว่าหัวข้อความสนใจ (ติดฉลากด้วยดัชนี Q/K/V) เปิดใช้งานเพื่อเชื่อมต่อการเกิดขึ้นแต่ละครั้งของตัวแปร current กับการใช้งานในลูป

วงจรตัวอย่างอีกแบบหนึ่งที่มีรายละเอียดน้อยกว่า ในการกำหนดประเภทของตัวแปรที่เรียกว่า current การดำเนินการให้ความสนใจหนึ่งจะคัดลอกชื่อตัวแปรลงในโทเค็น set() เมื่อมีการกำหนด และการดำเนินการในภายหลังจะคัดลอกประเภทจากโทเค็น set() ไปยังการใช้ตัวแปรในภายหลัง ทำให้โมเดลสามารถสรุป token ถัดไปที่ถูกต้อง

เส้นทางข้างหน้า

งานนี้เป็นก้าวแรกสู่เป้าหมายที่ใหญ่ขึ้น: ทำให้การคำนวณของโมเดลเข้าใจได้ง่ายขึ้น แต่ยังมีหนทางอีกยาวไกลที่ต้องไปต่อ โมเดลที่เบาบางของเรามีขนาดเล็กกว่าโมเดลแนวหน้าอย่างมาก และส่วนใหญ่ของการคำนวณยังคงไม่สามารถตีความได้ 

ถัดไป เราหวังว่าจะขยายเทคนิคของเราให้รองรับโมเดลที่ใหญ่ขึ้น และอธิบายพฤติกรรมของโมเดลได้มากขึ้น โดยการระบุรูปแบบวงจรที่เป็นพื้นฐานของการใช้เหตุผลที่ซับซ้อนยิ่งขึ้นในโมเดลเบาบางที่มีความสามารถ เราสามารถพัฒนาความเข้าใจที่ช่วยให้เรากำหนดเป้าหมายการสืบสวนของโมเดลแนวหน้าได้ดียิ่งขึ้น

เพื่อเอาชนะความไร้ประสิทธิภาพของการฝึกสอนโมเดลที่มีความเบาบาง เราเห็นสองแนวทางในการก้าวไปข้างหน้า วิธีหนึ่งคือการดึงวงจรที่เบาบางจากโมเดลที่มีความหนาแน่นอยู่แล้ว แทนที่จะทำการฝึกสอนโมเดลที่เบาบางตั้งแต่เริ่มต้น โดยพื้นฐานแล้ว โมเดลหนาแน่นมีประสิทธิภาพในการปรับใช้มากกว่าโมเดลเบาบาง อีกทางเลือกหนึ่งคือการพัฒนาวิธีการที่มีประสิทธิภาพมากขึ้นในการสอนโมเดลเพื่อให้สามารถตีความได้ ซึ่งอาจทำให้การนำไปใช้ในกระบวนการผลิตง่ายขึ้น

โปรดทราบว่าผลการค้นพบของเราที่นี่ไม่ได้รับประกันว่าแนวทางนี้จะขยายไปสู่ระบบที่มีความสามารถมากขึ้น แต่ผลลัพธ์เบื้องต้นเหล่านี้มีแนวโน้มที่ดี เป้าหมายของเราคือการขยายขอบเขตของโมเดลที่เราสามารถตีความได้อย่างน่าเชื่อถือทีละน้อย และพัฒนาเครื่องมือที่ทำให้ระบบในอนาคตง่ายต่อการวิเคราะห์ ดีบัก และประเมินผล

ผู้เขียน

Leo Gao Achyuta Rajaram Jacob Coxon Soham V. Govande Bowen Baker และDan Mossing