14 มีนาคม 2566

GPT‑4

อ่านเอกสาร ดูการ์ดระบบ ลองใช้ ChatGPT Plus

แหล่งข้อมูลเพิ่มเติม

ลองใช้ใน Playground รับชมไลฟ์สตรีมล่าสุดอีกครั้ง มีส่วนร่วมใน OpenAI

กำลังโหลด…

เราได้สร้าง GPT‑4 ซึ่งเป็นก้าวสำคัญล่าสุดในความพยายามของ OpenAI ที่จะขยายขีดความสามารถของดีปเลิร์นนิง GPT‑4 เป็นโมเดลมัลติโมดัลขนาดใหญ่ (รับอินพุตภาพและข้อความ เอาต์พุตเป็นข้อความ) ซึ่งแม้จะมีความสามารถน้อยกว่ามนุษย์ในหลายสถานการณ์ในโลกจริง แต่ก็แสดงให้เห็นถึงประสิทธิภาพในระดับมนุษย์ในเกณฑ์มาตรฐานทางวิชาชีพและวิชาการต่างๆ ตัวอย่างเช่น มันผ่านการสอบเนติบัณฑิตจำลองด้วยคะแนนที่อยู่ในกลุ่ม 10% แรกของผู้เข้าสอบ ในทางตรงกันข้ามคะแนนของ GPT‑3.5 อยู่ที่ประมาณ 10% ล่างสุด เราใช้เวลา 6 เดือนในการจัดความสอดคล้องของ⁠ GPT‑4 ซ้ำๆ โดยใช้บทเรียนจากโปรแกรมทดสอบเชิงโต้แย้งของเรา รวมถึง ChatGPT ด้วย ส่งผลให้ได้ผลลัพธ์ที่ดีที่สุดเท่าที่เคยมีมา (แม้จะยังห่างไกลจากความสมบูรณ์แบบ) ในด้านข้อเท็จจริง ความสามารถในการควบคุม และการปฏิเสธที่จะออกนอกขอบเขตที่กำหนด

ในช่วงสองปีที่ผ่านมา เราได้สร้างชุดดีปเลิร์นนิงขึ้นมาใหม่ทั้งหมด และร่วมกับ Azure ในการออกแบบซูเปอร์คอมพิวเตอร์ตั้งแต่แรกเริ่มเพื่อรองรับภาระงานของเรา เมื่อปีที่แล้ว เราได้ฝึกสอน GPT‑3.5 ให้เป็นการ "ทดสอบการทำงาน" ครั้งแรกของระบบ เราได้พบและแก้ไขข้อบกพร่องบางประการ และปรับปรุงรากฐานทางทฤษฎีของเรา ผลลัพธ์ที่ได้คือ การฝึกสอน GPT‑4 ของเรามีเสถียรภาพอย่างที่ไม่เคยมีมาก่อน (อย่างน้อยก็สำหรับเรา!) ทำให้กลายเป็นโมเดลขนาดใหญ่รุ่นแรกของเราที่เราสามารถคาดการณ์ประสิทธิภาพการฝึกสอนล่วงหน้าได้อย่างแม่นยำ ในขณะที่เรายังคงมุ่งเน้นไปที่การปรับขนาดที่เชื่อถือได้ เราตั้งเป้าที่จะปรับปรุงระเบียบวิธีของเราเพื่อช่วยให้เราคาดการณ์และเตรียมพร้อมสำหรับความสามารถในอนาคตได้ล่วงหน้ามากขึ้น ซึ่งเป็นสิ่งที่เราเห็นว่ามีความสำคัญต่อความปลอดภัย

เรากำลังเปิดตัวความสามารถด้านอินพุตข้อความของ GPT‑4 ผ่านทาง ChatGPT และ API (พร้อมรายชื่อรอ⁠) เพื่อเตรียมความสามารถด้านอินพุตภาพให้พร้อมใช้งานได้กว้างขึ้น เรากำลังทำงานร่วมกันอย่างใกล้ชิดกับพันธมิตรรายเดียว⁠(เปิดในหน้าต่างใหม่)เพื่อเริ่มต้น นอกจากนี้ เรายังเปิดซอร์ส OpenAI Evals⁠(เปิดในหน้าต่างใหม่) ซึ่งเป็นกรอบงานสำหรับการประเมินประสิทธิภาพการทำงานของโมเดล AI โดยอัตโนมัติ ทำให้ทุกคนสามารถรายงานข้อบกพร่องในโมเดลของเรา เพื่อช่วยแนะนำแนวทางในการปรับปรุงเพิ่มเติม

ความสามารถ

ในการบทสนทนาแบบสบายๆ ความแตกต่างระหว่าง GPT‑3.5 และ GPT‑4 อาจจะไม่ชัดเจน ความแตกต่างจะปรากฏเมื่อความซับซ้อนของงานถึงเกณฑ์ที่เพียงพอ โดย GPT‑4 มีความน่าเชื่อถือ สร้างสรรค์ และสามารถจัดการคำสั่งที่มีความละเอียดอ่อนได้มากกว่า GPT‑3.5 มาก

เพื่อทำความเข้าใจความแตกต่างระหว่างทั้งสองโมเดล เราได้ทดสอบตามเกณฑ์มาตรฐานต่างๆ รวมถึงการจำลองการสอบที่ออกแบบมาสำหรับมนุษย์โดยเฉพาะ เราดำเนินการโดยใช้แบบทดสอบล่าสุดที่เผยแพร่สู่สาธารณะ (ในกรณีของการสอบโอลิมปิคและคำถามคำตอบฟรีของ AP) หรือโดยซื้อข้อสอบฝึกหัดรุ่นปี 2022–2023 เราไม่ได้ทำการฝึกสอนที่เฉพาะเจาะจงสำหรับการสอบเหล่านี้ ในระหว่างการฝึกสอนโมเดลพบปัญหาเพียงเล็กน้อยในการสอบ แต่เราเชื่อว่าผลลัพธ์จะแสดงให้เห็นได้ โปรดดูรายละเอียดในรายงานทางเทคนิค⁠(เปิดในหน้าต่างใหม่)ของเรา

การอ้างอิงภายใน ¹

กำลังโหลด...

นอกจากนี้ เรายังได้ประเมิน GPT‑4 โดยใช้เกณฑ์มาตรฐานแบบดั้งเดิมที่ออกแบบมาสำหรับโมเดลการเรียนรู้ของเครื่อง GPT‑4 มีประสิทธิภาพเหนือกว่าโมเดลภาษาขนาดใหญ่ที่มีอยู่อย่างมาก เช่นเดียวกับโมเดลที่ล้ำสมัย (SOTA) ส่วนใหญ่ ซึ่งอาจรวมถึงการสร้างเฉพาะเกณฑ์มาตรฐานหรือโปรโตคอลการฝึกสอนเพิ่มเติม:

กำลังโหลด...

เกณฑ์มาตรฐาน ML ที่มีอยู่หลายรายการถูกเขียนเป็นภาษาอังกฤษ เพื่อให้เข้าใจความสามารถเบื้องต้นในภาษาอื่นๆ เราได้แปลเกณฑ์มาตรฐาน MMLU ซึ่งเป็นชุดปัญหาแบบเลือกตอบ 14,000 ข้อที่ครอบคลุม 57 หัวข้อ โดยจัดทำเป็นภาษาต่างๆ ด้วยการใช้ Azure Translate (ดูภาคผนวก⁠) ใน 24 จาก 26 ภาษาที่ทดสอบ GPT‑4 มีประสิทธิภาพเหนือกว่าการทำงานเป็นภาษาอังกฤษของ GPT‑3.5 และ LLM อื่นๆ (Chinchilla, PaLM) รวมถึงภาษาที่มีทรัพยากรน้อย เช่น ภาษาลัตเวีย ภาษาเวลส์ และภาษาสวาฮีลี:

กำลังโหลด...

นอกจากนี้ เรายังใช้ GPT‑4 ภายในองค์กรด้วย ซึ่งส่งผลอย่างมากต่อฟังก์ชันต่างๆ เช่น การสนับสนุน การขาย การควบคุมเนื้อหา และการเขียนโปรแกรม เรายังใช้เพื่อช่วยมนุษย์ในการประเมินเอาต์พุตของ AI โดยเริ่มระยะที่สองในกลยุทธ์การจัดให้สอดคล้อง⁠ของเรา

อินพุตภาพ

GPT‑4 สามารถรับคำสั่งและภาพได้ ซึ่งควบคู่ไปกับการตั้งค่าเฉพาะข้อความ ช่วยให้ผู้ใช้สามารถระบุวิสัยทัศน์หรืองานด้านภาษาใดๆ ก็ได้ โดยเฉพาะอย่างยิ่ง GPT‑4 จะสร้างเอาต์พุตเป็นข้อความ (ภาษาธรรมชาติ โค้ด ฯลฯ) โดยได้รับอินพุตเป็นข้อความและภาพแทรกอยู่ GPT‑4 แสดงให้เห็นความสามารถที่คล้ายคลึงกันกับอินพุตที่เป็นข้อความเท่านั้นในหลากหลายโดเมน รวมถึงเอกสารที่มีข้อความและรูปถ่าย แผนผัง หรือภาพหน้าจอ นอกจากนี้ ยังสามารถเพิ่มเทคนิคระหว่างการทดสอบที่ถูกพัฒนาขึ้นสำหรับโมเดลภาษาเฉพาะข้อมูลที่เป็นข้อความ รวมถึงการสั่งงานแบบ few-shot (ใส่เพียงไม่กี่ตัวอย่าง) และการสั่งงานแบบ chain-of-thought (คิดเป็นลำดับขั้นตอน)⁠(เปิดในหน้าต่างใหม่) อินพุตภาพยังคงเป็นการตัวอย่างการวิจัยและยังไม่เปิดเผยต่อสาธารณะ

กำลังโหลด...

เราแสดงตัวอย่างประสิทธิภาพของ GPT‑4 โดยการประเมินบนชุดเกณฑ์มาตรฐานที่แคบในด้านวิสัยทัศน์ทางวิชาการ อย่างไรก็ตาม ตัวเลขเหล่านี้ไม่ได้แสดงถึงขอบเขตความสามารถอย่างครบถ้วน เนื่องจากเรากำลังค้นพบบางสิ่งอย่างต่อเนื่อง นั่นก็คืองานใหม่ๆ ที่น่าตื่นเต้น ซึ่งโมเดลนี้สามารถจัดการได้ เราวางแผนที่จะเผยแพร่ผลการวิเคราะห์และตัวเลขการประเมินเพิ่มเติม รวมไปถึงการตรวจสอบอย่างละเอียดเกี่ยวกับผลของเทคนิคการทดสอบในเร็วๆ นี้

เชิงอรรถภายใน^A

กำลังโหลด...

ความสามารถในการควบคุม

เรากำลังดำเนินการกับทุกแง่มุมของแผนที่ระบุไว้ในโพสต์ของเราเกี่ยวกับการกำหนดพฤติกรรมของ AI⁠ รวมถึงความสามารถในการควบคุมด้วย แทนที่จะเป็นบุคลิกแบบคลาสสิกของ ChatGPT ที่มีการพูดจา น้ำเสียง และสไตล์ที่คงที่ นักพัฒนา (รวมถึงผู้ใช้ ChatGPT ในไม่ช้า) สามารถกำหนดสไตล์และงานของ AI ได้โดยอธิบายทิศทางเหล่านั้นในข้อความ "ระบบ" ข้อความของระบบช่วยให้ผู้ใช้ API สามารถปรับแต่งประสบการณ์ของผู้ใช้ภายในขอบเขต⁠(เปิดในหน้าต่างใหม่)ได้อย่างมีนัยสำคัญ เราจะปรับปรุงในส่วนนี้ต่อไป (และโดยเฉพาะอย่างยิ่ง โปรดทราบว่าข้อความของระบบเป็นวิธีที่ง่ายที่สุดในการ "เจลเบรก" โมเดลปัจจุบัน กล่าวคือ การยึดมั่นตามขอบเขตนั้นไม่สมบูรณ์แบบ) แต่เราส่งเสริมให้คุณลองใช้ดูและแจ้งให้เราทราบว่าคุณคิดอย่างไร

กำลังโหลด...

ข้อจำกัด

แม้จะมีความสามารถ แต่ GPT‑4 ก็มีข้อจำกัดคล้ายกับรุ่น GPT รุ่นก่อนๆ ที่สำคัญที่สุดคือ มันยังคงไม่น่าเชื่อถืออย่างเต็มที่ (มัน “สร้างภาพหลอน” ข้อเท็จจริงและทำให้เกิดข้อผิดพลาดในการให้เหตุผล) ควรใช้ความระมัดระวังอย่างยิ่งเมื่อใช้ผลลัพธ์ของโมเดลภาษา โดยเฉพาะในบริบทที่มีความสำคัญสูง โดยมีโปรโตคอลที่แน่นอน (เช่น การพิจารณาโดยมนุษย์ การสร้างพื้นฐานด้วยบริบทเพิ่มเติม หรือการหลีกเลี่ยงการใช้งานที่มีความเสี่ยงสูงโดยสิ้นเชิง) ซึ่งตรงกับความต้องการของกรณีการใช้งานเฉพาะ

แม้ว่าจะยังคงเป็นปัญหาที่แท้จริง แต่ GPT‑4 สามารถลดการเกิดภาพหลอนลงได้อย่างมากเมื่อเทียบกับโมเดลก่อนหน้า (ซึ่งตัวมันเองก็ได้รับการปรับปรุงให้ดีขึ้นในแต่ละครั้ง) GPT‑4 ทำคะแนนได้สูงกว่า GPT‑3.5 รุ่นล่าสุดของเราถึง 40% ในการประเมินข้อเท็จจริงเชิงโต้แย้งภายในของเรา:

กำลังโหลด...

เราได้มีความก้าวหน้าในเกณฑ์มาตรฐานภายนอก เช่น TruthfulQA ซึ่งทดสอบความสามารถของโมเดลในการแยกแยะข้อเท็จจริงจากชุดข้อความที่ไม่ถูกต้องและถูกเลือกมาโต้แย้ง คำถามเหล่านี้ถูกจับคู่กับคำตอบที่ไม่ถูกต้องตามข้อเท็จจริงและมีความน่าสนใจทางสถิติ

กำลังโหลด...

โมเดลพื้นฐาน GPT‑4 ดีกว่า GPT‑3.5 เพียงเล็กน้อยในการทำงานนี้ อย่างไรก็ตาม หลังจากการฝึกสอน RLHF⁠ (โดยใช้กระบวนการเดียวกันกับที่เราใช้กับ GPT‑3.5⁠) มีช่องว่างขนาดใหญ่ เมื่อตรวจสอบตัวอย่างบางส่วนด้านล่าง GPT‑4 ไม่ยอมเลือกใช้คำพูดทั่วๆ ไป (คุณไม่สามารถสอนเทคนิคใหม่ ๆ ให้กับสุนัขแก่ได้) อย่างไรก็ตาม GPT‑4 ยังคงสามารถละเลยรายละเอียดเล็กๆ น้อยๆ ได้ (เอลวิส เพรสลีย์ไม่ใช่ลูกชายของนักแสดง)

กำลังโหลด...

โมเดลอาจมีอคติต่างๆ ในผลลัพธ์ได้ ซึ่งเราได้มีความคืบหน้าในเรื่องนี้แล้ว แต่ยังมีอีกมากที่จะต้องทำ ตามโพสต์บล็อกล่าสุด⁠ของเรา เรามุ่งมั่นที่จะสร้างระบบ AI ที่เราสร้างขึ้นให้มีพฤติกรรมเริ่มต้นที่สมเหตุสมผล ซึ่งสะท้อนถึงค่านิยมของผู้ใช้ในวงกว้าง อนุญาตให้ปรับแต่งระบบเหล่านี้ได้ภายในขอบเขตที่กว้าง และรับอินพุตจากสาธารณะว่าขอบเขตเหล่านั้นควรเป็นอย่างไร

โดยทั่วไปแล้ว GPT‑4 ขาดความรู้เกี่ยวกับเหตุการณ์ที่เกิดขึ้นหลังจากที่ข้อมูลส่วนใหญ่ถูกตัดออก (กันยายน 2021) และไม่ได้เรียนรู้จากประสบการณ์ของตนเอง บางครั้งนั่นอาจทำให้เกิดข้อผิดพลาดในการใช้เหตุผลง่ายๆ ซึ่งดูเหมือนจะไม่สอดคล้องกับความสามารถในหลายๆ โดเมน หรืออาจหลงเชื่อง่ายเกินไปในการยอมรับข้อความเท็จที่ชัดเจนจากผู้ใช้ และบางครั้งมันก็อาจล้มเหลวในการแก้ไขปัญหายากๆ ได้เช่นเดียวกับมนุษย์ เช่น การนำช่องโหว่ด้านความปลอดภัยเข้าไปในโค้ดที่สร้างขึ้น

GPT‑4 ยังอาจทำนายผิดพลาดได้อย่างมั่นใจ โดยไม่ตรวจสอบงานซ้ำเมื่อมีแนวโน้มว่าจะเกิดข้อผิดพลาด ที่น่าสนใจคือ โมเดลพื้นฐานที่ได้รับการฝึกสอนไว้ล่วงหน้านั้น ได้รับการปรับเทียบอย่างเข้มงวด (โดยทั่วไปความเชื่อมั่นที่คาดการณ์ไว้ในคำตอบจะตรงกับความน่าจะเป็นที่จะถูกต้อง) อย่างไรก็ตาม จากกระบวนการหลังการฝึกสอนในปัจจุบันของเรา การปรับเทียบจะลดลง

กำลังโหลด...

ความเสี่ยงและการบรรเทา

เราได้ดำเนินการปรับปรุง GPT‑4 เพื่อให้มีความปลอดภัยและสอดคล้องกันมากขึ้นตั้งแต่เริ่มต้นการฝึกอบรม โดยได้ดำเนินการต่างๆ ที่รวมถึงการคัดเลือกและการกรองข้อมูลก่อนการฝึกสอน การประเมินและการมีส่วนร่วมของผู้เชี่ยวชาญ การปรับปรุงความปลอดภัยของโมเดล ตลอดจนการติดตามและการบังคับใช้

GPT‑4 ก่อให้เกิดความเสี่ยงที่คล้ายคลึงกับโมเดลก่อนหน้า เช่น การสร้างคำแนะนำที่เป็นอันตราย โค้ดที่มีข้อบกพร่อง หรือข้อมูลที่ไม่ถูกต้อง อย่างไรก็ตาม ความสามารถเพิ่มเติมของ GPT‑4 นำไปสู่การเกิดความเสี่ยงใหม่ๆ เพื่อทำความเข้าใจขอบเขตของความเสี่ยงเหล่านี้ เราได้เชิญผู้เชี่ยวชาญมากกว่า 50 คนจากโดเมนต่างๆ เช่น ความเสี่ยงจากการจัด AI ให้สอดคล้อง ความปลอดภัยทางไซเบอร์ ความเสี่ยงทางชีวภาพ ความไว้วางใจและความปลอดภัย และความมั่นคงระหว่างประเทศ เพื่อมาทดสอบโมเดลในเชิงรุก ผลการค้นพบของผู้เชี่ยวชาญได้ทำให้เราสามารถทดสอบพฤติกรรมของโมเดลในด้านที่ความเสี่ยงสูงซึ่งต้องการความเชี่ยวชาญในการประเมิน ข้อเสนอแนะและข้อมูลจากผู้เชี่ยวชาญเหล่านี้ถูกนำมาใช้ในการบรรเทาผลกระทบและการปรับปรุงโมเดลของเรา ตัวอย่างเช่น เราได้รวบรวมข้อมูลเพิ่มเติมเพื่อปรับปรุงความสามารถของ GPT‑4 ในการปฏิเสธคำขอเกี่ยวกับวิธีการสังเคราะห์สารเคมีอันตราย

GPT‑4 รวมสัญญาณรางวัลความปลอดภัยเพิ่มเติมระหว่างการฝึกสอน RLHF เพื่อลดเอาต์พุตที่เป็นอันตราย (ตามที่กำหนดไว้ในแนวทางการใช้งาน⁠(เปิดในหน้าต่างใหม่)ของเรา) โดยฝึกสอนโมเดลให้ปฏิเสธคำขอสำหรับเนื้อหาดังกล่าว รางวัลดังกล่าวได้รับจากตัวจำแนก GPT‑4 แบบ zero-shot ที่จะตัดสินขอบเขตความปลอดภัยและรูปแบบการดำเนินการให้เสร็จสมบูรณ์ตามคำสั่งที่เกี่ยวข้องกับความปลอดภัย เพื่อป้องกันไม่ให้โมเดลปฏิเสธคำขอที่ถูกต้อง เราจึงรวบรวมชุดข้อมูลที่หลากหลายจากแหล่งต่างๆ (เช่น ข้อมูลการผลิตที่มีป้ายกำกับ การทดสอบแบบ human red-teaming คำสั่งที่สร้างโดยโมเดล) และใช้สัญญาณรางวัลความปลอดภัย (ที่มีค่าบวกหรือลบ) กับทั้งหมวดหมู่ที่อนุญาตและไม่อนุญาต

การบรรเทาผลกระทบของเราช่วยปรับปรุงคุณสมบัติความปลอดภัยของ GPT‑4 อย่างมีนัยสำคัญเมื่อเทียบกับ GPT‑3.5 เราได้ลดแนวโน้มของโมเดลในการตอบสนองต่อคำขอเนื้อหาที่ไม่อนุญาตลง 82% เมื่อเทียบกับ GPT‑3.5 และ GPT‑4 ตอบสนองต่อคำขอที่ละเอียดอ่อน (เช่น คำแนะนำทางการแพทย์และการทำร้ายตัวเอง) ตามนโยบายของเราได้บ่อยขึ้น 29%

กำลังโหลด...

โดยรวมแล้ว การแทรกแซงในระดับโมเดลของเราเพิ่มความยากในการกระตุ้นพฤติกรรมที่แย่ แต่การทำเช่นนั้นก็ยังคงเป็นไปได้ นอกจากนี้ ยังมี “เจลเบรก” ที่ใช้ในการสร้างเนื้อหาที่ละเมิดแนวทางการใช้งาน⁠ของเรา เมื่อ "ความเสี่ยงต่อ token" ของระบบ AI เพิ่มขึ้น การบรรลุระดับความน่าเชื่อถือที่สูงมากในการแทรกแซงเหล่านี้จะกลายเป็นสิ่งสำคัญ ในขณะนี้สิ่งสำคัญคือต้องเสริมข้อจำกัดเหล่านี้ด้วยเทคนิคความปลอดภัยในช่วงการปรับใช้ เช่น การตรวจสอบการใช้งานในทางที่ผิด

GPT‑4 และโมเดลรุ่นต่อไปมีศักยภาพที่จะส่งผลกระทบต่อสังคมอย่างมีนัยสำคัญทั้งในทางที่เป็นประโยชน์และในทางที่เป็นอันตราย เรากำลังร่วมมือกับนักวิจัยภายนอกเพื่อปรับปรุงวิธีการทำความเข้าใจและประเมินผลกระทบที่อาจเกิดขึ้น รวมถึงสร้างการประเมินความสามารถที่เป็นอันตรายซึ่งอาจเกิดขึ้นในระบบในอนาคต ในไม่ช้านี้เราจะมาแบ่งปันความคิดเห็นเพิ่มเติมเกี่ยวกับผลกระทบทางสังคมและเศรษฐกิจที่อาจเกิดขึ้นจาก GPT‑4 และระบบ AI อื่นๆ

กระบวนการฝึกอบรม

เช่นเดียวกับโมเดล GPT รุ่นก่อนๆ โมเดลพื้นฐาน GPT‑4 ได้รับการฝึกให้คาดการณ์คำถัดไปในเอกสาร และได้รับการฝึกโดยโดยใช้ข้อมูลที่เปิดเผยต่อสาธารณะ (เช่น ข้อมูลอินเทอร์เน็ต) เช่นเดียวกับข้อมูลที่เราได้รับอนุญาต ข้อมูลนี้เป็นคอร์พัสข้อมูลระดับเว็บที่รวมถึงคำตอบที่ถูกต้องและไม่ถูกต้องของปัญหาคณิตศาสตร์ การให้เหตุผลได้แย่และดีเยี่ยม ข้อความที่ขัดแย้งในตัวเองและสอดคล้องกัน และการแสดงถึงอุดมการณ์และแนวคิดที่หลากหลาย

ดังนั้นเมื่อได้รับคำสั่งพร้อมคำถาม โมเดลพื้นฐานจะสามารถตอบสนองได้หลากหลายวิธีซึ่งอาจแตกต่างจากเจตนาของผู้ใช้ เพื่อให้สอดคล้องกับเจตนาของผู้ใช้ภายในขอบเขตที่กำหนด เราปรับพฤติกรรมของโมเดลโดยละเอียดโดยใช้การเรียนรู้แบบเสริมแรงพร้อมข้อเสนอแนะจากมนุษย์ (RLHF)⁠

โปรดทราบว่าความสามารถของโมเดลดูเหมือนจะมาจากกระบวนการการฝึกสอนล่วงหน้าเป็นหลัก โดยที่ RLHF ไม่ได้ช่วยปรับปรุงประสิทธิภาพในการสอบ (หากไม่ได้ใช้ความพยายามอย่างจริงจัง ประสิทธิภาพจะลดลง) แต่การควบคุมทิศทางของโมเดลมาจากกระบวนการหลังการฝึกสอน โมเดลพื้นฐานจำเป็นต้องมีวิศวกรรมคำสั่งเพื่อให้ทราบว่าควรตอบคำถาม

การปรับขนาดที่คาดการณ์ได้

จุดสนใจหลักของโครงการ GPT‑4 คือการสร้างชุดดีปเลิร์นนิงที่สามารถคาดการณ์การปรับขนาดได้ เหตุผลหลักคือ สำหรับการฝึกสอนขนาดใหญ่มาก เช่น GPT‑4 นั้น ไม่สามารถปรับแต่งเฉพาะสำหรับโมเดลได้อย่างกว้างขวาง เราได้พัฒนาโครงสร้างพื้นฐานและการเพิ่มประสิทธิภาพซึ่งมีพฤติกรรมที่สามารถคาดเดาได้ในหลายระดับ เพื่อตรวจสอบความสามารถในการปรับขนาดนี้ เราได้คาดการณ์ล่วงหน้าถึงการสูญเสียขั้นสุดท้ายของ GPT‑4 บนโค้ดเบสภายในของเรา (ซึ่งไม่ใช่ส่วนหนึ่งของชุดการฝึกสอน) ได้อย่างแม่นยำ โดยการประมาณค่าจากโมเดลที่ฝึกโดยใช้ระเบียบวิธีเดียวกันแต่ใช้การประมวลผลน้อยกว่า 10,000 เท่า:

กำลังโหลด...

ขณะนี้เราสามารถคาดการณ์ตัวชี้วัดที่เราจะปรับให้เหมาะสมระหว่างการฝึกสอน (การสูญเสีย) ได้อย่างแม่นยำแล้ว เราจะเริ่มพัฒนาระเบียบวิธีเพื่อคาดการณ์ตัวชี้วัดที่สามารถตีความได้มากขึ้น ตัวอย่างเช่น เราทำนายอัตราการผ่านในชุดย่อยของชุดข้อมูล HumanEval⁠(เปิดในหน้าต่างใหม่) ได้สำเร็จ โดยประมาณค่าจากโมเดลที่ใช้การประมวลผลน้อยกว่า 1,000 เท่า:

กำลังโหลด...

ความสามารถบางอย่างยังคงยากที่จะคาดการณ์ ตัวอย่างเช่น รางวัล Inverse Scaling Prize เป็นการแข่งขันเพื่อค้นหาตัวชี้วัดที่แย่ลงเมื่อการประมวลผลโมเดลเพิ่มขึ้น และการละเลยการมองย้อนหลัง⁠(เปิดในหน้าต่างใหม่)เป็นหนึ่งในผู้ชนะ เช่นเดียวกับผลลัพธ์⁠(เปิดในหน้าต่างใหม่)ล่าสุดอีกประการหนึ่ง GPT‑4 ได้เปลี่ยนแปลงแนวโน้มดังกล่าว:

กำลังโหลด...

เราเชื่อว่าการคาดการณ์ความสามารถในการเรียนรู้ของเครื่องจักรในอนาคตได้อย่างแม่นยำเป็นส่วนสำคัญของความปลอดภัยที่ไม่ได้รับความสนใจเพียงพอเมื่อเทียบกับผลกระทบที่อาจเกิดขึ้น (แม้ว่าเราจะได้รับการส่งเสริมจากความพยายามต่างๆ ทั่วทั้งสถาบันก็ตาม) เรากำลังเพิ่มระดับความพยายามของเราในการพัฒนาวิธีการที่ให้คำแนะนำที่ดีขึ้นแก่สังคมเกี่ยวกับสิ่งที่คาดหวังจากระบบในอนาคต และเราหวังว่าสิ่งนี้จะกลายเป็นเป้าหมายร่วมกันในสาขานี้

OpenAI Evals

เราจะเปิดซอร์ส OpenAI Evals⁠(เปิดในหน้าต่างใหม่) ซึ่งเป็นกรอบงานซอฟต์แวร์ของเราสำหรับสร้างและรันเกณฑ์มาตรฐานเพื่อการประเมินโมเดล เช่น GPT‑4 ไปพร้อมกับตรวจสอบประสิทธิภาพทีละตัวอย่าง เราใช้ Evals เพื่อเป็นแนวทางในการพัฒนาโมเดลของเรา (ทั้งการระบุข้อบกพร่องและการป้องกันการถดถอย) และผู้ใช้จะสามารถนำไปใช้เพื่อติดตามประสิทธิภาพในเวอร์ชันต่างๆ ของโมเดล (ซึ่งขณะนี้จะออกมาเป็นประจำแล้ว) และเพื่อพัฒนาการบูรณาการผลิตภัณฑ์ ตัวอย่างเช่น Stripe ได้ใช้ Evals เพื่อเสริมการประเมินโดยมนุษย์เพื่อวัดความแม่นยำของเครื่องมือจัดทำเอกสารที่ขับเคลื่อนด้วย GPT

เนื่องจากโค้ดทั้งหมดเป็นแบบโอเพ่นซอร์ส Evals จึงสนับสนุนการเขียนคลาสใหม่เพื่อใช้งานตรรกะการประเมินแบบกำหนดเอง⁠(เปิดในหน้าต่างใหม่) อย่างไรก็ตาม จากประสบการณ์ของเราเอง เกณฑ์มาตรฐานหลายๆ รายการปฏิบัติตาม "เทมเพลต" ใดเทมเพลตหนึ่งจากไม่กี่เทมเพลต ดังนั้น เราจึงได้รวมเทมเพลต⁠(เปิดในหน้าต่างใหม่)ที่มีประโยชน์ภายในมากที่สุดไว้ด้วย (รวมถึงเทมเพลตสำหรับ "การประเมินระดับโมเดล" เราพบว่า GPT‑4 มีความสามารถในการตรวจสอบงานของตัวเองได้อย่างน่าประหลาดใจ) โดยทั่วไปวิธีที่มีประสิทธิผลที่สุดในการสร้างการประเมินใหม่⁠(เปิดในหน้าต่างใหม่)คือการสร้างตัวอย่างเทมเพลตหนึ่งในบรรดาเทมเพลตเหล่านี้ไปพร้อมกับการให้ข้อมูล เรารู้สึกตื่นเต้นที่จะได้เห็นว่าผู้อื่นสามารถสร้างอะไรได้บ้างด้วยเทมเพลตเหล่านี้และด้วย Evals โดยทั่วไป

เราหวังว่า Evals จะกลายเป็นเครื่องมือในการแบ่งปันและระดมเกณฑ์มาตรฐาน ซึ่งแสดงถึงชุดที่กว้างที่สุดสำหรับโหมดความล้มเหลวและงานที่ยากลำบาก เพื่อเป็นตัวอย่างให้ทำตาม เราได้สร้างการประเมินปริศนาตรรกะ⁠(เปิดในหน้าต่างใหม่) ซึ่งประกอบด้วยคำสั่ง 10 ข้อที่ GPT‑4 ล้มเหลว Evals ยังสามารถใช้งานร่วมกับการนำเกณฑ์มาตรฐานที่มีอยู่มาใช้ได้ เราได้รวม สมุดบันทึก⁠(เปิดในหน้าต่างใหม่)หลายเล่มที่ใช้เกณฑ์มาตรฐานทางวิชาการและการผสมผสานรูปแบบสองสามรูปแบบ (ชุดย่อยเล็กๆ ของ) CoQA⁠(เปิดในหน้าต่างใหม่) ไว้เป็นตัวอย่าง

เราขอเชิญชวนทุกคนให้ใช้ Evals เพื่อทดสอบโมเดลของเราและส่งตัวอย่างที่น่าสนใจที่สุด เราเชื่อว่า Evals จะเป็นส่วนสำคัญของกระบวนการการใช้งานและการสร้างสรรค์บนโมเดลของเรา และเรายินดีรับการมีส่วนร่วม คำถาม และข้อเสนอแนะโดยตรง⁠(เปิดในหน้าต่างใหม่)

ChatGPT Plus

สมาชิก ChatGPT Plus จะได้รับสิทธิ์การเข้าถึง GPT‑4 บน chatgpt.com⁠(เปิดในหน้าต่างใหม่) โดยมีการจำกัดการใช้งานสูงสุด เราจะปรับการใช้งานสูงสุดที่แน่นอนตามความต้องการและประสิทธิภาพของระบบในทางปฏิบัติ แต่เราคาดว่าจะมีข้อจำกัดด้านปริมาณอย่างเคร่งครัด (แม้ว่าเราจะขยายขนาดและเพิ่มประสิทธิภาพในช่วงหลายเดือนข้างหน้า)

เราอาจแนะนำระดับบริการสมาชิกใหม่สำหรับการใช้งาน GPT‑4 ในปริมาณที่มากขึ้น โดยขึ้นอยู่กับรูปแบบปริมาณการใช้งานที่เราเห็น นอกจากนี้ เรายังหวังว่าสักวันจะสามารถเสนอปริมาณการสอบถามบางส่วนกับ GPT‑4 ได้ฟรีเพื่อให้ผู้ที่ไม่ได้สมัครสมาชิกสามารถทดลองใช้ได้เช่นกัน

API

เพื่อเข้าถึง GPT‑4 API (ซึ่งใช้ ChatCompletions API⁠(เปิดในหน้าต่างใหม่) เดียวกันกับ gpt-3.5-turbo) กรุณาลงชื่อในรายชื่อรอของเรา⁠ เราจะเริ่มเชิญนักพัฒนาบางส่วนในวันนี้ และค่อยๆ ขยายตัวเพื่อปรับสมดุลระหว่างความจุและความต้องการ หากเป็นนักวิจัยที่ศึกษาผลกระทบที่ AI มีต่อสังคมหรือปัญหาความสอดคล้องของ AI คุณยังสามารถสมัครขอรับสิทธิ์การเข้าถึงแบบอุดหนุนได้ผ่านโปรแกรมส่งเสริมการเข้าถึงสำหรับนักวิจัย⁠ของเรา

เมื่อคุณสามารถเข้าถึงได้แล้ว คุณสามารถส่งคำขอเฉพาะที่เป็นข้อความไปยังโมเดล GPT‑4 ได้ (อินพุตภาพยังอยู่ในระยะอัลฟาแบบจำกัด) ซึ่งเราจะอัปเดตเป็นโมเดลเสถียรที่เราแนะนำโดยอัตโนมัติในขณะที่เราสร้างเวอร์ชันใหม่ขึ้นเรื่อยๆ (คุณสามารถปักหมุดเวอร์ชันปัจจุบันได้โดยเรียกใช้ GPT‑4‑0314 ซึ่งเราจะสนับสนุนจนถึงวันที่ 14 มิถุนายน) ราคาอยู่ที่ 0.03 ดอลลาร์ต่อ 1,000 โทเค็น คำสั่ง และ 0.06 ดอลลาร์ต่อ 1,000 โทเค็น ที่เสร็จสมบูรณ์ ลิมิตการใช้งานค่าเริ่มต้นคือ 40,000 โทเค็น ต่อนาที และ 200 คำขอต่อนาที

GPT‑4 มีความยาวบริบท 8,192 token นอกจากนี้ เรายังให้สิทธิ์การเข้าถึงแบบจำกัดสำหรับเวอร์ชัน บริบท 32,768 (ข้อความประมาณ 50 หน้า) ซึ่งเป็น GPT‑4‑32k ที่จะได้รับการอัปเดตโดยอัตโนมัติเมื่อเวลาผ่านไป (เวอร์ชันปัจจุบัน GPT‑4‑32k‑0314 ที่เรารองรับจนถึงวันที่ 14 มิถุนายน) ราคาอยู่ที่ 0.06 ดอลลาร์ต่อ 1,000 token คำสั่ง และ 0.12 ดอลลาร์ต่อ 1,000 token ที่เสร็จสมบูรณ์ เรายังคงปรับปรุงคุณภาพของโมเดลสำหรับบริบทที่ยาว และยินดีรับข้อเสนอแนะเกี่ยวกับประสิทธิภาพของโมเดลสำหรับกรณีการใช้งานของคุณ เรากำลังดำเนินการตามคำขอสำหรับเครื่องยนต์ 8K และ 32K ในอัตราที่แตกต่างกัน ซึ่งขึ้นอยู่กับความจุ ดังนั้นคุณอาจได้รับการเข้าถึงในเวลาที่ต่างกัน

บทสรุป

เราหวังว่า GPT‑4 จะกลายเป็นเครื่องมืออันทรงคุณค่าในการปรับปรุงชีวิตของผู้คนโดยการขับเคลื่อนแอปพลิเคชันต่างๆ มากมาย ยังคงมีงานที่ต้องทำอีกมาก และเราหวังว่าจะปรับปรุงโมเดลนี้ผ่านความพยายามร่วมกันของชุมชนที่สร้างขึ้น สำรวจ และมีส่วนร่วมกับโมเดลนี้

สำหรับข้อมูลเพิ่มเติม: อ่านเอกสาร⁠(เปิดในหน้าต่างใหม่) / ดูการ์ดระบบ⁠(เปิดในหน้าต่างใหม่) / ลองใช้ ChatGPT Plus⁠(เปิดในหน้าต่างใหม่) / ลองใช้ใน Playground⁠(เปิดในหน้าต่างใหม่) / ชมการสาธิตสดอีกครั้ง⁠(เปิดในหน้าต่างใหม่) / มีส่วนร่วมใน OpenAI Evals⁠(เปิดในหน้าต่างใหม่)

ภาคผนวก

ตัวอย่างคำถาม MMLU ที่ได้รับการแปลเป็นภาษาอื่นๆ หมายเหตุ เราใช้ token ตัวเลือกที่สอดคล้องกัน (A–D):

กำลังโหลด...

เชิงอรรถ

A
เราประเมินเกณฑ์มาตรฐานนี้โดยใช้การสั่งงานแบบ Chain-Of-Thought (คิดเป็นลำดับขั้นตอน) พร้อมด้วยตัวอย่าง 4 ชิ้นจากชุดการฝึกในบริบท คำสั่งที่เฉพาะเจาะจงได้รับการปรับแต่งบนชุดการตรวจสอบ

เอกสารอ้างอิง

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext) สามารถดูการวิเคราะห์เพิ่มเติมได้ในเอกสาร⁠(เปิดในหน้าต่างใหม่)