อัปเดตเมื่อ 30 เมษายน 2568

ChatGPT และโมเดลพื้นฐานของเรามีการพัฒนาอย่างไร

เรียนรู้เพิ่มเติมเกี่ยวกับแนวทางที่เราใช้พัฒนาและปรับใช้โมเดลเหล่านี้กับผลิตภัณฑ์อย่าง ChatGPT

โมเดลพื้นฐานของ OpenAI รวมทั้งโมเดลที่ใช้ขับเคลื่อน ChatGPT พัฒนาขึ้นโดยใช้แหล่งข้อมูลที่สำคัญสามแหล่ง ได้แก่ (1) ข้อมูลที่เป็นสาธารณะที่มีการเผยแพร่ทางอินเทอร์เน็ต (2) ข้อมูลที่เราได้รับอนุญาตให้เข้าถึงจากความร่วมมือกับบุคคลที่สาม และ (3) ข้อมูลที่ผู้ใช้หรือผู้ฝึกสอนที่เป็นมนุษย์และที่นักวิจัยของเราให้หรือสร้างไว้

บทความนี้กล่าวถึงภาพรวมเกี่ยวกับข้อมูลที่เป็นสาธารณะที่เรานำมาใช้ช่วยพัฒนาโมเดลเหล่านี้ และแนวทางการจัดเก็บและใช้งานข้อมูลดังกล่าวซึ่งเป็นไปตามกฎหมายความเป็นส่วนตัว เพื่อให้เข้าใจแนวทางที่เราจัดเก็บและใช้ข้อมูลจากผู้ใช้บริการของเรา รวมถึงวิธีการเลือกไม่ใช้ข้อมูลการสนทนากับ ChatGPT เพื่อใช้ช่วยฝึกสอนโมเดลของเรา โปรดอ่านนโยบายความเป็นส่วนตัว⁠ของเราและ บทความนี้

ChatGPT คืออะไรและทำงานอย่างไร

ChatGPT เป็นบริการผ่านปัญญาประดิษฐ์ที่คุณสามารถใช้งานได้ผ่านทางอินเทอร์เน็ต คุณสามารถใช้ ChatGPT ได้กับงานหลากหลายประเภท เช่น ใช้เพื่อจัดระเบียบหรือสรุปข้อมูล ช่วยแปล วิเคราะห์หรือสร้างภาพ ให้แรงบันดาลใจในการสร้างสรรค์และจุดประกายความคิด รวมทั้งช่วยงานประจำวันต่างๆ ChatGPT ถูกพัฒนาเพื่อให้เข้าใจและสามารถตอบคำถามและปฏิบัติตามคำสั่งต่างๆ ของผู้ใช้งาน ซึ่งทำได้ด้วยการพิจารณาทบทวนข้อมูลขนาดใหญ่ที่มีอยู่ เช่น ข้อความ ภาพ เสียง หรือวิดีโอ แล้วเรียนรู้ผ่านความสัมพันธ์ต่างๆ ของข้อมูล ยกตัวอย่างเช่น โมเดลจะเรียนรู้ว่าคำแต่ละคำปรากฎอยู่ร่วมกับคำอื่นๆ อย่างไร แล้วนำสิ่งที่ได้เรียนรู้มาใช้พยากรณ์คำต่อไปที่น่าจะปรากฎขึ้นเพื่อตอบสนองคำขอของผู้ใช้ และคำอื่นต่อๆ ไป โมเดลเหล่านี้ยังสามารถเรียนรู้ที่จะสร้างข้อมูลรูปแบบอื่นๆ เช่น ภาพ โดยเรียนรู้จากข้อมูลที่ใช้ฝึกสอนว่าพิกเซลที่ประกอบขึ้นเป็นภาพสัมพันธ์กันอย่างไรรวมทั้งสัมพันธ์กับคำบรรยายกำกับภาพอย่างไร

เช่น ในกระบวนการเรียนรู้ของโมเดล (ซึ่งเรียกว่า "การฝึกสอน") เราอาจให้โมเดลพยายามเติมประโยคให้สมบูรณ์ เช่น "แทนที่จะเลี้ยวซ้าย เธอเลี้ยว____" ก่อนการฝึกสอน โมเดลจะตอบคำถามโดยใช้คำแบบสุ่ม แต่เมื่อได้อ่านและเรียนรู้จากข้อความหลายๆ บรรทัด โมเดลก็จะเข้าใจประโยคในรูปแบบนี้มากขึ้นและสามารถคาดการณ์คำถัดไปได้แม่นยำยิ่งขึ้น จากนั้นกระบวนการนี้จะเกิดซ้ำไปเรื่อยๆ ครอบคลุมประโยคจำนวนมาก

เนื่องจากมีหลายคำที่อาจจะปรากฎขึ้นท้ายประโยคนี้ได้ (เช่น แทนที่จะเลี้ยวซ้าย เธอเลี้ยว "ขวา" "หมุนตัวกลับ" หรือ "กลับหลังหัน") จะเห็นได้ว่าคำตอบของโมเดลมีองค์ประกอบของการสุ่ม ซึ่งในหลายกรณีโมเดลจะตอบคำถามเดียวกันในหลากหลายแบบ

โมเดลการเรียนรู้ของเครื่อง (machine learning) ประกอบไปด้วยชุดตัวเลขจำนวนมาก เรียกว่า "น้ำหนัก" หรือ "พารามิเตอร์" และโค้ดที่ใช้แปลความและกระทำการกับตัวเลขเหล่านี้ โมเดลจะไม่มีหรือจัดเก็บสำเนาข้อมูลที่ใช้ในการเรียนรู้ ในทางตรงกันข้าม เมื่อโมเดลเรียนรู้มากขึ้น ตัวเลขของสิ่งที่ช่วยสร้างโมเดลขึ้นจะมีการเปลี่ยนแปลงเล็กน้อยเพื่อให้สอดคล้องกับสิ่งที่ได้เรียนรู้ จากตัวอย่างข้างต้น โมเดลได้พิจารณาทบทวนข้อมูลที่ช่วยปรับปรุงโมเดลจากการคาดการณ์คำที่ไม่ถูกต้องโดยการสุ่มให้กลายเป็นการคาดการณ์ที่แม่นยำมากขึ้น แต่ที่จริงแล้วสิ่งที่เกิดขึ้นภายในตัวโมเดลก็คือตัวเลขต่างๆ ที่เปลี่ยนแปลงไปเล็กน้อย โมเดลไม่ได้จัดเก็บหรือคัดลอกประโยค ภาพ หรือเสียงที่ใช้พิจารณาทบทวน

ข้อมูลประเภทใดที่ใช้เพื่อฝึกสอน ChatGPT

ดังที่กล่าวไว้ข้างต้น ChatGPT และบริการอื่นๆ ของเราพัฒนาขึ้นโดยใช้ (1) ข้อมูลที่เป็นสาธารณะที่มีการเผยแพร่ทางอินเทอร์เน็ต (2) ข้อมูลที่เราได้รับอนุญาตให้เข้าถึงจากความร่วมมือกับบุคคลที่สาม และ (3) ข้อมูลที่ผู้ใช้หรือผู้ฝึกสอนที่เป็นมนุษย์และที่นักวิจัยของเราให้หรือสร้างไว้ บทความนี้เน้นไปที่ข้อมูลชุดแรกนั่นคือข้อมูลที่เป็นสาธารณะที่มีการเผยแพร่ทางอินเทอร์เน็ต

สำหรับข้อมูลชุดนี้ เราใช้เฉพาะข้อมูลที่เป็นสาธารณะที่่เปิดเผยทางอินเทอร์เน็ตแบบไม่มีค่าใช้จ่ายเท่านั้น เช่น เราจะไม่มีการหาข้อมูลจากแหล่งที่เราทราบว่ามีค่าใช้จ่ายหรือจากเว็บมืด เรามีการใช้ตัวกรองและลบข้อมูลที่เราไม่ต้องการให้โมเดลของเราใช้เรียนรู้หรือสร้างผลลัพธ์ เช่น ข้อความที่แสดงความเกลียดชัง เนื้อหาสำหรับผู้ใหญ่ เว็บไซต์ที่รวบรวมข้อมูลส่วนบุคคลเป็นหลัก และสแปม จากนั้นจึงนำข้อมูลที่ได้ไปใช้ฝึกสอนโมเดลของเรา

มีการใช้ข้อมูลส่วนบุคคลเพื่อฝึกสอน ChatGPT หรือไม่

ข้อมูลจำนวนมากบนอินเทอร์เน็ตมีความเชื่อมโยงกับผู้คน ดังนั้นข้อมูลที่ใช้ฝึกสอนของเราจึงอาจมีข้อมูลส่วนบุคคลรวมอยู่ด้วย เราไม่มีการแสวงหาข้อมูลส่วนบุคคลเพื่อใช้ในการฝึกสอนโมเดลของเรา

เราใช้ข้อมูลที่ใช้ฝึกสอนเพื่อเสริมสร้างความฉลาดของโมเดลเท่านั้น เช่น ความสามารถในการคาดการณ์ ให้เหตุผล และแก้ปัญหา เราไม่เคยใช้และจะไม่มีการใช้ข้อมูลส่วนบุคคลใด ๆ ในข้อมูลที่ใช้ฝึกสอนเพื่อจัดทำเป็นโปรไฟล์บุคคล เพื่อติดต่อบุคคลเหล่านี้ เพื่อโฆษณากับบุคคลเหล่านี้ เพื่อเสนอขายสินค้ากับบุคคลเหล่านี้ หรือเพื่อขายข้อมูลดังกล่าว

โมเดลของเราอาจเรียนรู้จากข้อมูลส่วนบุคคลเพื่อทำความเข้าใจการวางองค์ประกอบต่างๆ เช่น ชื่อและที่อยู่ ในภาษาและโครงสร้างประโยค หรือเพื่อเรียนรู้เกี่ยวกับบุคคลที่มีชื่อเสียงและบุคคลสาธารณะต่างๆ ซึ่งทำให้โมเดลของเราสามารถตอบสนองได้อย่างเหมาะสมมากยิ่งขึ้น

นอกจากนี้เรายังกำหนดขั้นตอนเพื่อลดการดำเนินการที่เกี่ยวกับข้อมูลส่วนบุคคลในขณะฝึกสอนโมเดลของเรา เช่น เรามีการนำเว็บไซต์ที่มีการรวบรวมข้อมูลส่วนบุคคลเป็นจำนวนมากออกไป และฝึกสอนโมเดลของเราให้ปฏิเสธการร้องขอข้อมูลส่วนตัวหรือข้อมูลที่อ่อนไหวเกี่ยวกับบุคคลต่างๆ

การพัฒนา ChatGPT ได้ปฏิบัติตามกฎหมายความเป็นส่วนตัวอย่างไรบ้าง

เราใช้ข้อมูลที่ใช้ฝึกสอนอย่างถูกต้องตามกฎหมาย โมเดลพื้นฐานของเรามีแอพพลิเคชันมากมายที่เป็นประโยชน์อย่างยิ่งและช่วยให้ผู้คนสามารถสร้างสรรค์เนื้อหา ปรับปรุงการให้บริการลูกค้า พัฒนาซอฟต์แวร์ ปรับแผนการเรียนรู้ สนับสนุนการวิจัยทางวิทยาศาสตร์ และการใช้งานอื่นๆ อีกมากมาย สิ่งที่ได้รับเหล่านี้จะไม่สามารถเกิดขึ้นได้หากปราศจากข้อมูลเป็นจำนวนมากในการฝึกสอนโมเดล นอกจากนี้ การใช้ข้อมูลที่ใช้ฝึกสอนของเราไม่มีเจตนาเพื่อสร้างผลกระทบด้านลบต่อบุคคลใดๆ และแหล่งข้อมูลหลักที่ใช้ฝึกสอนล้วนแต่เป็นข้อมูลที่เป็นสาธารณะ ด้วยเหตุนี้ เราจึงเก็บรวบรวมและใช้ข้อมูลส่วนบุคคลที่รวมอยู่ในข้อมูลที่ใช้ฝึกสอนโดยใช้ฐานประโยชน์อันชอบธรรมภายใต้กฎหมายความเป็นส่วนตัว เช่น GDPR ดังที่อธิบายโดยละเอียดไว้ใน นโยบายความเป็นส่วนตัว⁠ นอกจากนี้เรายังมีการประเมินผลกระทบด้านการปกป้องข้อมูลเพื่อช่วยให้มั่นใจว่ามีการจัดเก็บและใช้ข้อมูลนี้ตามกฎหมายและด้วยความรับผิดชอบ

เราตอบสนองต่อคำร้องขอคัดค้านและการใช้สิทธิ์ต่างๆ ในลักษณะเดียวกัน การเรียนรู้ภาษาของ ChatGPT ทำให้การตอบสนองในบางครั้งอาจมีข้อมูลส่วนบุคคลของผู้ที่มีข้อมูลส่วนบุคคลที่ได้รับการเผยแพร่ต่อสาธารณะทางอินเทอร์เน็ต (เช่น บุคคลสาธารณะ) บุคคลที่อยู่ภายใต้เขตอำนาจศาลของแต่ละพื้นที่สามารถคัดค้านการดำเนินการกับข้อมูลส่วนบุคคลของตนโดยโมเดลของเรา หรือยื่นคำขอใช้สิทธิ์ของเจ้าของข้อมูลส่วนบุคคลอื่นๆ ได้ผ่านทาง พอร์ทัลความเป็นส่วนตัว⁠(เปิดในหน้าต่างใหม่) ของเรา นอกจากนี้ คุณยังสามารถใช้สิทธิ์เหล่านี้โดยติดต่อไปที่ dsar@openai.com⁠

ภายใต้กฎหมายความเป็นส่วนตัว สิทธิ์บางประการอาจไม่ใช่สิทธิ์โดยเด็ดขาด เราอาจปฏิเสธคำขอหากมีเหตุผลที่ชอบโดยกฎหมายในการปฏิเสธดังกล่าว ทั้งนี้เราให้ความสำคัญกับการปกป้องข้อมูลและพร้อมปฏิบัติตามกฎหมายความเป็นส่วนตัวทั้งหมดที่เกี่ยวข้อง หากคุณรู้สึกว่ามีการจัดการปัญหาที่ไม่เพียงพอ คุณมีสิทธิ์ในการร้องเรียนกับหน่วยงานกำกับดูแลในพื้นที่

ตรวจสอบข้อมูลเพิ่มเติมเกี่ยวกับแนวปฏิบัติของ OpenAI ในส่วนที่เกี่ยวกับข้อมูลส่วนบุคคลที่เราจัดเก็บจากหรือที่เกี่ยวกับคุณขณะที่ใช้งานเว็บไซต์ แอปพลิเคชัน และบริการของเราได้จาก นโยบายความเป็นส่วนตัว⁠ของเรา