ข้ามไปยังเนื้อหาหลัก
OpenAI

ขอแนะนำ OpenAI Privacy Filter

โมเดลที่ล้ำสมัยของเราสำหรับการปกปิดข้อมูลระบุตัวตนส่วนบุคคลในข้อความ

กำลังโหลด…

วันนี้เราเปิดตัว OpenAI Privacy Filter แล้ว ซึ่งเป็นโมเดลแบบเปิดสาธารณะสำหรับตรวจจับและปกปิดข้อมูลที่สามารถระบุตัวบุคคลได้ในข้อความ การเปิดตัวครั้งนี้เป็นส่วนหนึ่งของความพยายามในภาพรวมของเราที่จะสนับสนุนระบบนิเวศซอฟต์แวร์ให้มีความยืดหยุ่นมากขึ้น โดยการมอบโครงสร้างพื้นฐานที่ใช้งานได้จริงให้แก่เหล่านักพัฒนา เพื่อให้พวกเขาสร้างผลงานด้วย AI ได้อย่างปลอดภัย ซึ่งรวมถึงเครื่องมือและโมเดลที่ช่วยให้การปกป้องความเป็นส่วนตัวและความปลอดภัยที่เข้มงวดนั้นทำได้ง่ายขึ้นตั้งแต่เริ่มต้น

Privacy Filter เป็นโมเดลขนาดเล็กที่มีความสามารถในการตรวจจับข้อมูลส่วนบุคคลระดับแนวหน้า ได้รับการออกแบบมาสำหรับเวิร์กโฟลว์ด้านความเป็นส่วนตัวที่มีอัตราการประมวลผลสูง และสามารถตรวจจับข้อมูลส่วนบุคคลในข้อความแบบไม่มีโครงสร้างได้อย่างแม่นยำตามบริบท ระบบนี้สามารถทำงานภายในเครื่องได้โดยตรง ซึ่งช่วยให้คุณปกปิดหรือลบข้อมูลส่วนบุคคลได้ทันทีโดยไม่ต้องส่งข้อมูลออกไปนอกเครื่องของคุณ ระบบสามารถประมวลผลอินพุตที่มีความยาวมากได้อย่างมีประสิทธิภาพ และตัดสินใจเกี่ยวกับการปกปิดข้อมูลได้อย่างรวดเร็วในการประมวลผลเพียงรอบเดียว

สำหรับที่ OpenAI เรานำ Privacy Filter รุ่นที่ปรับแต่งมาเป็นพิเศษมาใช้งานภายในเวิร์กโฟลว์ด้านการรักษาความปลอดภัยของข้อมูลส่วนบุคคล เราพัฒนา Privacy Filter ขึ้นมาเพราะเชื่อว่าความสามารถของ AI รุ่นล่าสุดจะช่วยให้เรายกระดับมาตรฐานความเป็นส่วนตัวให้สูงกว่าที่มีอยู่ในตลาดปัจจุบันได้ Privacy Filter เวอร์ชันที่เราเปิดตัวในวันนี้บรรลุประสิทธิภาพระดับแนวหน้าในการทดสอบ PII-Masking-300k เมื่อพิจารณาเปรียบเทียบกับการแก้ไขข้อผิดพลาดด้านการระบุข้อมูลที่เราพบในช่วงการทดสอบประสิทธิภาพ

การเปิดตัวครั้งนี้ช่วยให้นักพัฒนาสามารถรัน Privacy Filter ในสภาพแวดล้อมของตนเอง นำไปปรับแต่งให้เข้ากับกรณีการใช้งานเฉพาะด้าน และสร้างระบบปกป้องความเป็นส่วนตัวที่แข็งแกร่งยิ่งขึ้นในกระบวนการเทรนโมเดล การจัดทำดัชนี การบันทึกล็อก และขั้นตอนการตรวจสอบข้อมูล

โมเดลขนาดเล็กที่มีความสามารถระดับแนวหน้าในการตรวจจับข้อมูลส่วนบุคคล

การปกป้องความเป็นส่วนตัวในระบบ AI ยุคใหม่ไม่ได้ขึ้นอยู่กับการจับคู่รูปแบบข้อมูลเพียงอย่างเดียวอีกต่อไป เครื่องมือตรวจจับข้อมูลส่วนบุคคลแบบดั้งเดิมมักจะพึ่งพากฎเกณฑ์ที่กำหนดไว้ตายตัว สำหรับข้อมูลที่มีรูปแบบเฉพาะอย่างหมายเลขโทรศัพท์และอีเมล เครื่องมือเหล่านี้อาจใช้งานได้ดีในกรณีเฉพาะเจาะจง แต่บ่อยครั้งมักจะตรวจไม่พบข้อมูลส่วนตัวที่มีความซับซ้อนและมีปัญหาในการทำความเข้าใจบริบท

Privacy Filter มาพร้อมกับความสามารถในการวิเคราะห์ภาษาและบริบทที่ลึกซึ้งยิ่งขึ้น เพื่อมอบประสิทธิภาพการทำงานที่มีความละเอียดอ่อนและตรงจุดมากขึ้น การผสมผสานความเข้าใจภาษาที่ลึกซึ้งเข้ากับระบบระบุข้อมูลเฉพาะด้านความเป็นส่วนตัว ช่วยให้โมเดลสามารถตรวจจับข้อมูลส่วนบุคคลในข้อความที่ไม่มีโครงสร้างได้กว้างขวางยิ่งขึ้น แม้แต่ในกรณีที่ต้องอาศัยบริบทในการตัดสินใจอย่างถี่ถ้วน โมเดลมีความสามารถในการจำแนกได้แม่นยำยิ่งขึ้นว่า ข้อมูลใดเป็นข้อมูลสาธารณะที่ควรเก็บไว้ และข้อมูลใดที่เป็นเรื่องส่วนตัวซึ่งจำเป็นต้องเซ็นเซอร์หรือคัดกรองออก

สิ่งนี้ทำให้เราได้โมเดลที่มีศักยภาพแข็งแกร่ง จนสามารถยกระดับการคัดกรองความเป็นส่วนตัวให้ก้าวล้ำสู่ระดับมาตรฐานสูงสุดได้ ในขณะเดียวกันโมเดลนี้มีขนาดเล็กพอที่จะรันในเครื่องได้โดยตรง ซึ่งหมายความว่าข้อมูลที่ยังไม่ได้ผ่านการกรองจะยังคงอยู่ในอุปกรณ์ของคุณ ช่วยลดความเสี่ยงที่ข้อมูลจะรั่วไหล แทนที่จะต้องส่งไปยังเซิร์ฟเวอร์เพื่อทำการลบข้อมูลระบุตัวตน 

ภาพรวมของโมเดล

Privacy Filter เป็นโมเดลคัดแยกประเภทโทเค็นแบบสองทิศทางที่มาพร้อมกับระบบการถอดรหัสช่วงข้อมูล โมเดลนี้เริ่มจากจุดตรวจสอบที่ผ่านการฝึกเบื้องต้นแบบ Autoregressive แล้วถูกดัดแปลงให้เป็นโมเดลจำแนกโทเค็นตามระบบหมวดหมู่ของป้ายกำกับความเป็นส่วนตัวที่กำหนดไว้ชัดเจน แทนที่จะสร้างข้อความทีละโทเค็น โมเดลนี้จะติดป้ายกำกับลำดับข้อมูลนำเข้าทั้งหมดในรอบเดียว จากนั้นจึงถอดรหัสช่วงข้อมูลที่สอดคล้องกันด้วยกระบวนการ Viterbi แบบมีเงื่อนไข

สถาปัตยกรรมลักษณะนี้ช่วยให้ Privacy Filter มีคุณสมบัติที่เป็นประโยชน์หลายประการสำหรับการใช้งานจริง

  • รวดเร็วและมีประสิทธิภาพ: ระบบจะติดป้ายกำกับโทเค็นทั้งหมดในการประมวลผลไปข้างหน้า เพียงครั้งเดียว
  • เข้าใจบริบท: ความรู้พื้นฐานด้านภาษาช่วยให้ระบบตรวจจับช่วงข้อมูลส่วนบุคคลได้โดยพิจารณาจากบริบทที่อยู่รายรอบ
  • ประมวลผลบริบทได้ในปริมาณมาก: โมเดลที่เปิดตัวในครั้งนี้สามารถรองรับความยาวบริบทได้สูงสุดถึง 128,000 โทเค็น
  • ปรับแต่งได้: ระบบเปิดให้นักพัฒนาปรับแต่งค่าการทำงานเพื่อหาจุดลงตัวระหว่างความครอบคลุม และความแม่นยำ ตามโจทย์การใช้งานที่แตกต่างกัน

โมเดลรุ่นที่ปล่อยออกมานี้มีพารามิเตอร์รวมทั้งสิ้น 1.5 พันล้านพารามิเตอร์ โดยมีพารามิเตอร์ที่ทำงานจริงอยู่ที่ 50 ล้านพารามิเตอร์

Privacy Filter ทำนายช่วงข้อมูลโดยแบ่งออกเป็น 8 ประเภทดังนี้

  • private_person (ชื่อบุคคล)
  • private_address (ที่อยู่ส่วนบุคคล)
  • private_email (อีเมลส่วนบุคคล)
  • private_phone (เบอร์โทรศัพท์ส่วนบุคคล)
  • private_url (ข้อมูล URL)
  • private_date (ข้อมูลวันที่)
  • account_number (หมายเลขบัญชึ)
  • secret (ข้อมูลความลับ)

ประเภทข้อมูล account_number มีส่วนช่วยในการพรางเลขบัญชีหลายรูปแบบ ทั้งข้อมูลธนาคาร เช่น เลขหน้าบัตรเครดิตและเลขบัญชีเงินฝาก ส่วนประเภท secret จะทำหน้าที่พรางข้อมูลอย่างรหัสผ่านและคีย์สำหรับการเชื่อมต่อ API

ป้ายกำกับเหล่านี้จะผ่านการถอดรหัสด้วยระบบ BIOES ซึ่งมีส่วนสำคัญที่ทำให้การตัดแบ่งขอบเขตเพื่อปกปิดข้อมูลได้อย่างแม่นยำและดูเป็นระเบียบมากกว่าเดิม

ตัวอย่างข้อความอินพุต

หัวข้อ: การติดตามผลการวางแผนไตรมาสที่ 2

สวัสดีครับคุณจอร์แดน

ขอบคุณมากที่สละเวลามาพูดคุยกันเมื่อช่วงเช้าวันนี้ ผมขอติดตามเรื่องกำหนดการที่ปรับเปลี่ยนใหม่ของไตรมาส 2 พร้อมขอยืนยันวันเปิดตัวผลิตภัณฑ์อย่างเป็นทางการในวันที่ 18 กันยายน พ.ศ. 2569 คุณสามารถดูไฟล์โครงการเพื่อใช้อ้างอิงได้จากหมายเลขบัญชี 4829-1037-5581 หากมีอะไรเปลี่ยนแปลงทางฝั่งคุณ สามารถตอบกลับที่อีเมล maya.chen@example.com ได้ตามสะดวก หรือโทรหาผมจากเบอร์ +1 (415) 555-0124

ด้วยความเคารพ

Maya Chen

ข้อความหลังจากปกปิดข้อมูลระบุตัวตน

หัวข้อ: การติดตามผลการวางแผนไตรมาสที่ 2

สวัสดีครับ [PRIVATE_PERSON]

ขอบคุณมากที่สละเวลามาพูดคุยกันเมื่อช่วงเช้าวันนี้ ผมขอติดตามเรื่องกำหนดการที่ปรับเปลี่ยนใหม่ของไตรมาส 2 พร้อมขอยืนยันวันเปิดตัวผลิตภัณฑ์อย่างเป็นทางการในวันที่[PRIVATE_DATE] คุณสามารถดูไฟล์โครงการเพื่อใช้อ้างอิงได้จากหมายเลขบัญชี[ACCOUNT_NUMBER] หากมีอะไรเปลี่ยนแปลงทางฝั่งคุณ สามารถตอบกลับที่อีเมล [PRIVATE_EMAIL] ได้ตามสะดวก หรือโทรหาผมจากเบอร์ [PRIVATE_PHONE]

ด้วยความเคารพ

[PRIVATE_PERSON]

เบื้องหลังการพัฒนา

เราพัฒนา Privacy Filter ผ่านขั้นตอนต่างๆ หลายระยะด้วยกัน

ในขั้นแรกเราสร้างระบบจัดหมวดหมู่ความเป็นส่วนตัวเพื่อกำหนดประเภทของช่วงข้อมูลที่โมเดลควรจะตรวจจับ ซึ่งรวมถึงข้อมูลระบุตัวตนส่วนบุคคล ข้อมูลติดต่อ ที่อยู่ วันที่ส่วนตัว หมายเลขบัญชีประเภทต่าง ๆ เช่น ข้อมูลบัตรเครดิตและข้อมูลธนาคาร และข้อมูลลับ เช่น คีย์ API และรหัสผ่าน

ในขั้นที่สองเราเปลี่ยนโมเดลภาษาที่ผ่านการฝึกล่วงหน้าให้เป็นตัวจำแนกประเภทโทเค็นแบบสองทิศทาง โดยการแทนที่ส่วนหัวของโมเดลภาษาด้วยส่วนหัวสำหรับจำแนกประเภทโทเค็น พร้อมทั้งฝึกฝนโมเดลต่อด้วยวิธีการเรียนรู้แบบมีผู้สอนเพื่อเน้นผลลัพธ์ด้านการจำแนกประเภทโดยเฉพาะ

ในขั้นตอนที่สามทีมงานใช้ข้อมูลจากแหล่งสาธารณะผสมกับข้อมูลที่สร้างขึ้นในการเทรนโมเดล เพื่อให้ระบบจดจำได้ทั้งข้อความรูปแบบทั่วไปและรูปแบบข้อมูลส่วนบุคคลที่มีความซับซ้อน สำหรับข้อมูลสาธารณะในส่วนที่การติดป้ายกำกับยังไม่สมบูรณ์ เราใช้การติดป้ายกำกับแบบใช้โมเดลช่วยร่วมกับการตรวจสอบโดยคนเพื่อเพิ่มความครอบคลุมของข้อมูล เรายังได้สร้างตัวอย่างข้อมูลสังเคราะห์ขึ้นมา เพื่อเพิ่มความหลากหลายทั้งในด้านรูปแบบ บริบท และประเภทของข้อมูลความเป็นส่วนตัว

เมื่อถึงขั้นตอนการประมวลผลจริง โมเดลจะเปลี่ยนการคาดการณ์ในระดับโทเค็นให้เป็นข้อมูลชุดที่ต่อเนื่องและสมเหตุสมผลโดยใช้การถอดรหัสลำดับแบบมีเงื่อนไข วิธีการดังกล่าวทำให้โมเดลยังคงความสามารถพื้นฐานในการเข้าใจภาษาที่ลึกซึ้ง พร้อมกับเพิ่มทักษะเฉพาะทางด้านการคัดกรองข้อมูลส่วนบุคคลได้อย่างมีประสิทธิภาพ

Privacy Filter ทำงานอย่างไร

เราประเมินประสิทธิภาพของ Privacy Filter ทั้งจากเกณฑ์มาตรฐานทั่วไป และจากการประเมินเพิ่มเติมด้วยข้อมูลสังเคราะห์และข้อมูลรูปแบบการแชต ซึ่งออกแบบมาเพื่อทดสอบกรณีที่ซับซ้อนและต้องอาศัยการตีความตามบริบทมากขึ้น

ในการประเมินด้วย PII-Masking-300k(เปิดในหน้าต่างใหม่) ซึ่งเป็นเกณฑ์มาตรฐาน Privacy Filter ทำคะแนน F1 ได้ 96% (โดยมีค่า Precisionอยู่ที่ 94.04% และ Recallอยู่ที่ 98.04%) เมื่อใช้เกณฑ์มาตรฐานเวอร์ชันแก้ไขซึ่งปรับปรุงตามปัญหาการทำ Annotation ที่พบในช่วงการตรวจทาน พบว่าค่า F1 score อยู่ที่ 97.43% (โดยมีค่า Precision 96.79% และ Recall 98.08%

เรายังพบว่าสามารถนำโมเดลนี้ไปปรับใช้ให้เหมาะกับงานได้อย่างมีประสิทธิภาพ การปรับแต่งด้วยข้อมูลเพียงเล็กน้อยก็ช่วยเพิ่มความแม่นยำในงานเฉพาะโดเมนได้อย่างรวดเร็ว โดยเพิ่มค่า F1 score จาก 54% เป็น 96% และเข้าใกล้จุดอิ่มตัวบนเกณฑ์มาตรฐานการปรับให้เข้ากับโดเมนที่เราประเมิน

นอกเหนือจากประสิทธิภาพตามเกณฑ์มาตรฐานแล้ว เรายังออกแบบ Privacy Filter มาเพื่อการกรองข้อมูลความเป็นส่วนตัวที่ใช้งานได้จริงในข้อความทั่วไปที่มีความซับซ้อนและไม่เป็นระเบียบ ซึ่งครอบคลุมไปถึงเอกสารที่มีความยาว การอ้างอิงที่คลุมเครือ ข้อความที่ผสมผสานหลายรูปแบบ และข้อมูลความลับที่เกี่ยวข้องกับซอฟต์แวร์ เอกสารกำกับโมเดล (เปิดในหน้าต่างใหม่)ยังรายงานผลการประเมินเฉพาะจุดด้านการตรวจจับความลับในชุดรหัสคำสั่ง รวมถึงการทดสอบความทนทาน ผ่านตัวอย่างที่หลากหลาย ทั้งในด้านภาษาที่หลากหลาย ด้านการโจมตีและข้อมูลที่ต้องอาศัยบริบทเป็นหลัก

ข้อจำกัด

Privacy Filter ไม่ใช่เครื่องมือสำหรับปกปิดตัวตน ไม่ใช่การรับรองการปฏิบัติตามกฎเกณฑ์ และไม่สามารถใช้แทนการตรวจสอบนโยบายในสถานการณ์ที่มีความเสี่ยงสูงได้ เครื่องมือนี้เป็นเพียงองค์ประกอบหนึ่งภายในระบบการออกแบบที่เน้นความเป็นส่วนตัวในภาพรวมที่กว้างกว่า

รูปแบบการประมวลผลของระบบเป็นไปตามโครงสร้างการจัดหมวดหมู่และเกณฑ์การตัดสินใจที่กำหนดไว้ในช่วงการเทรนโมเดล แต่ละองค์กรอาจต้องการนโยบายการตรวจจับหรือการปกปิดข้อมูลที่แตกต่างกัน ซึ่งนโยบายเหล่านั้นอาจจำเป็นต้องมีการประเมินผลเฉพาะทางตามประเภทธุรกิจหรือการปรับแต่งโมเดลเพิ่มเติม ผลลัพธ์การทำงานอาจมีความคลาดเคลื่อนได้เมื่อนำไปใช้กับภาษา อักขระ วิธีการเรียกชื่อ หรือสาขาวิชาที่อยู่นอกเหนือขอบเขตของข้อมูลที่โมเดลเคยเรียนรู้มา

เช่นเดียวกับโมเดลอื่นๆ Privacy Filter มีโอกาสเกิดข้อผิดพลาดได้เสมอ โมเดลอาจตรวจไม่พบข้อมูลระบุตัวตนที่พบได้ยากหรือการอ้างอิงถึงความเป็นส่วนตัวที่มีความคลุมเครือ และอาจปิดบังข้อมูลมากหรือน้อยเกินไปเมื่อมีบริบทจำกัด โดยเฉพาะในข้อความสั้นๆ สำหรับการใช้งานในโดเมนที่ต้องการความระมัดระวังเป็นพิเศษอย่างด้านกฎหมาย การแพทย์ และการเงิน การตรวจสอบโดยมนุษย์ รวมถึงการประเมินผลเฉพาะทางและการปรับจูนโมเดลยังคงมีความสำคัญอย่างยิ่ง

ความพร้อมในการใช้งาน

เรากำลังเปิดตัว OpenAI Privacy Filter เพื่อสนับสนุนการคุ้มครองความเป็นส่วนตัวที่เข้มแข็งยิ่งขึ้นทั่วทั้งระบบนิเวศ

โมเดลพร้อมให้ใช้งานแล้ววันนี้ภายใต้ใบอนุญาต Apache 2.0 บน Hugging Face(เปิดในหน้าต่างใหม่) และ Github(เปิดในหน้าต่างใหม่) โมเดลนี้รองรับทั้งการนำไปทดสอบวิจัย การปรับแต่งเฉพาะส่วน และการใช้งานจริงในภาคธุรกิจ อีกทั้งยังเปิดให้ปรับจูนเพิ่มเติมเพื่อให้เข้ากับลักษณะข้อมูลและข้อกำหนดด้านความเป็นส่วนตัวในแต่ละรูปแบบ

นอกจากตัวโมเดลแล้วเรายังเผยแพร่เอกสารประกอบที่ครอบคลุมถึงโครงสร้างสถาปัตยกรรมของโมเดล ระบบหมวดหมู่ป้ายกำกับ การควบคุมการถอดรหัส กรณีการใช้งานที่แนะนำ รายละเอียดการประเมินผล และข้อจำกัดที่ทราบ เพื่อให้ทีมงานต่างๆ เข้าใจทั้งจุดแข็งของโมเดลและจุดที่ควรใช้งานด้วยความระมัดระวัง

มองไปข้างหน้า

การคุ้มครองความเป็นส่วนตัวสำหรับระบบ AI เป็นความพยายามที่ดำเนินการอย่างต่อเนื่อง ทั้งในด้านการวิจัย การออกแบบผลิตภัณฑ์ การประเมินผล และการนำไปใช้งานจริง

Privacy Filter สะท้อนถึงทิศทางหนึ่งที่เราเชื่อว่าสำคัญ นั่นคือการสร้างโมเดลขนาดเล็กที่มีประสิทธิภาพสูงและมีขีดความสามารถระดับแนวหน้าในงานเฉพาะทางที่จำเป็นต่อระบบ AI ในโลกแห่งความเป็นจริง เราเปิดตัวเครื่องมือนี้เพราะเชื่อว่าโครงสร้างพื้นฐานด้านการคุ้มครองความเป็นส่วนตัวควรจะตรวจสอบ รันระบบ ปรับใช้ และพัฒนาต่อยอดได้ง่ายขึ้น

เป้าหมายของเราคือการให้โมเดลเรียนรู้เรื่องราวต่างๆ ของโลก มากกว่าจะไปจดจำข้อมูลส่วนตัวของปัจเจกบุคคล Privacy Filter คือส่วนสำคัญที่ช่วยให้เป้าหมายนั้นเกิดขึ้นได้จริง

เป้าหมายของการปล่อย Privacy Filter รุ่นทดสอบนี้คือการฟังความคิดเห็นจากกลุ่มนักวิจัยและผู้เชี่ยวชาญด้านความเป็นส่วนตัว และเพื่อนำไปพัฒนาประสิทธิภาพของโมเดลอย่างต่อเนื่องต่อไป