ข้ามไปยังเนื้อหาหลัก
OpenAI

ขอแนะนำ ChatGPT Agent: เชื่อมงานวิจัยกับการใช้งานจริง

ตอนนี้ ChatGPT สามารถคิดและลงมือทำเองได้ โดยเลือกใช้ทักษะจากเครื่องมือที่มีเพื่อทำงานให้คุณด้วยการใช้คอมพิวเตอร์ของตัวเอง

กำลังโหลด…

ตอนนี้ ChatGPT สามารถทำงานให้คุณได้ด้วยคอมพิวเตอร์ของตัวมันเอง สามารถจัดการงานซับซ้อนแทนคุณได้ตั้งแต่ต้นจนจบ

ตอนนี้คุณสามารถสั่งให้ ChatGPT จัดการคำขอต่างๆ ให้คุณได้แล้ว ไม่ว่าจะเป็นคำขอ เช่น "ดูปฏิทินของฉันแล้วสรุปการประชุมกับลูกค้าที่กำลังจะมาถึงโดยอ้างอิงข้อมูลจากข่าวสารล่าสุดให้หน่อย" "วางแผนและซื้อวัตถุดิบเพื่อทำอาหารเช้าสไตล์ญี่ปุ่นสำหรับสี่คน" และ "วิเคราะห์คู่แข่งสามรายและสร้างสไลด์ให้หน่อย" ChatGPT จะช่วยเข้าเว็บไซต์ให้ กรองข้อมูลให้ แจ้งให้คุณล็อกอินอย่างปลอดภัยหากจำเป็น รันโค้ด วิเคราะห์ข้อมูล และยังสมารถจัดทำสไลด์และสเปรดชีตที่สามารถแก้ไขได้เพื่อสรุปผลการค้นหาให้คุณได้อีกด้วย 

หัวใจสำคัญของความสามารถใหม่นี้คือระบบเอเจนต์ที่เป็นเอกภาพ นี่คือการรวมสามจุดเด่นจากความก้าวหน้าที่ผ่านมา นั่นก็คือจุดเด่นของ Operator ในการโต้ตอบกับเว็บไซต์ ทักษะของ Deep Research ในการสังเคราะห์ข้อมูล และความฉลาดกับความคล่องแคล่วในการสนทนาของ ChatGPT

ChatGPT ทำงานเหล่านี้โดยใช้คอมพิวเตอร์เสมือนของตนเอง โดยสามารถสลับระหว่างการใช้เหตุผลและการลงมือทำได้อย่างลื่นไหลเพื่อจัดการเวิร์กโฟลว์ที่ซับซ้อนตั้งแต่ต้นจนจบตามที่คุณสั่ง

ที่สำคัญคือคุณสามารถควบคุมเองได้ตลอดเวลา ChatGPT จะขออนุญาตคุณก่อนดำเนินการใดๆ ที่มีความสำคัญ และคุณสามารถขัดจังหวะ ควบคุมเบราว์เซอร์เอง หรือหยุดการทำงานได้ทุกเมื่อ

ตั้งแต่วันนี้เป็นต้นไปผู้ใช้ Pro, Plus และ Team สามารถเปิดใช้งานความสามารถใหม่ของเอเจนต์ ChatGPT ได้โดยตรงผ่านเมนูของเครื่องมือโดยการเลือก 'โหมดเอเจนต์' ได้ทุกเมื่อตามที่ต้องการ 

แม้ว่า ChatGPT จะสามารถจัดการงานที่ซับซ้อนได้อย่างยอดเยี่ยม แต่การเปิดตัวในวันนี้เป็นเพียงบทแรกของเรื่องราวที่กำลังจะถูกเขียนต่อไป เราจะต่อไปเพิ่มการปรับปรุงที่สำคัญอย่างสม่ำเสมอ ทำให้มีความสามารถและเป็นประโยชน์ต่อผู้คนมากขึ้นเรื่อยๆ

วิวัฒนาการตามธรรมชาติของ Operator และ Deep Research

Operator และ Deep Research ต่างก็มีจุดแข็งเฉพาะตัวที่ต่างกัน จุดแข็งของ Operator คือสามารถทำงานบนเว็บได้ เช่น เลื่อนหน้าเว็บ คลิก และพิมพ์ข้อมูล ส่วน Deep Research นั้นโดดเด่นด้านการวิเคราะห์และสรุปข้อมูล ทั้งสองเึรื่องมือต่างทำงานได้ดีในบริบทที่ต่างกัน Operator ไม่ถนัดการวิเคราะห์เชิงลึกหรือการจัดทำรายงานละเอียด ส่วน Deep Research เองก็ไม่สามารถโต้ตอบกับเว็บไซต์เพื่อปรับแต่งผลลัพธ์หรือเข้าถึงข้อมูลที่ต้องการการยืนยันตัวตนได้ จริงๆ แล้วเราพบว่าหลายคำสั่งที่ผู้ใช้ส่งให้ Operator ทำเหมาะกับ Deep Research มากกว่า เราจึงตัดสินใจรวมจุดเด่นของทั้งคู่เข้าด้วยกัน

การรวมจุดเด่นที่เสริมกันของ ChatGPTเข้ากับเครื่องมืออื่นเพิ่มเติม ทำให้เราสามารถสร้างความสามารถใหม่ที่ไม่เคยมีมาก่อนได้ภายในโมเดลเดียว ขณะนี้โมเดลสามารถทำงานบนเว็บไซต์ได้โดยตรง ไม่ว่าจะเป็นการคลิก การกรองข้อมูล และการดึงผลลัพธ์ที่แม่นยำและมีประสิทธิภาพมากขึ้น คุณสามารถเปลี่ยนโหมดจากการพูดคุยธรรมดา ไปสู่การออกคำสั่งให้โมเดลช่วยทำงานได้ภายในแชตเดียวกันอย่างแนบเนียน

เอเจนต์ที่ทำงานเพื่อคุณและพร้อมเดินเคียงข้างคุณ 

เอเจนต์ ChatGPT ได้รับการติดตั้งด้วยเครื่องมือที่หลากหลาย ไม่ว่าจะเป็นเครื่องมืออย่างเบราว์เซอร์แบบภาพที่โต้ตอบกับเว็บผ่านอินเทอร์เฟซ เบราว์เซอร์แบบข้อความสำหรับคำถามเว็บที่ต้องใช้เหตุผลง่ายๆ เทอร์มินัล และการเข้าถึง API โดยตรงAgent สามารถใช้ ตัวเชื่อมต่อของ ChatGPT(เปิดในหน้าต่างใหม่) เพื่อเชื่อมต่อกับแอป เช่น Gmail และ Github ทำให้ ChatGPT สามารถดึงข้อมูลที่เกี่ยวข้องกับคำสั่งของคุณมาใช้ในการตอบสนองได้อย่างมีประสิทธิภาพ คุณยังสามารถล็อกอินเข้าสู่เว็บไซต์ใดๆ ก็ได้ผ่านการเข้าควบคุมเบราว์เซอร์ ซึ่งช่วยโมเดลสามารถค้นคว้าและทำงานได้อย่างครอบคลุมและละเอียดกว่าเดิม เมื่อ ChatGPT มีตัวเลือกที่หลากหลายในการเข้าถึงและโต้ตอบกับข้อมูลบนเว็บ มันจึงสามารถเลือกแนวทางที่เหมาะสมที่สุดเพื่อปฏิบัติงานได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น ChatGPT สามารถดึงข้อมูลจากปฏิทินของคุณผ่าน API วิเคราะห์ข้อความจำนวนมากได้อย่างมีประสิทธิภาพด้วยเบราว์เซอร์แบบข้อความ และยังสามารถโต้ตอบกับเว็บไซต์ที่ออกแบบมาสำหรับมนุษย์ได้โดยตรงผ่านอินเทอร์เฟซแบบภาพ 

ทั้งหมดนี้สามารถทำได้โดยใช้คอมพิวเตอร์เสมือนของตัวมันเอง ซึ่งช่วยรักษาบริบทที่จำเป็นสำหรับงาน แม้ว่าจะใช้เครื่องมือหลายตัวแต่โมเดลสามารถเลือกเปิดหน้าเว็บด้วยเบราว์เซอร์ข้อความหรือเบราว์เซอร์ภาพ ดาวน์โหลดไฟล์จากเว็บ แก้ไขด้วยการรันคำสั่งในเทอร์มินัล และตรวจสอบผลลัพธ์ในเบราว์เซอร์ภาพได้อย่างราบรื่น โมเดลสามารถปรับแนวทางการทำงานเพื่อให้งานเสร็จได้เร็ว แม่นยำ และมีประสิทธิภาพสูง

เอเจนต์ ChatGPT ถูกสร้างมาให้ทำงานซ้ำๆ และทำงานร่วมกับเราได้ โดยเอเจนต์สามารถปรับปรุงงานไปเรื่อยๆ พร้อมโต้ตอบกับเราได้มากกว่าและยืดหยุ่นกว่าโมเดลรุ่นก่อนๆ ระหว่างที่ ChatGPT ทำงาน คุณสามารถแทรกเพื่อปรับคำสั่ง กำหนดเป้าหมายใหม่ หรือเปลี่ยนแปลงงานทั้งหมดได้ทุกเมื่อที่คุณต้องการ ChatGPT สามารถสานต่องานที่ทำค้างไว้โดยใช้ข้อมูลใหม่แต่ยังคงความคืบหน้าของงานที่ทำไว้ก่อนหน้าได้ ChatGPT อาจขอรายละเอียดเพิ่มเติมจากคุณเองเมื่อจำเป็น เพื่อให้แน่ใจว่างานยังคงเป็นไปในทิศทางที่คุณตั้งใจไว้ หากงานใช้เวลานานกว่าที่คาดไว้หรือดูเหมือนมีอะไรติดขัด คุณสามารถหยุดการทำงานชั่วคราวเพื่อขอรายงานความคืบหน้า หรือหยุดงานทั้งหมดและรับผลงานบางส่วนได้ หากคุณมีแอป ChatGPT บนมือถือ ระบบจะส่งการแจ้งเตือนทันทีที่งานเสร็จ

เพิ่มคุณค่าในการใช้งานจริง 

ความสามารถแบบรวมศูนย์ของ ChatGPT ทำให้การใช้งานมีคุณค่าเพิ่มขึ้นอย่างชัดเจน ไม่ว่าจะเป็นการใช้งานในชีวิตประจำวันหรือการทำงานระดับมืออาชีพก็ตาม ในการทำงานคุณสามารถเปลี่ยนงานที่ต้องทำซ้ำๆ ให้กลายเป็นงานที่ทำได้เองโดยอัตโนมัติได้ เช่น การแปลงภาพหน้าจอหรือแดชบอร์ดให้เป็นงานนำเสนอที่แก้ไขได้ การจัดตารางประชุมใหม่ การวางแผนและจองกิจกรรมนอกสถานที่ และการอัปเดตสเปรดชีตด้วยข้อมูลการเงินใหม่โดยไม่เปลี่ยนรูปแบบเดิม ในชีวิตส่วนตัวคุณสามารถใช้เครื่องมือนี้เพื่อวางแผนและจองทริป ออกแบบและจัดงานเลี้ยงมื้อค่ำ รวมถึงสั่งให้ช่วยค้นหาผู้เชี่ยวชาญพร้อมนัดหมายได้อย่างราบรื่น 

ความสามารถที่ก้าวหน้าของโมเดลสะท้อนออกมาในผลการประเมินที่เป็นมาตรฐานสูงสุด (SOTA) ทั้งด้านการท่องเว็บและการทำงานจริง 

ในการสอบ Humanity’s Last Exam(เปิดในหน้าต่างใหม่)* ซึ่งเป็นการประเมินสำหรับทดสอบความสามารถของ AI ในการตอบคำถามระดับผู้เชี่ยวชาญหลากหลายสาขาพบว่า โมเดลที่ใช้เอเจนต์ ChatGPT สามารถทำคะแนน pass@1 ของการประเมินที่เป็นมาตรฐานสูงสุดได้ถึง 41.6 คะแนน ซึ่งเป็นตัวเลขใหม่ของการประเมิน เนื่องจากเอเจนต์สามารถวางแผนและเลือกเครื่องมือได้ด้วยตัวเอง มันจึงอาจใช้วิธีไม่เหมือนกันในการทำงานเดียวกันในแต่ละรอบ เมื่อเราเพิ่มสเกลการทำงานโดยให้เอเจนต์รันงานพร้อมกัน 8 ครั้ง และเลือกคำตอบที่โมเดลมั่นใจที่สุด คะแนน HLE ของเอเจนต์ก็เพิ่มขึ้นเป็น 44.4

FrontierMath**ถือเป็นเกณฑ์ทดสอบคณิตศาสตร์ที่ท้าทายและยากที่สุด เกณฑ์การทดสอบนี้ประกอบไปด้วยโจทย์ใหม่ที่ไม่เคยมีใครเห็นมาก่อน แม้นักคณิตศาสตร์ที่เก่งๆ ยังต้องใช้เวลาหลายชั่วโมงหรือหลายวันถึงจะแก้โจทย์ได้ เมื่อใช้เครื่องมืออย่างเทอร์มินัลสำหรับการรันโค้ด เอเจนต์ ChatGPT สามารถทำความแม่นยำได้ถึง 27.4% ซึ่งเหนือกว่ารุ่นก่อนหน้าอย่างชัดเจน

นอกจากนี้เรายังได้ทำการประเมินโมเดลโดยใช้เกณฑ์มาตรฐานที่จำลองจากงานจริงที่มีความซับซ้อน ในการประเมินเกณฑ์มาตรฐานภายในที่ออกแบบมาเพื่อประเมินประสิทธิภาพของโมเดลสำหรับงานที่มีความซับซ้อนและมีมูลค่าทางเศรษฐกิจพบว่า ผลลัพธ์ที่ได้จากเอเจนต์ ChatGPT มีความใกล้เคียงหรือดีกว่ามนุษย์ย์ประมาณครึ่งหนึ่งของกรณีทดสอบในช่วงเวลาต่างๆ และยังทำงานได้ดีกว่า o3 และ o4-mini อย่างเห็นได้ชัด ผู้เชี่ยวชาญประเมินผลลัพธ์ของโมเดลโดยเปรียบเทียบสิ่งที่โมเดลทำกับมาตรฐานผลงานของคนที่เก่งที่สุดในแต่ละสาขาวิชา งานเหล่านี้รวบรวมจากผู้เชี่ยวชาญในหลากหลายสาขาและอุตสาหกรรม โดยเป็นงานที่สามารถสะท้อนถึงการใช้งานจริงสำหรับการทำงานแบบมืออาชีพ เช่น การวิเคราะห์คู่แข่งของผู้ให้บริการดูแลฉุกเฉิน การทำตารางค่าเสื่อมราคาอย่างละเอียด และการค้นหาแหล่งน้ำบาดาลที่ใช้ได้จริงสำหรับโรงงานไฮโดรเจนสีเขียวแห่งใหม่ 

ในการทดสอบ DSBench(เปิดในหน้าต่างใหม่) ที่ใช้วัดความสามารถของเอเจนต์ในงานวิทยาศาสตร์ข้อมูลที่ครอบคลุมการวิเคราะห์และการสร้างโมเดลอย่างสมจริงพบว่า เอเจนต์ ChatGPT สามารถทำผลงานออกมาได้ดีกว่ามนุษย์อย่างมีนัยสำคัญ

ในการทดสอบ SpreadsheetBench ซึ่งใช้ประเมินความสามารถของโมเดลในการแก้ไขสเปรดชีตที่จำลองจากสถานการณ์จริงพบว่า เอเจนต์ ChatGPT สามารถทำผลงานได้เหนือกว่ารุ่นก่อนๆ อย่างชัดเจน ความสามารถในการแก้ไขสเปรดชีตโดยตรงของเอเจนต์ ChatGPTทำคะแนนได้สูงถึง 45.5% ซึ่งเหนือกว่า Copilot ใน Excel ที่ทำได้เพียง 20.0%

วิธีการที่ใช้ในการประเมิน: ผู้เขียนชุดประเมิน SpreadsheetBench ใช้ระบบ Windows และโปรแกรม Microsoft Excel ในการประเมินสเปรดชีต เราใช้ OSX และ LibreOffice ในการประเมิน ซึ่งอาจทำให้คะแนนต่างกันเล็กน้อย ตัวอย่างเช่น ผู้เขียนชุดประเมินพบว่าข้อจำกัดโดบรวมแบบเข้มงวดของ GPT‑4o อยู่ที่ 15.02% ในขณะที่ผลการประเมินของเราอยู่ที่ 13.38%” เราใช้เกณฑ์มาตรฐานที่มีคำถามครบทั้ง 912 ข้อ

โมเดลที่ใช้เอเจนต์ ChatGPT ทำผลงานออกมาได้ดีกว่าโมเดล Deep Research และ o3 อย่างชัดเจนจากการทดสอบภายในที่ประเมินความสามารถของโมเดลสำหรับ งานสร้างโมเดลทางการเงินสำหรับนักวิเคราะห์การลงทุน ในระยะ 1-3 ปี ไม่ว่าจะเป็นการสร้างโมเดลทางการเงินแบบใช้ 3 งบการเงินสำหรับบริษัท Fortune 500 พร้อมรูปแบบและการอ้างอิงที่ถูกต้อง หรือการสร้างแบบจำลองการซื้อกิจการด้วยการกู้ยืมสำหรับการนำบริษัทออกจากตลาด แต่ละงานมีเกณฑ์ประเมินหลายร้อยข้อที่ว่าด้วยความถูกต้องและการใช้สูตรอย่างเหมาะสม

นอกจากนี้เรายังได้ประเมินเอเจนต์ ChatGPT โดยใช้ BrowseComp ซึ่งเป็นเกณฑ์มาตรฐานที่เราเผยแพร่เมื่อต้นปีนี้ เกณฑ์มาตรฐานใช้วัดความสามารถของเอเจนต์ในการท่องเว็บเพื่อค้นหาข้อมูลที่ยากต่อการค้นหาบนอินเทอร์เน็ต โมเดลนี้สร้างมาตรฐานสูงสุดใหม่ (SOTA) ที่ 68.9% ซึ่งสูงกว่า Deep Research 17.4 จุดเปอร์เซ็นต์

การประเมินผ่าน WebArena(เปิดในหน้าต่างใหม่) ซึ่งเป็นชุดทดสอบที่ออกแบบมาเพื่อประเมินประสิทธิภาพของเอเจนต์ท่องเว็บจากการทำงานบนเว็บจริงพบว่า โมเดลนี้ทำผลงานได้ดีกว่า CUA ที่ใช้ o3 (โมเดลที่ Operator ใช้) 

วิธีการใช้งาน

คุณสามารถเปิดใช้ความสามารถใหม่ของเอเจนต์ ChatGPT ในระหว่างการสนทนาได้ทุกเมื่อที่ต้องการ เพียงแค่เลือก ‘โหมดเอเจนต์’ จากเมนูแบบเลื่อนลง  เพียงอธิบายงานที่คุณต้องการ ไม่ว่าจะเป็นการค้นคว้าเชิงลึก การสร้างสไลด์โชว์ หรือการส่งรายงานค่าใช้จ่าย ระหว่างที่ ChatGPT ทำงานให้คุณ จะมีการบรรยายบนหน้าจอเพื่อให้คุณเห็นอย่างชัดเจนว่า ChatGPT กำลังทำอะไรอยู่ คุณสามารถขัดจังหวะและควบคุมเบราว์เซอร์ได้ทุกเมื่อที่ต้องการ เพื่อให้แน่ใจว่างานต่างๆ ยังเป็นไปตามเป้าหมายของคุณ

เอเจนต์ ChatGPT สามารถใช้ตัวเชื่อมต่อของคุณได้ ทำให้มันสามารถทำงานร่วมกับเวิร์กโฟลว์ของคุณและดึงข้อมูลที่สำคัญมาใช้ได้ทันที เมื่อได้รับการยืนยันตัวตนแล้ว ChatGPT จะสามารถเข้าถึงข้อมูลที่จำเป็นและช่วยทำสิ่งต่างๆ ได้ เช่น สรุปอีเมลในแต่ละวัน หรือดูว่าคุณมีช่วงเวลาไหนว่างสำหรับประชุม อย่างไรก็ตามการดำเนินการบนเว็บไซต์ยังคงต้องมีการเข้าสู่ระบบผ่านเบราว์เซอร์

นอกจากนี้คุณยังสามารถกำหนดให้งานที่เสร็จสิ้นแล้วทำซ้ำโดยอัตโนมัติได้ เช่น การจัดทำรายงานตัวชี้วัดรายสัปดาห์ทุกเช้าวันจันทร์

ความสามารถใหม่มาพร้อมกับความเสี่ยงใหม่ 

การเปิดตัวนี้ถือเป็นครั้งแรกที่ผู้ใช้สามารถขอให้ ChatGPT ทำงานบนเว็บได้ ความสามารถดังกล่าวนำมาซึ่งความเสี่ยงใหม่ ซึ่งความเสี่ยงที่เกิดขึ้นมาจากการที่เอเจนต์ของ ChatGPT สามารถเข้าถึงและประมวลผลข้อมูลของคุณได้โดยตรง ไม่ว่าจะเป็นข้อมูลที่ได้จากตัวเชื่อมต่อ หรือจากเว็บไซต์ที่คุณอนุญาตให้เข้าสู่ระบบผ่านโหมดเทคโอเวอร์ เราได้เสริมความแข็งแรงให้กับมาตรการควบคุมที่พัฒนามาจากการทดสอบวิจัยของ Operator และเพิ่มแนวทางป้องกันสำหรับความท้าทาย เช่น การจัดการข้อมูลที่ละเอียดอ่อนบนเว็บจริง การรองรับผู้ใช้จำนวนมากขึ้น และการเข้าถึงเครือข่ายผ่านเทอร์มินัลแบบจำกัด แม้มาตรการป้องกันเหล่านี้จะช่วยลดความเสี่ยงได้เยอะ แต่การที่เอเจนต์ ChatGPT มีความสามารถมากขึ้นและเข้าถึงผู้ใช้ได้มากขึ้น ก็ทำให้ภาพรวมของความเสี่ยงยังสูงอยู่ 

เรามุ่งเน้นการป้องกันเอเจนต์ ChatGPT จากการโจมตีด้วยการป้อนคำสั่งแทรกแซง ซึ่งเป็นความเสี่ยงที่ระบบเอเจนต์ มักเจอ และเราได้เตรียมวิธีป้องกันเพิ่มเติมไว้แล้ว การโจมตีด้วยคำสั่งเป็นความพยายามของบุคคลภายนอกในการควบคุมพฤติกรรมของระบบด้วยคำสั่งที่เป็นอันตราย ซึ่งเอเจนต์ ChatGPT อาจพบเจอได้ระหว่างการทำงานบนเว็บ หากมีคำสั่งอันตรายที่แฝงอยู่ในหน้าเว็บในส่วนที่ผู้ใช้มองไม่เห็นหรือในเมตาดาต้า มันอาจลวงให้เอเจนต์ทำสิ่งที่ไม่พึงประสงค์ได้ เช่น ส่งข้อมูลส่วนตัวจากตัวเชื่อมต่อให้ผู้โจมตี หรือทำบางอย่างที่เป็นอันตรายในเว็บไซต์ที่ผู้ใช้ได้ล็อกอินไว้ การโจมตีที่ประสบความสำเร็จจอาจสร้างผลกระทบที่รุนแรงขึ้นและก่อให้เกิดความเสี่ยงที่สูงขึ้นเนื่องจากเอเจนต์ ChatGPT สามารถทำงานเองได้โดยตรง 

เราได้เทรนและทดสอบเอเจนต์ให้รู้จักและป้องกันการโจมตีด้วยคำสั่ง พร้อมทั้งมีระบบเฝ้าติดตามเพื่อจับและรับมือกับการโจมตีดังกล่าวได้อย่างรวดเร็ว การให้ผู้ใช้กดยืนยันก่อนทำงานที่สำคัญ จะช่วยลดความเสี่ยงจากการโจมตีเหล่านี้ อีกทั้งผู้ใช้ยังสามารถเข้ามาควบคุมหรือหยุดการทำงานได้ทุกเมื่อ ผู้ใช้ควรพิจารณาข้อดีข้อเสียเหล่านี้ก่อนที่จะให้ข้อมูลกับเอเจนต์ และควรทำตามขั้นตอนเพื่อลดความเสี่ยง เช่น ปิดตัวเชื่อมต่อเมื่อไม่จำเป็นต้องใช้งาน

เรายังได้ดำเนินมาตรการป้องกันเกี่ยวกับ ข้อผิดพลาดของโมเดล โดยเฉพาะอย่างยิ่งเนื่องจากโมเดลสามารถทำงานที่ส่งผลกระทบต่อโลกแห่งความเป็นจริงได้แล้ว: 

  • การยืนยันจากผู้ใช้โดยตรง: ChatGPT ได้รับการฝึกให้ขออนุญาตจากคุณก่อนดำเนินการใดๆ ที่สามารถส่งผลกระทบในโลกความเป็นจริง เช่น การทำธุรกรรมเพื่อซื้อสินค้า
  • การกำกับดูแลอย่างใกล้ชิด (“โหมดเฝ้าระวัง”): งานสำคัญบางอย่างจำเป็นต้องได้รับการดูแลอย่างใกล้ชิดจากคุณ เช่น การส่งอีเมล
  • การลดความเสี่ยงเชิงรุก: ChatGPT ได้รับการฝึกฝนให้ปฏิเสธงานที่มีความเสี่ยงสูง เช่น การโอนเงินผ่านธนาคาร

ท้ายที่สุดเราได้ใช้การมาตรการควบคุมเพิ่มเติม เพื่อจำกัดข้อมูล ที่โมเดลสามารถเข้าถึงได้: 

  • การควบคุมความเป็นส่วนตัว: คุณสามารถลบข้อมูลการท่องเว็บทั้งหมดและลงชื่อออกจากเว็บไซต์ที่ใช้งานอยู่ทั้งหมดได้ทันทีด้วยการคลิกเพียงแค่ครั้งเดียวในหน้าการตั้งค่าของ ChatGPT ถ้าไม่ลบคุกกี้จะยังคงอยู่ตามนโยบายของแต่ละเว็บไซต์ ซึ่งช่วยให้การเข้าเว็บซ้ำครั้งต่อไปทำได้สะดวกและรวดเร็วขึ้น
  • โหมดการเข้าควบคุมเบราว์เซอร์อย่างปลอดภัย: เมื่อคุณโต้ตอบกับเว็บโดยใช้เบราว์เซอร์ของ ChatGPT (“โหมดเทคโอเวอร์”) ข้อมูลที่คุณป้อนจะยังคงเป็นส่วนตัว ChatGPT จะไม่เก็บรวบรวมหรือบันทึกข้อมูลใดๆ ที่คุณป้อนระหว่างการใช้งาน เช่น รหัสผ่าน เพราะโมเดลไม่จำเป็นต้องใช้ และถือว่าเป็นการเพิ่มปลอดภัยไปอีกขั้นที่โมเดลไม่เห็นข้อมูลเหล่านั้น

มาตรการความปลอดภัยที่แข็งแกร่งที่สุดของเราในปัจจุบันเพื่อรับมือกับความเสี่ยงทางชีวภาพ 

ด้วยศักยภาพที่เพิ่มขึ้นของโมเดล เราจึงตัดสินใจที่จะปฏิบัติต่อเอเจนต์ ChatGPT ในฐานะเอเจนต์มีความสามารถทางชีวภาพและเคมีสูงภายใต้ กรอบการเตรียมความพร้อมของเรา โดยมีการนำมาตรการป้องกันที่เกี่ยวข้องมาใช้ แม้ว่าเราจะยังไม่มีหลักฐานชัดเจนว่าโมเดลนี้สามารถช่วยให้คนที่ไม่มีประสบการณ์สร้างอันตรายทางชีวภาพร้ายแรงได้ (ซึ่งเป็นเกณฑ์ที่เราจะใช้ในการจัดว่าโมเดลมีความสามารถสูง) แต่เราก็ได้ดำเนินการด้วยความระมัดระวังและได้บังคับใช้มาตรการป้องกันที่จำเป็นแล้ว ดังนั้นโมเดลนี้จึงมีระบบความปลอดภัยที่ครอบคลุมที่สุดในปัจจุบัน โดยมีการเสริมมาตรการด้านชีววิทยา เช่น การวิเคราะห์ภัยคุกคามการฝึกปฏิเสธการใช้งานในทางที่ผิด ตัวจำแนกและเครื่องมือตรวจสอบการใช้เหตุผลที่ทำงานตลอดเวลา ตลอดจนกระบวนการบังคับใช้อย่างชัดเจน 

นอกจากการทำงานเพื่อความปลอดภัยของเอเจนต์ ChatGPT แล้ว เรายังตระหนักได้ว่าการสร้างระบบความปลอดภัยทางชีวภาพแบบหลายชั้นจะมีประสิทธิภาพสูงสุดก็ต่อเมื่อมาตรการป้องกันไม่ได้ถูกจำกัดไว้แค่ที่เดียว ดังนั้นเราจึงทำงานร่วมกับทุกภาคส่วนในแวดวงนี้เพื่อเสริมความแข็งแกร่งของมาตรการป้องกัน ตั้งแต่วันแรกเราได้ทำงานร่วมกับผู้เชี่ยวชาญภายนอกด้านความปลอดภัยทางชีวภาพ รวมถึงสถาบันความปลอดภัย และนักวิจัยในสถาบันการศึกษา เพื่อพัฒนารูปแบบการประเมินภัยคุกคาม แนวทางการประเมิน และนโยบายต่างๆ ของเรา ข้อมูลการประเมินของเราได้รับการตรวจสอบโดยผู้เชี่ยวชาญด้านชีววิทยา และทีมงานเฉพาะกิจด้านความปลอดภัยซึ่งเป็นผู้เชี่ยวชาญในสาขานี้ได้ทดสอบมาตรการป้องกันอย่างเข้มงวดในสถานการณ์จำลองที่สมจริง เมื่อต้นเดือนที่ผ่านมาเราได้จัดเวิร์กช็อปด้านการป้องกันภัยชีวภาพร่วมกับผู้เชี่ยวชาญจากภาครัฐ สถาบันการศึกษา ห้องปฏิบัติการแห่งชาติ และองค์กรไม่แสวงหากำไร เพื่อสร้างความร่วมมือและเร่งงานวิจัยเกี่ยวกับการป้องกันภัยชีวภาพที่ขับเคลื่อนด้วย AI เราจะยังคงเดินหน้าสร้างความร่วมมือกับพันธมิตรทั่วโลกเพื่อเตรียมพร้อมและรับมือกับความเสี่ยงใหม่ๆ

อ่านข้อมูลเพิ่มเติมเกี่ยวกับแนวทางด้านความปลอดภัยที่เข้มงวดของเราสำหรับโมเดลเอเจนต์แบบรวมได้ใน การ์ดระบบ นอกจากนี้เรายังเปิดตัว โครงการ Bug Bounty เพื่อหาช่องโหว่และแก้ไขความเสี่ยงที่เกิดขึ้นจริง

ความพร้อมในการใช้งาน

เอเจนต์ ChatGPT เริ่มเปิดให้ใช้งานแล้ววันนี้สำหรับผู้ใช้ Pro, Plus และ Team โดยผู้ใช้ Pro จะสามารถใช้งานได้ภายในวันนี้ ขณะที่ผู้ใช้ Plus และ Team จะได้รับสิทธิ์เข้าถึงภายในไม่กี่วันข้างหน้า ผู้ใช้ Enterprise และ Education จะได้รับสิทธิ์การเข้าถึงในอีกไม่กี่สัปดาห์ข้างหน้า ผู้ใช้ Pro จะได้รับสิทธิ์การใช้งาน 400 ข้อความต่อเดือน ในขณะที่ผู้ใช้ที่ชำระเงินรายอื่นจะได้รับสิทธิ์ 40 ข้อความต่อเดือน และสามารถใช้เครดิตเพิ่มได้ถ้าต้องการ

เรากำลังเตรียมความพร้อมสำหรับการเปิดใช้งานในเขตเศรษฐกิจยุโรปและสวิตเซอร์แลนด์ 

เว็บไซต์พรีวิว Operator จะยังคงใช้งานได้ต่อไปอีกสองสามสัปดาห์และหลังจากนั้นก็จะยุติการให้บริการ Deep Research เป็นหนึ่งในความสามารถของเอเจนต์ ChatGPT หากคุณต้องการใช้ฟีเจอร์ Deep Research แบบเดิม ซึ่งแม้อาจจะใช้เวลาประมวลผลนานกว่าแต่จะให้ผลลัพธ์ที่ละเอียดและลึกกว่า คุณก็ยังสามารถทำได้โดยเลือก “Deep Research” จากเมนูแบบเลื่อนลงในช่องเขียนข้อความ

ข้อจำกัดและการต่อไป 

เอเจนต์ ChatGPT ยังอยู่ในช่วงเริ่มต้นของการพัฒนา แม้จะมีความสามารถในการจัดการงานที่ซับซ้อนได้หลากหลาย แต่ก็ยังอาจทำงานผิดพลาดได้ 

แม้เราจะเห็นศักยภาพที่โดดเด่นในการสร้างสไลด์โชว์แต่ฟังก์ชันดังกล่าวยังอยู่ในขั้นทดสอบ ตอนนี้ผลลัพธที่ออกมาอาจยังดูพื้นๆ ในเรื่องการจัดรูปแบบและความประณีต โดยเฉพาะถ้าเริ่มต้นใหม่โดยไม่มีเอกสารเดิม เราให้ความสำคัญกับความสามารถเริ่มต้นของโมเดลในการสร้างเนื้อหาที่จัดข้อมูลเป็นลำดับและรูปแบบที่เหมาะกับงานนำเสนอ พร้อมองค์ประกอบอย่างข้อความ แผนภูมิ รูปภาพ และรูปร่างต่างๆ ที่แก้ไขได้ง่ายหลังส่งออก เพื่อให้โครงสร้างชัดเจนและสามารถนำไปปรับใช้งานได้อย่างยืดหยุ่น ตอนนี้สไลด์ที่เห็นในตัวอย่างอาจจะออกมาไม่ตรงกับไฟล์ PowerPoint ที่ส่งออกในบางครั้ง โดยเรากำลังเดินการเพื่อทำลดปัญหาดังกล่าว ขณะนี้คุณสามารถอัปโหลดสเปรดชีตที่มีอยู่เพื่อให้ ChatGPT แก้ไขหรือใช้เป็นเทมเพลตได้ แต่ความสามารถนี้ยังไม่พร้อมใช้งานกับสไลด์โชว์ ตอนนี้เรากำลังพัฒนาเวอร์ชันใหม่ของ ChatGPT ที่ใช้สำหรับการทำสไลด์โชว์ให้สามารถสร้างงานที่มีความละเอียดและประณีตกว่าเดิม รวมถึงการพัฒนาความสามารถให้ครอบคลุมมากขึ้น และจัดรูปแบบได้ดียิ่งขึ้น

โดยรวมแล้วเราคาดว่าเอเจนต์ ChatGPT จะมีการพัฒนาอย่างต่อเนื่องทั้งด้านประสิทธิภาพ ความลึกของคำตอบ และความสามารถรอบด้าน รวมถึงการโต้ตอบที่ราบรื่นยิ่งขึ้น ในขณะที่เราปรับระดับการกำกับดูแลจากผู้ใช้ให้เหมาะสมเพื่อเพิ่มประโยชน์สูงสุดและคงความปลอดภัยในการใช้งาน

ภาคผนวก

SpreadsheetBench

โมเดล

สภาพแวดล้อมที่ใช้ในการประเมิน

ความแม่นยำภายใต้ข้อจำกัดแบบยืดหยุ่น (%): ระดับเซลล์

ความแม่นยำภายใต้ข้อจำกัดแบบยืดหยุ่น (%): ระดับชีต

ความแม่นยำภายใต้ข้อจำกัดแบบยืดหยุ่น (%): โดยรวม

GPT‑4o

Windows, Excel

15.03

23.65

18.35

Copilot ใน Excel

Windows, Excel

23.33

15.00

20.00

GPT‑4o

OSX, LibreOffice

15.86

18.33

16.81

OpenAI o3

OSX, LibreOffice

22.40

24.60

23.25

เอเจนต์ ChatGPT

OSX, LibreOffice

38.27

30.48

35.27

เอเจนต์ ChatGPT กับ .xlsx

OSX, LibreOffice

50.56

37.51

45.54

มนุษย์

75.56

65.00

71.33

รับชมไลฟ์สตรีมย้อนหลัง

ผู้เขียน

OpenAI

เชิงอรรถ

*เมื่อเปิดใช้งานการท่องเว็บ โมเดลจะสามารถค้นหาคำตอบที่ถูกต้องได้จากแหล่งข้อมูลออนไลน์ เช่น การอ่านบล็อกโพสต์ที่มีตัวอย่างปัญหาจากชุดข้อมูล เราแก้ปัญหาความกังวลเรื่องโมเดลโกงขณะท่องเว็บด้วยสองวิธีหลักดังนี:

1. ทำการบล็อกโดเมนที่เราเคยพบว่าโมเดลใช้โกงมาก่อน

2. ใช้โมเดลเพิ่มเติมในการประเมินโทเค็นเอาต์พุตจากเครื่องมือในแต่ละครั้งเพื่อระบุพฤติกรรมที่เข้าข่ายน่าสงสัยว่าโมเดลมีการโกงหรือไม่ โดยถ้าเจอข้อมูลที่เป็น "หน้าไฟล์หรือข้อความที่ตั้งใจให้คำตอบตรงๆ เช่น กุญแจเฉลย ไฟล์เฉลยที่รั่ว หรือการพูดที่อ้างคำตอบแบบคำต่อคำจะถือว่าเป็นพฤติกรรมที่น่าสงสัย" แต่ถ้าเป็น "แหล่งข้อมูลที่คนทั่วไปอาจใช้ค้นคว้า เช่น เอกสาร คู่มือ งานวิชาการ หรือบทความที่เชื่อถือได้ที่มีคำตอบรวมอยู่ด้วย" ก็จะถือว่าไม่เป็นพฤติกรรมที่น่าสงสัย ทุกครั้งที่มีการตรวจสอบพบพฤติกรรมที่ดูน่าสงสัยก็จะถือว่าการทดลองนั้นไม่ถูกต้อง ตัวอย่างที่ล้มเหลวส่วนใหญ่เป็นโจทย์ที่มีคำตอบตรงๆ จากแหล่งข้อมูลออนไลน์หลายแหล่งที่ไม่เกี่ยวข้องกับ HLE

**OpenAI สามารถเข้าถึงคำถามส่วนตัวได้ 237 ข้อ จากทั้งหมด 290 ข้อในชุดข้อมูลระดับ 1-3 คำถาม FrontierMath ระดับ 4 ไม่ได้รวมอยู่ในแบบประเมินนี้ ผลลัพธ์ถูกประเมินจากค่าเฉลี่ยของการพยายามตอบคำถามแต่ละข้อจำนวน 16 ครั้ง ผลการประเมินของ ChatGPT ถูกสร้างขึ้นโดย OpenAI และได้รับการตรวจประเมินจาก Epoch AI โดยสามารถเข้าถึงเบราว์เซอร์และเทอร์มินัลได้ พร้อมข้อจำกัดที่ 128K โทเค็นต่อคำตอบ การประเมิน o4-mini และ o3 ของ OpenAI ถูกสร้างและให้คะแนนโดย Epoch AI โดยไม่มีการเข้าถึงเบราว์เซอร์และเทอร์มินัล มีการใช้สคริปต์ Python ผ่านการเรียกฟังก์ชัน และมีข้อจำกัดที่ 100K โทเค็นต่อคำตอบ 

*** Oracle@64 หมายถึงคะแนนที่ดีที่สุดที่ได้จากการสุ่มรัน 64 ครั้ง โดยเลือกจากข้อมูลจริง (เป็นการเลือกผลลัพธ์ที่ได้คะแนนสูงสุดสำหรับแต่ละงานตามผลการให้คะแนนจริง) เรานำคะแนนสูงสุดของแต่ละงานมาหาค่าเฉลี่ยรวม ตัวชี้วัดนี้แสดงให้เห็นว่าโมเดลมีความสามารถสูงเพียงใดเมื่อทำสำเร็จ และบ่งชี้ถึงโอกาสในการปรับปรุงความสม่ำเสมอผ่านการฝึกฝนเพิ่มเติม ต่างจากตัวชี้วัดที่ใช้ "การเลือกผลลัพธ์ที่ดีที่สุดจากจำนวนครั้งที่ลองรัน (ฺBest of N)" ซึ่งเลือกตามความเชื่อมั่นของโมเดล แต่ Oracle@64 ใช้ความจริงพื้นฐานในการเลือก และใช้กับงานที่มีการให้คะแนนแบบต่อเนื่อง 0–1 แทนที่ประเมินว่าผ่านหรือไม่ผ่าน