25 กันยายน 2568

การวัดประสิทธิภาพของโมเดลของเราในงานที่เกิดขึ้นจริง

เราขอแนะนำ GDPval การประเมินใหม่ที่วัดประสิทธิภาพของโมเดลในงานที่มีคุณค่าทางเศรษฐกิจในโลกแห่งความเป็นจริงโดยครอบคลุม 44 อาชีพ

อ่านเอกสาร เยี่ยมชม evals.openai.com

ภารกิจของเราคือการทำให้ระบบปัญญาประดิษฐ์ทั่วไปนำประโยชน์มาสู่มนุษยชาติ ในฐานะส่วนหนึ่งของภารกิจของเรา เราต้องการสื่อสารความก้าวหน้าอย่างโปร่งใสเกี่ยวกับวิธีที่โมเดล AI สามารถช่วยเหลือผู้คนในโลกแห่งความเป็นจริงได้ นั่นคือเหตุผลที่เราขอแนะนำ GDPval: การประเมินใหม่ที่ออกแบบมาเพื่อช่วยให้เราติดตามว่าโมเดลของเราและของผู้อื่นทำงานได้ดีเพียงใดในงานที่มีคุณค่าทางเศรษฐกิจในโลกแห่งความเป็นจริง เราเรียกการประเมินนี้ว่า GDPval เพราะเราเริ่มต้นด้วยแนวคิดของผลิตภัณฑ์มวลรวมภายในประเทศ (GDP) ซึ่งเป็นตัวชี้วัดทางเศรษฐกิจที่สำคัญ และดึงงานจากอาชีพหลักในอุตสาหกรรมที่มีส่วนร่วมมากที่สุดต่อ GDP

ผู้คนมักคาดเดาเกี่ยวกับผลกระทบที่กว้างขึ้นของ AI ต่อสังคม แต่หนทางที่ชัดเจนที่สุดในการเข้าใจศักยภาพของ AI คือการดูว่าโมเดลสามารถทำอะไรได้บ้างในปัจจุบัน ประวัติแสดงให้เห็นว่าเทคโนโลยีหลักๆ ตั้งแต่อินเทอร์เน็ตไปจนถึงสมาร์ทโฟน ใช้เวลากว่าทศวรรษกว่าจะเปลี่ยนจากการประดิษฐ์ไปสู่การยอมรับอย่างแพร่หลาย การประเมินเช่น GDPval ช่วยให้บทสนทนาเกี่ยวกับการปรับปรุง AI ในอนาคตมีพื้นฐานจากหลักฐานแทนที่จะเป็นการคาดเดา และสามารถช่วยให้เราติดตามการพัฒนาโมเดลได้ตามกาลเวลา

การประเมิน AI ก่อนหน้านี้ เช่น การทดสอบทางวิชาการที่ท้าทายและการแข่งขันการเขียนโค้ดที่มีการแข่งขันสูง มีความสำคัญในการผลักดันขีดจำกัดของความสามารถในการให้เหตุผลของโมเดล แต่บ่อยครั้งที่ไม่สามารถตอบสนองต่อประเภทของงานที่หลายคนจัดการในชีวิตประจำวันได้

เพื่อเชื่อมช่องว่างนี้ เราได้พัฒนาการประเมินที่วัดความสามารถที่มีความสมจริงและมีความสำคัญทางเศรษฐกิจมากขึ้น การพัฒนานี้ได้เคลื่อนจากเกณฑ์มาตรฐานทางวิชาการแบบคลาสสิก เช่น MMLU (คำถามแบบข้อสอบในหลายสิบวิชา) ไปสู่การประเมินที่ประยุกต์มากขึ้น เช่น SWE-Bench (งานแก้ไขข้อบกพร่องทางวิศวกรรมซอฟต์แวร์), MLE-Bench (งานวิศวกรรมการเรียนรู้ของเครื่อง เช่น การฝึกสอนโมเดลและการวิเคราะห์), และ Paper-Bench (การให้เหตุผลทางวิทยาศาสตร์และการวิจารณ์งานวิจัย), และล่าสุดไปสู่การประเมินตามตลาด เช่น SWE-Lancer (โครงการวิศวกรรมซอฟต์แวร์ฟรีแลนซ์ที่อิงจากการจ่ายเงินจริง)

GDPval คือขั้นตอนถัดไปในความก้าวหน้านั้น โดยประเมินประสิทธิภาพของโมเดลในงานที่มาจากการทำงานที่ใช้ความรู้จริงของมืออาชีพที่มีประสบการณ์ในหลากหลายอาชีพและภาคส่วนต่างๆ เพื่อให้เห็นภาพชัดเจนขึ้นว่าโมเดลทำงานได้ดีเพียงใดในงานที่มีคุณค่าทางเศรษฐกิจ การประเมินโมเดลในงานอาชีพที่สมจริงช่วยให้เราเข้าใจไม่เพียงแค่ว่าพวกมันทำงานได้ดีเพียงใดในห้องปฏิบัติการ แต่ยังรวมถึงวิธีที่พวกมันอาจสนับสนุนผู้คนในงานที่ทำในทุกๆ วัน

สิ่งที่ GDPval วัด

GDPval ซึ่งเป็นเวอร์ชันแรกของการประเมินนี้โดยครอบคลุม 44 อาชีพที่เลือกจาก 9 อุตสาหกรรมชั้นนำที่มีส่วนร่วมต่อ GDP ของสหรัฐอเมริกา ชุดเต็มของ GDPval ประกอบด้วยงานเฉพาะทาง 1,320 งาน (220 งานในชุดโอเพ่นซอร์สทองคำ) ซึ่งแต่ละงานถูกสร้างและตรวจสอบอย่างละเอียดโดยผู้เชี่ยวชาญที่มีประสบการณ์เฉลี่ยมากกว่า 14 ปีในสาขาเหล่านี้ ทุกงานอ้างอิงจากผลิตภัณฑ์งานจริง เช่น บันทึกทางกฎหมาย แผนผังวิศวกรรม บทสนทนาการสนับสนุนลูกค้า หรือบริการดูแลพยาบาล

GDPval มีความโดดเด่นทั้งในด้านความสมจริงและความหลากหลายของงานที่ได้รับการประเมิน ไม่เหมือนกับการประเมินอื่นๆ ที่เชื่อมโยงกับมูลค่าทางเศรษฐกิจซึ่งมุ่งเน้นไปที่โดเมนเฉพาะ (เช่น SWE-Lancer) GDPval ครอบคลุมงานและอาชีพหลากหลายประเภท และแตกต่างจากเกณฑ์มาตรฐานที่เกี่ยวข้องกับการสร้างงานในรูปแบบของการสอบหรือทดสอบทางวิชาการ (เช่น Humanity’s Last Exam หรือ MMLU) GDPval มุ่งเน้นไปที่งานที่อิงจากผลลัพธ์ที่เป็นชิ้นงานหรือผลิตภัณฑ์ที่มีอยู่ในปัจจุบันหรือเป็นชิ้นงานที่สร้างขึ้นในลักษณะเดียวกัน

ต่างจากเกณฑ์มาตรฐานแบบดั้งเดิม งาน GDPval ไม่ใช่เพียงคำสั่งข้อความที่เรียบง่าย มาพร้อมกับไฟล์อ้างอิงและบริบท และสิ่งที่คาดว่าจะส่งมอบรวมถึงเอกสาร สไลด์ แผนภาพ สเปรดชีต และสื่อมัลติมีเดีย ความสมจริงนี้ทำให้ GDPval เป็นการทดสอบที่สมจริงยิ่งขึ้นว่าโมเดลอาจสนับสนุนผู้เชี่ยวชาญได้อย่างไร

GDPval เป็นขั้นตอนแรกที่ยังไม่สะท้อนถึงความซับซ้อนทั้งหมดของงานทางเศรษฐกิจหลายประการ แม้ว่าจะครอบคลุม 44 อาชีพและงานความรู้หลายร้อยงาน แต่ก็จำกัดอยู่ที่การประเมินแบบครั้งเดียว ดังนั้นจึงไม่สามารถจับกรณีที่โมเดลจำเป็นต้องสร้างบริบทหรือปรับปรุงผ่านหลายร่างได้ ในอนาคต เวอร์ชันใหม่จะขยายไปสู่เวิร์กโฟลว์ที่มีการโต้ตอบมากขึ้นและงานที่มีบริบทที่สมบูรณ์ยิ่งขึ้น เพื่อสะท้อนถึงความซับซ้อนของงานความรู้ในโลกแห่งความเป็นจริงได้ดียิ่งขึ้น (ดูเพิ่มเติมในส่วนข้อจำกัดของเราในด้านล่าง)

วิธีที่เราเลือกอาชีพ

GDPval ครอบคลุมงานใน 9 อุตสาหกรรมและ 44 อาชีพ และในเวอร์ชันอนาคตจะขยายการครอบคลุมต่อไป อุตสาหกรรมเริ่มต้น 9 แห่งถูกเลือกตามที่มีส่วนร่วมมากกว่า 5% ต่อ GDP ของสหรัฐอเมริกา ตามข้อมูลจากธนาคารกลางแห่งเซนต์หลุยส์ จากนั้น เราได้เลือก 5 อาชีพในแต่ละอุตสาหกรรมที่มีส่วนร่วมมากที่สุดต่อค่าจ้างและค่าตอบแทนรวม และเป็นอาชีพที่เน้นการทำงานด้านความรู้ โดยใช้ข้อมูลค่าจ้างและการจ้างงานจากรายงานการจ้างงานตามอาชีพของ US Bureau of Labor Statistics (BLS) เดือนพฤษภาคม 2024⁠(เปิดในหน้าต่างใหม่) เพื่อพิจารณาว่าอาชีพเหล่านั้นเป็นงานที่เน้นความรู้เป็นหลักหรือไม่ เราใช้ข้อมูลงานจาก O*NET⁠(เปิดในหน้าต่างใหม่) ซึ่งเป็นฐานข้อมูลเกี่ยวกับอาชีพในสหรัฐอเมริกาที่ได้รับการสนับสนุนจากกระทรวงแรงงานของสหรัฐอเมริกา เราได้จำแนกว่างานแต่ละงานสำหรับแต่ละอาชีพใน O*NET ว่าเป็นงานที่ใช้ความรู้หรือเป็นงานที่ใช้แรงกาย/แรงงานทางกายภาพ (ซึ่งต้องการการกระทำในโลกแห่งความเป็นจริง) อาชีพจะถูกจัดประเภทโดยรวมว่าเป็น "งานที่ใช้ความรู้เป็นหลัก" หากอย่างน้อย 60% ของงานที่ประกอบด้วยถูกจัดประเภทว่าไม่เกี่ยวข้องกับงานทางกายภาพหรือแรงงานมือ เราเลือกเกณฑ์ 60% นี้เป็นจุดเริ่มต้นสำหรับเวอร์ชันแรกของ GDPval โดยมุ่งเน้นไปที่อาชีพที่ AI อาจมีผลกระทบสูงสุดต่อการเพิ่มประสิทธิภาพในโลกแห่งความเป็นจริง

กระบวนการนี้ได้ผลลัพธ์เป็น 44 อาชีพสำหรับการรวม

อสังหาริมทรัพย์ การเช่า และการให้เช่า

พนักงานอำนวยความสะดวก
ผู้จัดการทรัพย์สิน อสังหาริมทรัพย์ และผู้จัดการสมาคมชุมชน
ตัวแทนขายอสังหาริมทรัพย์
นายหน้าอสังหาริมทรัพย์
พนักงานเคาน์เตอร์และพนักงานให้เช่า

รัฐบาล

พนักงานด้านนันทนาการ
เจ้าหน้าที่กำกับดูแลการปฏิบัติตามข้อกำหนด
หัวหน้างานระดับต้นของเจ้าหน้าที่ตำรวจและนักสืบ
ผู้จัดการฝ่ายบริการทางธุรการ
นักสังคมสงเคราะห์ที่ทำงานกับเด็ก ครอบครัว และโรงเรียน

การผลิต

วิศวกรเครื่องกล
วิศวกรอุตสาหกรรม
ผู้ซื้อและตัวแทนจัดซื้อ
พนักงานจัดส่ง รับสินค้า และตรวจนับสินค้า
หัวหน้างานระดับต้นของพนักงานฝ่ายผลิตและปฏิบัติการ

บริการด้านวิชาชีพ วิทยาศาสตร์ และเทคนิค

นักพัฒนาซอฟต์แวร์
ทนายความ
นักบัญชีและผู้ตรวจสอบบัญชี
ผู้จัดการระบบคอมพิวเตอร์และระบบสารสนเทศ
ผู้เชี่ยวชาญด้านการบริหารโครงการ

การดูแลสุขภาพและการช่วยเหลือทางสังคม

พยาบาลที่จดทะเบียน
พยาบาลวิชาชีพ
ผู้จัดการบริการทางการแพทย์และสุขภาพ
หัวหน้างานระดับต้นของพนักงานสนับสนุนสำนักงานและงานธุรการ
เลขานุการทางการแพทย์และผู้ช่วยฝ่ายธุรการ

การเงินและการประกันภัย

พนักงานบริการลูกค้า
นักวิเคราะห์การเงินและการลงทุน
ผู้จัดการการเงิน
ที่ปรึกษาทางการเงินส่วนบุคคล
เอเจนต์หลักทรัพย์ สินค้าโภคภัณฑ์ และบริการทางการเงิน

การค้าปลีก

เภสัชกร
หัวหน้างานระดับต้นของพนักงานขายปลีก
ผู้จัดการทั่วไปและฝ่ายปฏิบัติการ
นักสืบเอกชนและผู้สืบสวน

การค้าส่ง

ผู้จัดการฝ่ายขาย
พนักงานรับคำสั่งซื้อ
หัวหน้างานระดับต้นของพนักงานขายที่ไม่ใช่ในภาคค้าปลีก
ตัวแทนฝ่ายขาย ขายส่งและการผลิต ยกเว้นผลิตภัณฑ์ที่เป็นเทคนิคและวิทยาศาสตร์
ตัวแทนฝ่ายขาย ขายส่งและการผลิต ผลิตภัณฑ์ทางเทคนิคและวิทยาศาสตร์

ข้อมูล

ช่างเทคนิคด้านเสียงและวิดีโอ
โปรดิวเซอร์และผู้กำกับ
นักวิเคราะห์ข่าว ผู้สื่อข่าว และนักหนังสือพิมพ์
ผู้ตัดต่อภาพยนตร์และวิดีโอ
บรรณาธิการ

GDPval ครอบคลุม 44 อาชีพที่ใช้ความรู้ใน 9 ภาคส่วน ตั้งแต่นักพัฒนาซอฟต์แวร์และทนายความไปจนถึงพยาบาลวิชาชีพและวิศวกรเครื่องกล อาชีพเหล่านี้ได้รับการคัดเลือกเนื่องจากความสำคัญทางเศรษฐกิจและเป็นตัวแทนของประเภทงานประจำวันซึ่ง AI สามารถช่วยเหลือผู้เชี่ยวชาญได้อย่างมีนัยสำคัญ

เราสร้างชุดข้อมูลนี้ขึ้นมาอย่างไร

สำหรับแต่ละอาชีพ เราได้ทำงานร่วมกับมืออาชีพที่มีประสบการณ์เพื่อสร้างงานที่เป็นตัวแทนซึ่งสะท้อนถึงการทำงานในแต่ละวันของพวกเขา ผู้เชี่ยวชาญเหล่านี้มีประสบการณ์เฉลี่ย 14 ปี และมีประวัติการก้าวหน้าอย่างโดดเด่น เราได้คัดเลือกผู้เชี่ยวชาญที่หลากหลายอย่างตั้งใจ เช่น ทนายความจากสาขาการปฏิบัติต่างๆ และบริษัทที่มีขนาดต่างกัน เพื่อเพิ่มความเป็นตัวแทนสูงสุด

แต่ละงานได้ผ่านกระบวนการตรวจสอบหลายขั้นตอนเพื่อให้แน่ใจว่าเป็นตัวแทนของงานจริง สามารถทำได้โดยมืออาชีพอื่น และชัดเจนสำหรับการประเมิน โดยเฉลี่ยแล้ว แต่ละงานได้รับการตรวจสอบจากผู้เชี่ยวชาญ 5 รอบ รวมถึงการตรวจสอบจากผู้เขียนงานคนอื่นๆ ผู้ตรวจสอบอาชีพเพิ่มเติม และการตรวจสอบโดยใช้โมเดล

ชุดข้อมูลที่ได้ประกอบด้วยงานที่ผ่านการตรวจสอบอย่างสมบูรณ์ 30 งานต่ออาชีพ (ชุดเต็ม) โดยมี 5 งานต่ออาชีพในชุดทองที่เปิดเผยต่อสาธารณะของเรา ซึ่งเป็นพื้นฐานที่แข็งแกร่งสำหรับการประเมินประสิทธิภาพของโมเดลในการทำงานความรู้ในโลกแห่งความเป็นจริง

ตัวอย่างของงาน GDPval

คำสั่งพร้อมบริบทของงาน

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

ผลงานที่มนุษย์มีประสบการณ์

ภาพแสดงการแยกส่วนของการออกแบบสำหรับรอกสายเคเบิล

งานแต่ละงานใน GDPval ได้รับการออกแบบโดยมืออาชีพที่มีประสบการณ์และสะท้อนถึงงานความรู้จริงจากอาชีพของพวกเขา คำสั่งนี้เป็นงานที่สมจริงที่สร้างขึ้นโดยผู้เชี่ยวชาญโดเมน และผลลัพธ์ที่มีคุณค่าสูงสุดคือวิธีแก้ปัญหาของผู้เชี่ยวชาญเอง

วิธีที่เราให้คะแนนประสิทธิภาพของโมเดล

ในการประเมินประสิทธิภาพของโมเดลในงาน GDPval เราอาศัยผู้เชี่ยวชาญในการให้คะแนน—กลุ่มของมืออาชีพที่มีประสบการณ์จากอาชีพเดียวกันที่แสดงในชุดข้อมูล ผู้ประเมินเหล่านี้เปรียบเทียบผลงานที่สร้างโดยโมเดลกับผลงานที่สร้างโดยผู้เขียนงานโดยไม่ทราบว่าอันไหนสร้างโดย AI หรือมนุษย์ และให้คำวิจารณ์และการจัดอันดับ ผู้ประเมินจะจัดอันดับผลงานของมนุษย์และ AI และจำแนกผลงานของ AI แต่ละชิ้นว่า "ดีกว่า", "ดีเท่ากับ", หรือ "แย่กว่า" เมื่อเปรียบเทียบกัน

ผู้เขียนงานยังได้สร้างเกณฑ์การให้คะแนนโดยละเอียดสำหรับอาชีพของพวกเขา ซึ่งเพิ่มความสม่ำเสมอและความโปร่งใสให้กับกระบวนการให้คะแนน เรายังได้พัฒนา "ระบบให้คะแนนอัตโนมัติ" ซึ่งเป็นระบบ AI ที่ได้รับการฝึกฝนให้ประเมินว่าผู้เชี่ยวชาญมนุษย์จะตัดสินผลงานที่กำหนดไว้อย่างไร กล่าวอีกนัยหนึ่ง แทนที่จะต้องทำการตรวจสอบโดยผู้เชี่ยวชาญทุกครั้ง ระบบให้คะแนนอัตโนมัติสามารถทำนายได้อย่างรวดเร็วว่าผลลัพธ์ใดที่ผู้คนอาจจะชอบมากกว่า เรากำลังเปิดตัวเครื่องมือนี้ผ่าน evals.openai.com ในฐานะบริการวิจัยเชิงทดลอง แต่ยังไม่สามารถเชื่อถือได้เท่ากับผู้ให้คะแนนที่เป็นผู้เชี่ยวชาญ ดังนั้นเราจึงไม่ใช้มันเพื่อแทนที่พวกเขา

ผลลัพธ์ในช่วงเริ่มต้น

เราพบว่าโมเดลแนวหน้าที่ดีที่สุดในปัจจุบันกำลังเข้าใกล้คุณภาพของงานที่ผลิตโดยผู้เชี่ยวชาญในอุตสาหกรรมแล้ว เพื่อทดสอบสิ่งนี้ เราได้ทำการประเมินแบบปิดตา โดยที่ผู้เชี่ยวชาญในอุตสาหกรรมได้เปรียบเทียบผลงานจากโมเดลชั้นนำหลายตัว ได้แก่ GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro และ Grok 4 กับผลงานที่ผลิตโดยมนุษย์ ในงาน 220 งานในชุด GDPval gold เราได้บันทึกเมื่อผลลัพธ์ของโมเดลถูกประเมินว่าดีกว่า (“ชนะ”) หรือเทียบเท่ากับ (“เสมอ”) ผลงานจากผู้เชี่ยวชาญในอุตสาหกรรม ดังที่แสดงในแผนภูมิแท่งด้านล่าง Claude Opus 4.1 เป็นโมเดลที่มีประสิทธิภาพดีที่สุดในชุดนี้ โดยเฉพาะในด้านความสวยงาม (เช่น การจัดรูปแบบเอกสาร การจัดวางสไลด์) และ GPT‑5 โดดเด่นในด้านความแม่นยำ (เช่น การค้นหาความรู้เฉพาะโดเมน) เรายังเห็นความก้าวหน้าที่ชัดเจนเมื่อเวลาผ่านไปในงานเหล่านี้ ประสิทธิภาพเพิ่มขึ้นมากกว่าสองเท่าจาก GPT‑4o (เปิดตัวในฤดูใบไม้ผลิปี 2024) ไปยัง GPT‑5 (เปิดตัวในฤดูร้อนปี 2025) ตามแนวโน้มเชิงเส้นที่ชัดเจน

นอกจากนี้ เราพบว่าโมเดลล้ำสมัยสามารถทำงาน GDPval ได้เร็วกว่าและถูกกว่าผู้เชี่ยวชาญในอุตสาหกรรมประมาณ 100 เท่า อย่างไรก็ตาม ตัวเลขเหล่านี้สะท้อนถึงเวลาในการอนุมานของโมเดลและอัตราค่าบริการ API เท่านั้น และดังนั้นจึงไม่ครอบคลุมถึงการตรวจสอบโดยมนุษย์ การทำซ้ำ และขั้นตอนการบูรณาการที่จำเป็นในสภาพแวดล้อมการทำงานจริงเพื่อใช้โมเดลของเรา อย่างไรก็ตาม โดยเฉพาะในกลุ่มงานย่อยที่โมเดลมีความสามารถสูง เราคาดว่าการมอบหมายงานให้โมเดลก่อนที่จะลองกับมนุษย์จะช่วยประหยัดเวลาและเงิน

ผู้เชี่ยวชาญด้านการให้คะแนนได้เปรียบเทียบผลงานจากโมเดลชั้นนำกับผู้เชี่ยวชาญมนุษย์ โมเดลล้ำสมัยในปัจจุบันกำลังเข้าใกล้คุณภาพของงานที่ผลิตโดยผู้เชี่ยวชาญในอุตสาหกรรมแล้ว Claude Opus 4.1 ผลิตผลลัพธ์ที่ได้รับการประเมินว่าดีเท่ากับหรือดีกว่ามนุษย์ในงานเกือบครึ่งหนึ่งของทั้งหมด

จาก GPT‑4o ถึง GPT‑5 ประสิทธิภาพของงาน GDPval เพิ่มขึ้นมากกว่าสามเท่าภายในหนึ่งปี

สุดท้ายนี้ เราได้ฝึกอบรมเวอร์ชันทดลองภายในของ GPT‑5 อย่างค่อยเป็นค่อยไปเพื่อประเมินว่าเราสามารถปรับปรุงประสิทธิภาพบน GDPval ได้หรือไม่ เราพบว่ากระบวนการนี้ช่วยปรับปรุงประสิทธิภาพ สร้างเส้นทางสำหรับการปรับปรุงเพิ่มเติมที่อาจเกิดขึ้น การทดลองที่ควบคุมอื่นๆ ย้อนกลับสิ่งนี้: การเพิ่มขนาดของโมเดล การส่งเสริมขั้นตอนการให้เหตุผลมากขึ้น และการให้บริบทของงานที่สมบูรณ์ยิ่งขึ้น ล้วนแล้วแต่ทำให้เกิดการพัฒนาที่วัดได้

คุณสามารถอ่านผลลัพธ์ทั้งหมดได้ในเอกสารของเรา เรายังเปิดตัวชุดย่อยทองของงาน GDPval และบริการการให้คะแนนสาธารณะเพื่อให้นักวิจัยคนอื่นสามารถต่อยอดจากงานนี้ได้

อนาคตของการทำงานและปัญญาประดิษฐ์

เมื่อ AI มีความสามารถมากขึ้น มันอาจจะทำให้เกิดการเปลี่ยนแปลงในตลาดงาน ผลลัพธ์เบื้องต้นของ GDPval แสดงให้เห็นว่าโมเดลสามารถทำงานที่ซ้ำซากและมีการกำหนดไว้อย่างดีได้เร็วกว่าและมีต้นทุนต่ำกว่าผู้เชี่ยวชาญ อย่างไรก็ตาม งานส่วนใหญ่มีมากกว่าการเป็นเพียงแค่การรวบรวมงานที่สามารถบันทึกลงไปได้ GDPval ชี้ให้เห็นว่า AI สามารถจัดการงานประจำได้ เพื่อให้ผู้คนมีเวลาในการทำงานที่ต้องใช้ความคิดสร้างสรรค์และการตัดสินใจมากขึ้น เมื่อ AI สนับสนุนการทำงานของมนุษย์ในลักษณะนี้ มันสามารถแปลเป็นการเติบโตทางเศรษฐกิจที่สำคัญได้ เป้าหมายของเราคือการทำให้ทุกคนอยู่บน "ลิฟต์ขึ้น" ของ AI โดยการทำให้เครื่องมือเหล่านี้เข้าถึงได้อย่างทั่วถึง สนับสนุนพนักงานผ่านการเปลี่ยนแปลง และสร้างระบบที่ให้รางวัลแก่การมีส่วนร่วมในวงกว้าง

ข้อจำกัดและก้าวต่อไป

GDPval เป็นขั้นตอนแรกเริ่ม แม้ว่าจะครอบคลุม 44 อาชีพและงานหลายร้อยงาน แต่เรากำลังปรับปรุงแนวทางของเราอย่างต่อเนื่องเพื่อขยายขอบเขตของการทดสอบและทำให้ผลลัพธ์มีความหมายมากขึ้น เวอร์ชันปัจจุบันของการประเมินเป็นแบบครั้งเดียว ดังนั้นจึงไม่ครอบคลุมกรณีที่โมเดลจำเป็นต้องสร้างบริบทหรือปรับปรุงผ่านการร่างหลายครั้ง เช่น การแก้ไขเอกสารทางกฎหมายหลังจากได้รับข้อเสนอแนะจาก client หรือการทำซ้ำการวิเคราะห์ข้อมูลหลังจากพบความผิดปกติ นอกจากนี้ ในโลกแห่งความเป็นจริง งานไม่ได้ถูกกำหนดไว้อย่างชัดเจนเสมอไปด้วยคำสั่งและไฟล์อ้างอิง; ตัวอย่างเช่น ทนายความอาจต้องจัดการกับความคลุมเครือและพูดคุยกับ client ของพวกเขาก่อนที่จะตัดสินใจว่าสร้างบทสรุปทางกฎหมายเป็นวิธีที่เหมาะสมในการช่วยเหลือพวกเขา เราวางแผนที่จะขยาย GDPval เพื่อรวมอาชีพ อุตสาหกรรม และประเภทงานให้มากขึ้น พร้อมกับเพิ่มความสามารถในการโต้ตอบ และเพิ่มงานที่เกี่ยวข้องกับการจัดการความคลุมเครือ โดยมีเป้าหมายระยะยาวในการวัดความก้าวหน้าในงานความรู้ที่หลากหลายได้ดียิ่งขึ้น

เข้าร่วมกิจกรรม

หากคุณเป็นผู้เชี่ยวชาญในอุตสาหกรรมที่สนใจจะร่วมให้ข้อมูลกับ GDPval โปรดแสดงความจำนงได้ที่นี่
หากคุณเป็นลูกค้าที่ทำงานร่วมกับ OpenAI และต้องการมีส่วนร่วมในรอบต่อไปของ GDPval โปร แสดงความจำนงที่นี่

การมีส่วนร่วมของชุมชนเป็นสิ่งสำคัญ เรารู้สึกตื่นเต้นที่จะสร้าง GDPval ร่วมกับนักวิจัย ผู้ปฏิบัติงาน และองค์กรที่มีเป้าหมายร่วมกันในการทำให้ AGI มีประโยชน์มากขึ้นสำหรับผู้คนในที่ทำงาน

ผู้เขียน

OpenAI

อ่านต่อ

ดูทั้งหมด

GPT-Red: การปลดล็อกการพัฒนาตนเองเพื่อสร้างความทนทาน

ความปลอดภัย15 ก.ค. 2569

การแยกผลลัพธ์ที่แท้จริงออกจากข้อผิดพลาดในการประเมินการเขียนโค้ด

งานวิจัย8 ก.ค. 2569

ขอแนะนำ GeneBench-Pro

งานวิจัย30 มิ.ย. 2569