پرش به محتوای اصلی
OpenAI

۳ مهر ۱۴۰۴

مقالاتتحقیق

سنجش عملکرد مدل‌های ما در وظایف دنیای واقعی

ما GDPval را معرفی می‌کنیم، یک ارزیابی جدید که عملکرد مدل را در وظایف واقعی و اقتصادی ارزشمند در ۴۴ شغل مختلف اندازه‌گیری می‌کند.

ماموریت ما این است که اطمینان حاصل کنیم که هوش مصنوعی عمومی به نفع همهٔ بشریت باشد. ما می‌خواهیم به عنوان بخشی از مأموریت‌مان به‌طور شفاف پیشرفت در چگونگی کمک مدل‌های هوش مصنوعی به مردم در دنیای واقعی را اطلاع‌رسانی کنیم. به همین دلیل ما GDPval را معرفی می‌کنیم: یک ارزیابی جدید که برای کمک به ما در پیگیری عملکرد مدل‌های خود و دیگران در وظایف واقعی و اقتصادی ارزشمند طراحی شده است. ما این ارزیابی را GDPval می‌نامیم زیرا با مفهوم تولید ناخالص داخلی (GDP) به عنوان یک شاخص اقتصادی کلیدی شروع کردیم و وظایف را از مشاغل کلیدی در صنایعی که بیشترین سهم را در تولید ناخالص داخلی دارند، استخراج کردیم.

مردم اغلب درباره تأثیر گسترده‌تر هوش مصنوعی بر جامعه گمانه‌زنی می‌کنند، اما واضح‌ترین راه برای درک پتانسیل آن، نگاه کردن به کارهایی است که مدل‌ها هم‌اکنون قادر به انجام‌شان هستند. تاریخ نشان می‌دهد که فناوری‌های بزرگ—از اینترنت تا تلفن‌های هوشمند—بیش از یک دهه طول کشید تا از اختراع به پذیرش گسترده Go کنند. ارزیابی‌هایی مانند GDPval به جای حدس و گمان، مکالمات درباره بهبودهای آینده هوش مصنوعی را بر اساس شواهد پایه‌گذاری می‌کنند و می‌توانند به ما در پیگیری بهبود مدل در طول زمان کمک کنند.

ارزیابی‌های قبلی هوش مصنوعی مانند آزمون‌های دانشگاهی چالش‌برانگیز و چالش‌های کدنویسی رقابتی در گسترش مرزهای قابلیت‌های استدلال مدل‌ها نقش اساسی داشته‌اند، اما اغلب در مواجهه با نوع وظایفی که بسیاری از مردم در کارهای روزمره‌شان انجام می‌دهند، کم می‌آورند.

برای پر کردن این شکاف، ما در حال توسعهٔ ارزیابی‌هایی هستیم که قابلیت‌های فزاینده واقع‌گرایانه و از نظر اقتصادی مرتبط را می‌سنجند. این پیشرفت از معیارهای کلاسیک دانشگاهی مانند MMLU (سوالات به سبک امتحان در ده‌ها موضوع) به ارزیابی‌های کاربردی‌تر مانند SWE-Bench (وظایف رفع اشکال مهندسی نرم‌افزار)، MLE-Bench (وظایف مهندسی یادگیری ماشین مانند آموزش و تحلیل مدل)، و Paper-Bench (استدلال علمی و نقد مقالات پژوهشی) و اخیراً به ارزیابی‌های مبتنی بر بازار مانند SWE-Lancer (پروژه‌های مهندسی نرم‌افزار فریلنس بر اساس پرداخت‌های واقعی) منتقل شده است.

GDPval گام بعدی در آن پیشرفت است. این مدل عملکرد را در وظایفی که به طور مستقیم از کارهای دانش واقعی حرفه‌ای‌های با تجربه در طیف گسترده‌ای از مشاغل و بخش‌ها استخراج شده‌اند، اندازه‌گیری می‌کند و تصویری واضح‌تر از چگونگی عملکرد مدل‌ها در وظایف اقتصادی ارزشمند ارائه می‌دهد. ارزیابی مدل‌ها در وظایف شغلی واقعی به ما کمک می‌کند تا نه تنها عملکرد آنها در آزمایشگاه را درک کنیم، بلکه بفهمیم چگونه می‌توانند از افراد در کارهای روزمره‌شان حمایت کنند. 

GDPval چه چیزی را اندازه‌گیری می‌کند

GDPval، اولین نسخه از این ارزیابی، شامل ۴۴ شغل انتخاب شده از ۹ صنعت برتر است که به تولید ناخالص داخلی ایالات متحده کمک می‌کنند. مجموعه کامل GDPval شامل 1,320 وظیفه تخصصی است (220 وظیفه در مجموعه متن‌باز طلایی)، که هر یک با دقت و توسط حرفه‌ای‌های با تجربه با میانگین بیش از 14 سال تجربه در این زمینه‌ها طراحی و بررسی شده‌اند. هر وظیفه‌ای بر اساس محصولات واقعی کاری است، مانند یک خلاصه حقوقی، یک نقشه مهندسی، یک مکالمه پشتیبانی مشتری، یا یک برنامه مراقبت پرستاری.

GDPval هم در واقع‌گرایی و هم در تنوع وظایف ارزیابی‌شده، متمایز است. برخلاف سایر ارزیابی‌هایی که به ارزش اقتصادی مرتبط هستند و بر حوزه‌های خاصی تمرکز دارند (مانند SWE-Lancer)، GDPval بسیاری از وظایف و مشاغل را در بر می‌گیرد. برخلاف معیارهایی که شامل ایجاد مصنوعی وظایف به سبک یک آزمون یا امتحان دانشگاهی هستند (مانند امتحان نهایی بشریت یا MMLU)، GDPval بر روی وظایفی تمرکز دارد که بر اساس تحویل‌دادنی‌ها هستند؛ یعنی یا یک قطعه کار یا محصول واقعی که امروزه وجود دارد یا یک قطعه کار مشابه که به طور مشابه ساخته شده است. 

برخلاف معیارهای سنتی، وظایف GDPval درخواست‌های متنی ساده‌ای نیستند. آنها با فایل‌های مرجع و زمینه همراه هستند و تحویل‌های مورد انتظار شامل اسناد، اسلایدها، نمودارها، صفحات گسترده و چندرسانه‌ای است. این واقع‌گرایی، GDPval را به آزمونی واقع‌گرایانه‌تر برای چگونگی پشتیبانی مدل‌ها از حرفه‌ای‌ها تبدیل می‌کند.

GDPval یک گام اولیه است که تمام جزئیات بسیاری از وظایف اقتصادی را منعکس نمی‌کند. در حالی که این مدل ۴۴ شغل و صدها وظیفه کاری دانش را در بر می‌گیرد، به ارزیابی‌های تک‌مرحله‌ای محدود است، بنابراین مواردی را که مدل نیاز به ایجاد زمینه یا بهبود از طریق چندین پیش‌نویس دارد، ثبت نمی‌کند. نسخه‌های آینده به گردش کارهای تعاملی‌تر و وظایف غنی از زمینه گسترش خواهند یافت تا پیچیدگی کارهای دانش دنیای واقعی را بهتر منعکس کنند (برای اطلاعات بیشتر به بخش محدودیت‌های ما در زیر مراجعه کنید).

چگونه شغل‌ها را انتخاب کردیم

GDPval وظایف را در ۹ صنعت و ۴۴ شغل پوشش می‌دهد و نسخه‌های آینده به گسترش پوشش ادامه خواهند داد. ۹ صنعت اولیه بر اساس آن‌هایی انتخاب شدند که بیش از ۵٪ به تولید ناخالص داخلی ایالات متحده کمک کرده‌اند، طبق داده‌های بانک فدرال رزرو سنت لوئیس. سپس، ما ۵ شغل در هر صنعت را که بیشترین سهم را در کل دستمزدها و جبران خسارت‌ها دارند و به طور عمده مشاغل دانش‌بنیان هستند، با استفاده از داده‌های دستمزد و اشتغال از گزارش اشتغال شغلی اداره آمار کار ایالات متحده (BLS) در ماه مه ۲۰۲۴(در یک پنجره جدید باز می‌شود) انتخاب کردیم. برای تعیین اینکه آیا مشاغل به طور عمده کارهای دانشی بودند، از داده‌های وظایف O*NET(در یک پنجره جدید باز می‌شود)، یک پایگاه داده اطلاعات شغلی ایالات متحده که توسط وزارت کار ایالات متحده حمایت می‌شود، استفاده کردیم. ما طبقه‌بندی کردیم که آیا هر وظیفه برای هر شغل در O*NET به عنوان کار دانشی یا کار فیزیکی/کار یدی (که نیاز به اقداماتی در دنیای فیزیکی دارد) محسوب می‌شود. یک شغل به طور کلی به عنوان «کار عمدتاً دانشی» واجد شرایط است اگر حداقل ۶۰٪ از وظایف آن به عنوان کارهایی که شامل کار فیزیکی یا کار یدی نمی‌شوند، طبقه‌بندی شده باشند. ما این آستانه ۶۰٪ را به عنوان نقطه شروع برای نسخه اول GDPval انتخاب کردیم، با تمرکز بر مشاغلی که در آن‌ها هوش مصنوعی می‌تواند بیشترین تأثیر را بر بهره‌وری دنیای واقعی داشته باشد. 

این فرآیند به گنجاندن ۴۴ شغل منجر شد.

املاک، اجاره و لیزینگ

  • دربان‌ها

  • مدیران املاک، مستغلات و مدیران انجمن‌های جامعه

  • عامل‌های فروش املاک و مستغلات

  • مشاوران املاک

  • کارمندان پیشخوان و اجاره‌ای

حکومت

  • کارکنان سرگرمی

  • مسئولان انطباق

  • سرپرستان رده اول پلیس و کارآگاهان

  • مدیران خدمات اداری

  • مددکاران اجتماعی کودکان، خانواده و مدارس

تولید

  • مهندسان مکانیک

  • مهندسان صنعتی

  • خریداران و نمایندگان خرید

  • کارمندان بخش حمل و نقل، دریافت و انبارداری

  • سرپرستان خط اول کارگران تولید و عملیاتی

خدمات حرفه‌ای، علمی و فنی

  • توسعه‌دهندگان نرم‌افزار

  • وکیل‌ها

  • حسابداران و حسابرسان

  • مدیران سامانه‌های رایانه و اطلاعات

  • متخصصین مدیریت پروژه

مراقبت‌های بهداشتی و خدمات اجتماعی

  • پرستاران دارای پروانه

  • پرستاران ورزکار

  • مدیران خدمات پزشکی و بهداشتی

  • سرپرستان خط اول کارکنان پشتیبانی اداری و دفتری

  • منشی‌های پزشکی و دستیاران اداری

امور مالی و بیمه

  • نمایندگان خدمات مشتریان

  • تحلیلگران مالی و سرمایه‌گذاری

  • مدیران مالی

  • مشاوران مالی شخصی

  • عوامل فروش اوراق بهادار، کالاها و خدمات مالی

تجارت خرده‌فروشی

  • دارو سازان

  • سرپرستان خط اول کارکنان فروش خرده‌فروشی

  • مدیران عمومی و عملیاتی

  • کارآگاهان خصوصی و کارآگاهان

تجارت عمده‌فروشی

  • مدیران فروش

  • کارمندان سفارشات

  • سرپرستان خط اول کارکنان فروش در بخش غیر خرده فروشی

  • نمایندگان فروش، عمده فروشی و تولید، به جز محصولات فنی و علمی

  • نمایندگان فروش، عمده فروشی و تولید، محصولات فنی و علمی

اطلاعات

  • تکنسین‌های صوتی و تصویری

  • تولید کنندگان و کارگردان‌ها

  • تحلیلگران اخبار، گزارشگران و خبرنگاران

  • تدوین‌گران فیلم و ویدیو

  • ویراستاران

GDPval شامل 44 شغل در حوزه‌های دانش‌محور در 9 بخش مختلف است، از توسعه‌دهندگان نرم‌افزار و وکلا گرفته تا پرستاران ثبت‌شده و مهندسان مکانیک. این مشاغل به‌دلیل اهمیت اقتصادی‌شان انتخاب شده‌اند و نمایانگر انواع فعالیت‌های روزمره‌ای هستند که هوش مصنوعی می‌تواند در آن‌ها به‌طور معناداری به حرفه‌ای‌ها کمک کند.

چگونه مجموعه داده را ساختیم

برای هر شغل، ما با حرفه‌ای‌های با تجربه همکاری کردیم تا وظایف نماینده‌ای ایجاد کنیم که کار روزمره‌شان را منعکس کند. این حرفه‌ای‌ها به طور متوسط ۱۴ سال تجربه داشتند و سوابق قوی پیشرفت داشتند. ما به‌طور عمدی گروهی از کارشناسان را استخدام کردیم—مانند وکلایی از حوزه‌های مختلف حقوقی و شرکت‌هایی با اندازه‌های متفاوت—تا نمایندگی را به حداکثر برسانیم.

هر وظیفه از یک فرآیند بازبینی چندمرحله‌ای عبور داده شد تا اطمینان حاصل شود که نمایانگر کار واقعی است، برای یک متخصص دیگر قابل انجام است، و برای ارزیابی واضح می‌باشد. به‌طور میانگین، هر وظیفه 5 مرحله بازبینی تخصصی دریافت کرد، از جمله بررسی‌هایی توسط نویسندگان وظایف دیگر، ارزیابان شغلی اضافی، و اعتبارسنجی مبتنی بر مدل.

مجموعه داده‌ای که شامل ۳۰ وظیفه کاملاً بررسی‌شده برای هر شغل (مجموعه کامل) و ۵ وظیفه برای هر شغل در مجموعه طلایی منبع‌باز ما است، پایه‌ای قوی برای ارزیابی عملکرد مدل در کارهای دانشی دنیای واقعی فراهم می‌کند.

نمونه‌هایی از وظایف GDPval

پرامپت + زمینهٔ وظیفه

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

تحویل انسانی مجرب

نمای انفجاری از طراحی یک قرقره کابل
هر وظیفه در GDPval توسط یک حرفه‌ای با تجربه طراحی شده و بازتاب‌دهنده کار واقعی دانش از حرفه آن‌ها است. این تکلیف کاری واقع‌گرایانه توسط یک کارشناس حوزه ایجاد شده است و نتیجه نهایی طلایی، راه‌حل خود کارشناس می‌باشد.

چگونه عملکرد مدل را ارزیابی می‌کنیم

برای ارزیابی عملکرد مدل در وظایف GDPval، ما به «ارزیابان» متخصص تکیه می‌کنیم—گروهی از حرفه‌ای‌های با تجربه از همان مشاغلی که در مجموعه داده‌ها نمایندگی شده‌اند. این ارزیابان به صورت ناشناس تحویل‌دادنی‌های تولید شده توسط مدل‌ها را با آن‌هایی که توسط نویسندگان وظایف تولید شده‌اند مقایسه می‌کنند (بدون اینکه بدانند کدام یک توسط هوش مصنوعی و کدام توسط انسان تولید شده است) و نقدها و رتبه‌بندی‌هایی ارائه می‌دهند. سپس ارزیابان، تحویل‌دادنی‌های انسانی و هوش مصنوعی را رتبه‌بندی می‌کنند و هر تحویل‌دادنی هوش مصنوعی را به عنوان «بهتر»، «به همان خوبی» یا «بدتر از» دیگری دسته‌بندی می‌کنند.

نویسندگان وظایف همچنین معیارهای نمره‌دهی دقیقی برای مشاغل خود ایجاد کردند که به فرآیند نمره‌دهی انسجام و شفافیت می‌بخشد. ما همچنین یک «نمره‌دهنده خودکار» ساختیم، یک سیستم هوش مصنوعی که آموزش دیده تا نحوه ارزیابی کارشناسان انسانی از یک تحویل‌دادنی را تخمین بزند. به عبارت دیگر، به جای اجرای یک بررسی کامل توسط کارشناسان در هر بار، نمره‌دهنده خودکار می‌تواند به سرعت پیش‌بینی کند که کدام خروجی احتمالاً افراد ترجیح می‌دهند. ما این ابزار را به عنوان یک سرویس تحقیقاتی آزمایشی از طریق evals.openai.com منتشر می‌کنیم، اما هنوز به اندازه ارزیابان متخصص قابل اعتماد نیست، بنابراین از آن برای جایگزینی‌شان استفاده نمی‌کنیم. 

نتایج اولیه

ما متوجه شدیم که مدل‌های پیشرو امروزی به کیفیت کار تولید شده توسط کارشناسان صنعت نزدیک می‌شوند. برای آزمایش این موضوع، ارزیابی‌های کور انجام دادیم که در آن کارشناسان صنعت، خروجی‌های چندین مدل پیشرو—GPT‑4o، o4-mini، OpenAI o3، GPT‑5، Claude Opus 4.1، Gemini 2.5 Pro و Grok 4—را با کار تولید شده توسط انسان مقایسه کردند. در ۲۲۰ وظیفه در مجموعه طلایی GDPval، ثبت کردیم که خروجی‌های مدل زمانی که به عنوان بهتر از («پیروزی‌ها») یا هم‌سطح با («تساوی‌ها») تحویل‌های کارشناسان صنعت ارزیابی شدند، همان‌طور که در نمودار میله‌ای زیر نشان داده شده است. مدل Claude Opus 4.1 بهترین عملکرد را در مجموعه داشت و به ویژه در زمینه زیبایی‌شناسی (مانند قالب‌بندی اسناد، چیدمان اسلایدها) برتری داشت، و GPT‑5 به ویژه در دقت (مانند یافتن دانش خاص حوزه) بسیار خوب عمل کرد. ما همچنین پیشرفت واضحی را در طول زمان در این وظایف مشاهده می‌کنیم. عملکرد از GPT‑4o (منتشر شده در بهار ۲۰۲۴) تا GPT‑5 (منتشر شده در تابستان ۲۰۲۵) بیش از دو برابر شده است و این روند به وضوح سیر خطی است.

علاوه بر این، ما دریافتیم که مدل‌های پیشرو می‌توانند وظایف GDPval رابه طور تقریبی۱۰۰ برابر سریع‌تر و ۱۰۰ برابر ارزان‌تر از کارشناسان صنعت انجام دهند. با این حال، این ارقام تنها زمان استنتاج مدل و نرخ‌های صورتحساب API را نشان می‌دهند و بنابراین نظارت انسانی، تکرار و مراحل یکپارچه‌سازی مورد نیاز در محیط‌های کاری واقعی برای استفاده از مدل‌های ما را شامل نمی‌شوند. با این حال، به‌ویژه در زیرمجموعه‌ای از وظایف که مدل‌ها در آن‌ها به‌طور خاص قوی هستند، انتظار داریم که سپردن یک وظیفه به مدل قبل از امتحان آن با انسان، زمان و هزینه را صرفه‌جویی کند.

ارزیابان متخصص، خروجی‌های مدل‌های پیشرو را با کارشناسان انسانی مقایسه کردند. مدل‌های پیشرو امروزی در حال حاضر به کیفیت کاری که توسط کارشناسان صنعت تولید می‌شود، نزدیک می‌شوند. خروجی‌های Claude Opus 4.1 در کمتر از نیمی از وظایف به خوبی یا بهتر از انسان‌ها ارزیابی شده‌اند.

از GPT‑4o به GPT‑5، عملکرد در وظایف GDPval طی یک سال بیش از سه برابر افزایش یافت. 

در نهایت، ما نسخه داخلی و آزمایشی GPT‑5 را به صورت تدریجی آموزش دادیم تا ببینیم آیا می‌توانیم عملکرد را در GDPval بهبود دهیم. ما متوجه شدیم که این فرآیند عملکرد را بهبود داده و راهی برای بهبودهای بالقوه بیشتر فراهم کرده است. سایر آزمایش‌های کنترل‌شده این موضوع را تأیید می‌کنند: افزایش اندازه مدل، تشویق به مراحل بیشتر استدلال، و ارائه زمینه غنی‌تر برای وظایف هر کدام به پیشرفت‌های قابل اندازه‌گیری منجر شده‌اند.

شما می‌توانید نتایج کامل را در مقالهٔ ما بخوانید. ما همچنین یک زیرمجموعه طلایی از وظایف GDPval و یک سرویس نمره‌دهی عمومی منتشر می‌کنیم تا محققان دیگر بتوانند بر پایهٔ این کار ادامه دهند.

آیندهٔ کار و هوش مصنوعی 

با افزایش توانمندی‌های هوش مصنوعی، احتمالاً شاهد تغییراتی در بازار کار خواهیم بود. نتایج اولیه GDPval نشان می‌دهد که مدل‌ها هم‌اکنون می‌توانند برخی وظایف تکراری و مشخص را سریع‌تر و با هزینه‌ای کمتر از متخصصان انجام دهند. با این حال، بیشتر مشاغل صرفاً مجموعه‌ای از وظایف قابل‌نوشتن نیستند. GDPval نشان می‌دهد که هوش مصنوعی در کدام بخش‌ها می‌تواند وظایف روتین را انجام دهد تا افراد بتوانند زمان بیشتری را صرف بخش‌های خلاقانه و نیازمند قضاوت شغلی کنند. وقتی هوش مصنوعی به این شکل مکمل نیروی کار شود، می‌تواند به رشد اقتصادی قابل توجهی منجر شود. هدف ما این است که با دموکراتیک‌سازی دسترسی به این ابزارها، حمایت از کارگران در دوران تغییر، و ایجاد سیستم‌هایی که مشارکت گسترده را پاداش می‌دهند، همه را بر «آسانسور روبه‌بالای» هوش مصنوعی نگه داریم.

محدودیت‌ها و گام‌های بعدی

GDPval یک گام اولیه است. در حالی که این برنامه ۴۴ شغل و صدها وظیفه را پوشش می‌دهد، ما همچنان به اصلاح رویکرد خود برای گسترش دامنه آزمایش‌های‌مان و معنادارتر کردن نتایج ادامه می‌دهیم. نسخه فعلی ارزیابی نیز تک‌مرحله‌ای است، بنابراین مواردی را که مدل نیاز به ایجاد زمینه یا بهبود از طریق چندین پیش‌نویس دارد، مانند بازبینی یک خلاصه حقوقی پس از بازخورد مشتری یا تکرار تحلیل داده‌ها پس از مشاهده یک ناهنجاری، در بر نمی‌گیرد. علاوه بر این، در دنیای واقعی، وظایف همیشه به وضوح با یک دستورالعمل و فایل‌های مرجع تعریف نمی‌شوند؛ برای مثال، یک وکیل ممکن است نیاز داشته باشد که با ابهام مواجه شود و قبل از تصمیم‌گیری برای ایجاد یک خلاصه حقوقی به عنوان رویکرد مناسب برای کمک به موکلش، با او صحبت کند. ما قصد داریم GDPval را گسترش دهیم تا مشاغل، صنایع و انواع وظایف بیشتری را شامل شود، با افزایش تعامل و وظایف بیشتری که شامل مدیریت ابهام هستند، با هدف بلندمدت اندازه‌گیری بهتر پیشرفت در کارهای دانشی متنوع.

درگیر شو

مشارکت جامعه ضروری است—ما مشتاقانه منتظریم تا GDPval را همراه با محققان، متخصصان، و سازمان‌هایی که هدف مشترک ما یعنی مفیدتر کردن AGI برای افراد در محیط کار را دنبال می‌کنند، توسعه دهیم.