سنجش عملکرد مدلهای ما در وظایف دنیای واقعی
ما GDPval را معرفی میکنیم، یک ارزیابی جدید که عملکرد مدل را در وظایف واقعی و اقتصادی ارزشمند در ۴۴ شغل مختلف اندازهگیری میکند.
ماموریت ما این است که اطمینان حاصل کنیم که هوش مصنوعی عمومی به نفع همهٔ بشریت باشد. ما میخواهیم به عنوان بخشی از مأموریتمان بهطور شفاف پیشرفت در چگونگی کمک مدلهای هوش مصنوعی به مردم در دنیای واقعی را اطلاعرسانی کنیم. به همین دلیل ما GDPval را معرفی میکنیم: یک ارزیابی جدید که برای کمک به ما در پیگیری عملکرد مدلهای خود و دیگران در وظایف واقعی و اقتصادی ارزشمند طراحی شده است. ما این ارزیابی را GDPval مینامیم زیرا با مفهوم تولید ناخالص داخلی (GDP) به عنوان یک شاخص اقتصادی کلیدی شروع کردیم و وظایف را از مشاغل کلیدی در صنایعی که بیشترین سهم را در تولید ناخالص داخلی دارند، استخراج کردیم.
مردم اغلب درباره تأثیر گستردهتر هوش مصنوعی بر جامعه گمانهزنی میکنند، اما واضحترین راه برای درک پتانسیل آن، نگاه کردن به کارهایی است که مدلها هماکنون قادر به انجامشان هستند. تاریخ نشان میدهد که فناوریهای بزرگ—از اینترنت تا تلفنهای هوشمند—بیش از یک دهه طول کشید تا از اختراع به پذیرش گسترده Go کنند. ارزیابیهایی مانند GDPval به جای حدس و گمان، مکالمات درباره بهبودهای آینده هوش مصنوعی را بر اساس شواهد پایهگذاری میکنند و میتوانند به ما در پیگیری بهبود مدل در طول زمان کمک کنند.
ارزیابیهای قبلی هوش مصنوعی مانند آزمونهای دانشگاهی چالشبرانگیز و چالشهای کدنویسی رقابتی در گسترش مرزهای قابلیتهای استدلال مدلها نقش اساسی داشتهاند، اما اغلب در مواجهه با نوع وظایفی که بسیاری از مردم در کارهای روزمرهشان انجام میدهند، کم میآورند.
برای پر کردن این شکاف، ما در حال توسعهٔ ارزیابیهایی هستیم که قابلیتهای فزاینده واقعگرایانه و از نظر اقتصادی مرتبط را میسنجند. این پیشرفت از معیارهای کلاسیک دانشگاهی مانند MMLU (سوالات به سبک امتحان در دهها موضوع) به ارزیابیهای کاربردیتر مانند SWE-Bench (وظایف رفع اشکال مهندسی نرمافزار)، MLE-Bench (وظایف مهندسی یادگیری ماشین مانند آموزش و تحلیل مدل)، و Paper-Bench (استدلال علمی و نقد مقالات پژوهشی) و اخیراً به ارزیابیهای مبتنی بر بازار مانند SWE-Lancer (پروژههای مهندسی نرمافزار فریلنس بر اساس پرداختهای واقعی) منتقل شده است.
GDPval گام بعدی در آن پیشرفت است. این مدل عملکرد را در وظایفی که به طور مستقیم از کارهای دانش واقعی حرفهایهای با تجربه در طیف گستردهای از مشاغل و بخشها استخراج شدهاند، اندازهگیری میکند و تصویری واضحتر از چگونگی عملکرد مدلها در وظایف اقتصادی ارزشمند ارائه میدهد. ارزیابی مدلها در وظایف شغلی واقعی به ما کمک میکند تا نه تنها عملکرد آنها در آزمایشگاه را درک کنیم، بلکه بفهمیم چگونه میتوانند از افراد در کارهای روزمرهشان حمایت کنند.
GDPval، اولین نسخه از این ارزیابی، شامل ۴۴ شغل انتخاب شده از ۹ صنعت برتر است که به تولید ناخالص داخلی ایالات متحده کمک میکنند. مجموعه کامل GDPval شامل 1,320 وظیفه تخصصی است (220 وظیفه در مجموعه متنباز طلایی)، که هر یک با دقت و توسط حرفهایهای با تجربه با میانگین بیش از 14 سال تجربه در این زمینهها طراحی و بررسی شدهاند. هر وظیفهای بر اساس محصولات واقعی کاری است، مانند یک خلاصه حقوقی، یک نقشه مهندسی، یک مکالمه پشتیبانی مشتری، یا یک برنامه مراقبت پرستاری.
GDPval هم در واقعگرایی و هم در تنوع وظایف ارزیابیشده، متمایز است. برخلاف سایر ارزیابیهایی که به ارزش اقتصادی مرتبط هستند و بر حوزههای خاصی تمرکز دارند (مانند SWE-Lancer)، GDPval بسیاری از وظایف و مشاغل را در بر میگیرد. برخلاف معیارهایی که شامل ایجاد مصنوعی وظایف به سبک یک آزمون یا امتحان دانشگاهی هستند (مانند امتحان نهایی بشریت یا MMLU)، GDPval بر روی وظایفی تمرکز دارد که بر اساس تحویلدادنیها هستند؛ یعنی یا یک قطعه کار یا محصول واقعی که امروزه وجود دارد یا یک قطعه کار مشابه که به طور مشابه ساخته شده است.
برخلاف معیارهای سنتی، وظایف GDPval درخواستهای متنی سادهای نیستند. آنها با فایلهای مرجع و زمینه همراه هستند و تحویلهای مورد انتظار شامل اسناد، اسلایدها، نمودارها، صفحات گسترده و چندرسانهای است. این واقعگرایی، GDPval را به آزمونی واقعگرایانهتر برای چگونگی پشتیبانی مدلها از حرفهایها تبدیل میکند.
GDPval یک گام اولیه است که تمام جزئیات بسیاری از وظایف اقتصادی را منعکس نمیکند. در حالی که این مدل ۴۴ شغل و صدها وظیفه کاری دانش را در بر میگیرد، به ارزیابیهای تکمرحلهای محدود است، بنابراین مواردی را که مدل نیاز به ایجاد زمینه یا بهبود از طریق چندین پیشنویس دارد، ثبت نمیکند. نسخههای آینده به گردش کارهای تعاملیتر و وظایف غنی از زمینه گسترش خواهند یافت تا پیچیدگی کارهای دانش دنیای واقعی را بهتر منعکس کنند (برای اطلاعات بیشتر به بخش محدودیتهای ما در زیر مراجعه کنید).
GDPval وظایف را در ۹ صنعت و ۴۴ شغل پوشش میدهد و نسخههای آینده به گسترش پوشش ادامه خواهند داد. ۹ صنعت اولیه بر اساس آنهایی انتخاب شدند که بیش از ۵٪ به تولید ناخالص داخلی ایالات متحده کمک کردهاند، طبق دادههای بانک فدرال رزرو سنت لوئیس. سپس، ما ۵ شغل در هر صنعت را که بیشترین سهم را در کل دستمزدها و جبران خسارتها دارند و به طور عمده مشاغل دانشبنیان هستند، با استفاده از دادههای دستمزد و اشتغال از گزارش اشتغال شغلی اداره آمار کار ایالات متحده (BLS) در ماه مه ۲۰۲۴(در یک پنجره جدید باز میشود) انتخاب کردیم. برای تعیین اینکه آیا مشاغل به طور عمده کارهای دانشی بودند، از دادههای وظایف O*NET(در یک پنجره جدید باز میشود)، یک پایگاه داده اطلاعات شغلی ایالات متحده که توسط وزارت کار ایالات متحده حمایت میشود، استفاده کردیم. ما طبقهبندی کردیم که آیا هر وظیفه برای هر شغل در O*NET به عنوان کار دانشی یا کار فیزیکی/کار یدی (که نیاز به اقداماتی در دنیای فیزیکی دارد) محسوب میشود. یک شغل به طور کلی به عنوان «کار عمدتاً دانشی» واجد شرایط است اگر حداقل ۶۰٪ از وظایف آن به عنوان کارهایی که شامل کار فیزیکی یا کار یدی نمیشوند، طبقهبندی شده باشند. ما این آستانه ۶۰٪ را به عنوان نقطه شروع برای نسخه اول GDPval انتخاب کردیم، با تمرکز بر مشاغلی که در آنها هوش مصنوعی میتواند بیشترین تأثیر را بر بهرهوری دنیای واقعی داشته باشد.
این فرآیند به گنجاندن ۴۴ شغل منجر شد.
املاک، اجاره و لیزینگ
دربانها
مدیران املاک، مستغلات و مدیران انجمنهای جامعه
عاملهای فروش املاک و مستغلات
مشاوران املاک
کارمندان پیشخوان و اجارهای
حکومت
کارکنان سرگرمی
مسئولان انطباق
سرپرستان رده اول پلیس و کارآگاهان
مدیران خدمات اداری
مددکاران اجتماعی کودکان، خانواده و مدارس
تولید
مهندسان مکانیک
مهندسان صنعتی
خریداران و نمایندگان خرید
کارمندان بخش حمل و نقل، دریافت و انبارداری
سرپرستان خط اول کارگران تولید و عملیاتی
خدمات حرفهای، علمی و فنی
توسعهدهندگان نرمافزار
وکیلها
حسابداران و حسابرسان
مدیران سامانههای رایانه و اطلاعات
متخصصین مدیریت پروژه
مراقبتهای بهداشتی و خدمات اجتماعی
پرستاران دارای پروانه
پرستاران ورزکار
مدیران خدمات پزشکی و بهداشتی
سرپرستان خط اول کارکنان پشتیبانی اداری و دفتری
منشیهای پزشکی و دستیاران اداری
امور مالی و بیمه
نمایندگان خدمات مشتریان
تحلیلگران مالی و سرمایهگذاری
مدیران مالی
مشاوران مالی شخصی
عوامل فروش اوراق بهادار، کالاها و خدمات مالی
تجارت خردهفروشی
دارو سازان
سرپرستان خط اول کارکنان فروش خردهفروشی
مدیران عمومی و عملیاتی
کارآگاهان خصوصی و کارآگاهان
تجارت عمدهفروشی
مدیران فروش
کارمندان سفارشات
سرپرستان خط اول کارکنان فروش در بخش غیر خرده فروشی
نمایندگان فروش، عمده فروشی و تولید، به جز محصولات فنی و علمی
نمایندگان فروش، عمده فروشی و تولید، محصولات فنی و علمی
اطلاعات
تکنسینهای صوتی و تصویری
تولید کنندگان و کارگردانها
تحلیلگران اخبار، گزارشگران و خبرنگاران
تدوینگران فیلم و ویدیو
ویراستاران
برای هر شغل، ما با حرفهایهای با تجربه همکاری کردیم تا وظایف نمایندهای ایجاد کنیم که کار روزمرهشان را منعکس کند. این حرفهایها به طور متوسط ۱۴ سال تجربه داشتند و سوابق قوی پیشرفت داشتند. ما بهطور عمدی گروهی از کارشناسان را استخدام کردیم—مانند وکلایی از حوزههای مختلف حقوقی و شرکتهایی با اندازههای متفاوت—تا نمایندگی را به حداکثر برسانیم.
هر وظیفه از یک فرآیند بازبینی چندمرحلهای عبور داده شد تا اطمینان حاصل شود که نمایانگر کار واقعی است، برای یک متخصص دیگر قابل انجام است، و برای ارزیابی واضح میباشد. بهطور میانگین، هر وظیفه 5 مرحله بازبینی تخصصی دریافت کرد، از جمله بررسیهایی توسط نویسندگان وظایف دیگر، ارزیابان شغلی اضافی، و اعتبارسنجی مبتنی بر مدل.
مجموعه دادهای که شامل ۳۰ وظیفه کاملاً بررسیشده برای هر شغل (مجموعه کامل) و ۵ وظیفه برای هر شغل در مجموعه طلایی منبعباز ما است، پایهای قوی برای ارزیابی عملکرد مدل در کارهای دانشی دنیای واقعی فراهم میکند.
نمونههایی از وظایف GDPval
پرامپت + زمینهٔ وظیفه
تحویل انسانی مجرب

برای ارزیابی عملکرد مدل در وظایف GDPval، ما به «ارزیابان» متخصص تکیه میکنیم—گروهی از حرفهایهای با تجربه از همان مشاغلی که در مجموعه دادهها نمایندگی شدهاند. این ارزیابان به صورت ناشناس تحویلدادنیهای تولید شده توسط مدلها را با آنهایی که توسط نویسندگان وظایف تولید شدهاند مقایسه میکنند (بدون اینکه بدانند کدام یک توسط هوش مصنوعی و کدام توسط انسان تولید شده است) و نقدها و رتبهبندیهایی ارائه میدهند. سپس ارزیابان، تحویلدادنیهای انسانی و هوش مصنوعی را رتبهبندی میکنند و هر تحویلدادنی هوش مصنوعی را به عنوان «بهتر»، «به همان خوبی» یا «بدتر از» دیگری دستهبندی میکنند.
نویسندگان وظایف همچنین معیارهای نمرهدهی دقیقی برای مشاغل خود ایجاد کردند که به فرآیند نمرهدهی انسجام و شفافیت میبخشد. ما همچنین یک «نمرهدهنده خودکار» ساختیم، یک سیستم هوش مصنوعی که آموزش دیده تا نحوه ارزیابی کارشناسان انسانی از یک تحویلدادنی را تخمین بزند. به عبارت دیگر، به جای اجرای یک بررسی کامل توسط کارشناسان در هر بار، نمرهدهنده خودکار میتواند به سرعت پیشبینی کند که کدام خروجی احتمالاً افراد ترجیح میدهند. ما این ابزار را به عنوان یک سرویس تحقیقاتی آزمایشی از طریق evals.openai.com منتشر میکنیم، اما هنوز به اندازه ارزیابان متخصص قابل اعتماد نیست، بنابراین از آن برای جایگزینیشان استفاده نمیکنیم.
ما متوجه شدیم که مدلهای پیشرو امروزی به کیفیت کار تولید شده توسط کارشناسان صنعت نزدیک میشوند. برای آزمایش این موضوع، ارزیابیهای کور انجام دادیم که در آن کارشناسان صنعت، خروجیهای چندین مدل پیشرو—GPT‑4o، o4-mini، OpenAI o3، GPT‑5، Claude Opus 4.1، Gemini 2.5 Pro و Grok 4—را با کار تولید شده توسط انسان مقایسه کردند. در ۲۲۰ وظیفه در مجموعه طلایی GDPval، ثبت کردیم که خروجیهای مدل زمانی که به عنوان بهتر از («پیروزیها») یا همسطح با («تساویها») تحویلهای کارشناسان صنعت ارزیابی شدند، همانطور که در نمودار میلهای زیر نشان داده شده است. مدل Claude Opus 4.1 بهترین عملکرد را در مجموعه داشت و به ویژه در زمینه زیباییشناسی (مانند قالببندی اسناد، چیدمان اسلایدها) برتری داشت، و GPT‑5 به ویژه در دقت (مانند یافتن دانش خاص حوزه) بسیار خوب عمل کرد. ما همچنین پیشرفت واضحی را در طول زمان در این وظایف مشاهده میکنیم. عملکرد از GPT‑4o (منتشر شده در بهار ۲۰۲۴) تا GPT‑5 (منتشر شده در تابستان ۲۰۲۵) بیش از دو برابر شده است و این روند به وضوح سیر خطی است.
علاوه بر این، ما دریافتیم که مدلهای پیشرو میتوانند وظایف GDPval رابه طور تقریبی۱۰۰ برابر سریعتر و ۱۰۰ برابر ارزانتر از کارشناسان صنعت انجام دهند. با این حال، این ارقام تنها زمان استنتاج مدل و نرخهای صورتحساب API را نشان میدهند و بنابراین نظارت انسانی، تکرار و مراحل یکپارچهسازی مورد نیاز در محیطهای کاری واقعی برای استفاده از مدلهای ما را شامل نمیشوند. با این حال، بهویژه در زیرمجموعهای از وظایف که مدلها در آنها بهطور خاص قوی هستند، انتظار داریم که سپردن یک وظیفه به مدل قبل از امتحان آن با انسان، زمان و هزینه را صرفهجویی کند.
ارزیابان متخصص، خروجیهای مدلهای پیشرو را با کارشناسان انسانی مقایسه کردند. مدلهای پیشرو امروزی در حال حاضر به کیفیت کاری که توسط کارشناسان صنعت تولید میشود، نزدیک میشوند. خروجیهای Claude Opus 4.1 در کمتر از نیمی از وظایف به خوبی یا بهتر از انسانها ارزیابی شدهاند.
از GPT‑4o به GPT‑5، عملکرد در وظایف GDPval طی یک سال بیش از سه برابر افزایش یافت.
در نهایت، ما نسخه داخلی و آزمایشی GPT‑5 را به صورت تدریجی آموزش دادیم تا ببینیم آیا میتوانیم عملکرد را در GDPval بهبود دهیم. ما متوجه شدیم که این فرآیند عملکرد را بهبود داده و راهی برای بهبودهای بالقوه بیشتر فراهم کرده است. سایر آزمایشهای کنترلشده این موضوع را تأیید میکنند: افزایش اندازه مدل، تشویق به مراحل بیشتر استدلال، و ارائه زمینه غنیتر برای وظایف هر کدام به پیشرفتهای قابل اندازهگیری منجر شدهاند.
شما میتوانید نتایج کامل را در مقالهٔ ما بخوانید. ما همچنین یک زیرمجموعه طلایی از وظایف GDPval و یک سرویس نمرهدهی عمومی منتشر میکنیم تا محققان دیگر بتوانند بر پایهٔ این کار ادامه دهند.
با افزایش توانمندیهای هوش مصنوعی، احتمالاً شاهد تغییراتی در بازار کار خواهیم بود. نتایج اولیه GDPval نشان میدهد که مدلها هماکنون میتوانند برخی وظایف تکراری و مشخص را سریعتر و با هزینهای کمتر از متخصصان انجام دهند. با این حال، بیشتر مشاغل صرفاً مجموعهای از وظایف قابلنوشتن نیستند. GDPval نشان میدهد که هوش مصنوعی در کدام بخشها میتواند وظایف روتین را انجام دهد تا افراد بتوانند زمان بیشتری را صرف بخشهای خلاقانه و نیازمند قضاوت شغلی کنند. وقتی هوش مصنوعی به این شکل مکمل نیروی کار شود، میتواند به رشد اقتصادی قابل توجهی منجر شود. هدف ما این است که با دموکراتیکسازی دسترسی به این ابزارها، حمایت از کارگران در دوران تغییر، و ایجاد سیستمهایی که مشارکت گسترده را پاداش میدهند، همه را بر «آسانسور روبهبالای» هوش مصنوعی نگه داریم.
GDPval یک گام اولیه است. در حالی که این برنامه ۴۴ شغل و صدها وظیفه را پوشش میدهد، ما همچنان به اصلاح رویکرد خود برای گسترش دامنه آزمایشهایمان و معنادارتر کردن نتایج ادامه میدهیم. نسخه فعلی ارزیابی نیز تکمرحلهای است، بنابراین مواردی را که مدل نیاز به ایجاد زمینه یا بهبود از طریق چندین پیشنویس دارد، مانند بازبینی یک خلاصه حقوقی پس از بازخورد مشتری یا تکرار تحلیل دادهها پس از مشاهده یک ناهنجاری، در بر نمیگیرد. علاوه بر این، در دنیای واقعی، وظایف همیشه به وضوح با یک دستورالعمل و فایلهای مرجع تعریف نمیشوند؛ برای مثال، یک وکیل ممکن است نیاز داشته باشد که با ابهام مواجه شود و قبل از تصمیمگیری برای ایجاد یک خلاصه حقوقی به عنوان رویکرد مناسب برای کمک به موکلش، با او صحبت کند. ما قصد داریم GDPval را گسترش دهیم تا مشاغل، صنایع و انواع وظایف بیشتری را شامل شود، با افزایش تعامل و وظایف بیشتری که شامل مدیریت ابهام هستند، با هدف بلندمدت اندازهگیری بهتر پیشرفت در کارهای دانشی متنوع.
- اگر کارشناس صنعت هستی و علاقهمندی با GDPval همکاری کنی، لطفاً علاقهات را اینجا نشان بده.
- اگر مشتری OpenAI هستی و دوست داری در دور آینده GDPval مشارکت کنی، لطفاً اینجا علاقهمندیات را اعلام کن.
مشارکت جامعه ضروری است—ما مشتاقانه منتظریم تا GDPval را همراه با محققان، متخصصان، و سازمانهایی که هدف مشترک ما یعنی مفیدتر کردن AGI برای افراد در محیط کار را دنبال میکنند، توسعه دهیم.


