۲۵ ستمبر، ۲۰۲۵

حقیقی دنیا کے ٹاسکس پر ہمارے ماڈلز کی کارکردگی کی پیمائش کرنا

OpenAI نے GDPval متعارف کرایا ہے، ایک نئی تشخیص جو 44 پیشوں میں حقیقی دنیا کے معاشی طور پر قیمتی ٹاسکس پر ماڈل کی کارکردگی کی پیمائش کرتی ہے۔

کاغذ کو پڑھیں evals.openai.com پر تشریف لائیں

ہمارا مشن ہے کہ مصنوعی عمومی ذہانت سے پوری انسانیت کو فائدہ پہنچائیں۔ ہمارے مشن کے حصے کے طور پر، ہم شفافیت کے ساتھ یہ بتانا چاہتے ہیں کہ حقیقی دنیا میں AI ماڈلز لوگوں کی کیسے مدد کر سکتے ہیں۔ اسی لیے ہم GDPval متعارف کروا رہے ہیں: ایک نئی تشخیص جو ہمارے ماڈلز اور دیگر کی اقتصادی طور پر قیمتی، حقیقی دنیا کے ٹاسکس پر کارکردگی کو ٹریک کرنے میں مدد کے لیے ڈیزائن کی گئی ہے۔ ہم اس تشخیص کو GDPval کہتے ہیں کیونکہ ہم نے مجموعی ملکی پیداوار (GDP) کے تصور کو ایک اہم اقتصادی اشارے کے طور پر اپنایا اور ان صنعتوں کے کلیدی پیشوں سے ٹاسکس اخذ کیے جو GDP میں سب سے زیادہ شراکت کرتے ہیں۔

لوگ اکثر AI کے معاشرے پر وسیع اثرات کے بارے میں قیاس آرائیاں کرتے ہیں، لیکن اس کی صلاحیت کو سمجھنے کا سب سے واضح طریقہ یہ ہے کہ یہ دیکھا جائے کہ ماڈلز پہلے ہی کیا کچھ کرنے کے قابل ہیں۔ئ ہسٹری سے یہ ظاہر ہوتا ہے کہ بڑی ٹیکنالوجیز—انٹرنیٹ سے لے کر اسمارٹ فونز تک—ایجاد سے لے کر وسیع پیمانے پر اپنانے تک ایک دہائی سے زیادہ وقت لیتی ہیں۔ GDPval جیسی تشخیصات مستقبل میں AI کی بہتری کے بارے میں گفتگو کو اندازوں کے بجائے شواہد کی بنیاد پر استوار کرنے میں مدد دیتی ہیں اور وقت کے ساتھ ماڈل کی بہتری کو ٹریک کرنے میں مدد کر سکتی ہیں۔

پچھلی AI تشخیصات جیسا کہ چیلنجنگ اکیڈمک ٹیسٹ اور مسابقتی کوڈنگ چیلنجز ماڈل کی استدلال کی صلاحیتوں کی حدود کو بڑھانے میں اہم رہے ہیں، لیکن وہ اکثر اس قسم کے ٹاسکس سے کم رہ جاتے ہیں جن سے بہت سے لوگ اپنی روزمرہ کی ملازمت میں نمٹتے ہیں۔

اس خلاء کو پر کرنے کے لیے، ہم ایسی تشخیصات تیار کر رہے ہیں جو زیادہ حقیقت پسندانہ اور اقتصادی طور پر متعلقہ صلاحیتوں کی پیمائش کرتی ہیں۔ یہ ترقی کلاسیکی تعلیمی معیارات جیسا کہ MMLU (درجنوں مضامین میں امتحانی طرز کے سوالات) سے زیادہ عملی تشخیصات جیسا کہ SWE-Bench (سافٹ ویئر انجینئرنگ بگ فکسنگ ٹاسک)، MLE-Bench (مشین لرننگ انجینئرنگ ٹاسک جیسے ماڈل تربیت اور تجزیہ)، اور Paper-Bench (تحقیقی مقالوں پر سائنسی استدلال اور تنقید)، اور حال ہی میں مارکیٹ پر مبنی تشخیصات جیسے SWE-Lancer (حقیقی ادائیگیوں پر مبنی فری لانس سافٹ ویئر انجینئرنگ منصوبے) کی طرف منتقل ہو چکی ہے۔

GDPval اس ترقی میں اگلا قدم ہے۔ یہ ماڈل کی کارکردگی کی پیمائش کرتا ہے جو تجربہ کار پیشہ ور افراد کے حقیقی دنیا کے علم کے کام سے براہ راست اخذ کردہ ٹاسکس پر مبنی ہے، جو مختلف پیشوں اور شعبوں میں اقتصادی طور پر قیمتی ٹاسکس پر ماڈل کی کارکردگی کی واضح تصویر فراہم کرتا ہے۔ حقیقی پیشہ ورانہ ٹاسکس پر ماڈلز کی تشخیص کرنا یہ سمجھنے میں ہماری معاونت کرتی ہے کہ وہ نہ صرف لیب میں کتنی اچھی کارکردگی دکھاتے ہیں بلکہ وہ روزمرہ کے ٹاسکس میں لوگوں کی کس طرح معاونت کر سکتے ہیں۔

GDPval کس چیز کی پیمائش کرتا ہے

GDPval، اس تشخیص کی پہلی ورژن، 44 پیشوں پر محیط ہے جو امریکی GDP میں شراکت کرنے والے والی 9 اہم صنعتوں میں سے منتخب کیے گئے ہیں۔ GDPval کا مکمل سیٹ 1,320 خصوصی ٹاسکس شامل کرتا ہے (گولڈ اوپن سورس سیٹ میں 220)، ہر ایک کو تجربہ کار پیشہ ور افراد کے ذریعہ احتیاط سے بنایا کیا اور جانچ کردہ ہے جن کے پاس ان شعبوں میں اوسطاً 14 سال سے زیادہ کا تجربہ ہے۔ ہر ٹاسک حقیقی کام کی مصنوعات پر مبنی ہوتا ہے، جیسا کہ ایک قانونی بریف، ایک انجینئرنگ بلیو پرنٹ، ایک کسٹمر سپورٹ گفتگو، یا ایک نرسنگ کیئر کا پلان۔

GDPval اپنی حقیقت پسندی اور جانچے جانے والے ٹاسکس کی تنوع دونوں میں منفرد ہے۔ دیگر معاشی قدر سے منسلک تشخیصات کے برعکس جو مخصوص شعبوں پر مرکوز ہوتی ہیں (مثلاً، SWE-Lancer)، GDPval کئی ٹاسکس اور پیشوں کا احاطہ کرتا ہے۔ اور ان بینچ مارکس کے برعکس جو تعلیمی امتحان یا ٹیسٹ کے انداز میں مصنوعی طور پر ٹاسک بناتے ہیں (مثلاً، Humanity’s Last Exam یا MMLU)، GDPval ان ٹاسکس پر توجہ مرکوز کرتا ہے جو یا تو آج کے دور میں موجود کسی حقیقی کام یا پروڈکٹ پر مبنی ہیں یا اسی طرح کی بنائی گئی کام کی پروڈکٹ ہیں۔

روایتی معیارات کے برعکس، GDPval ٹاسکس سادہ پرامپٹس نہیں ہیں۔ یہ حوالہ فائلوں اور سیاق و سباق کے ساتھ آتے ہیں، اور متوقع قابل ترسیل اشیاء میں دستاویزات، سلائیڈز، ڈایاگرام، اسپریڈشیٹ، اور ملٹی میڈیا شامل ہیں۔ یہ حقیقت پسندی GDPval کو اس بات کا زیادہ حقیقت پسندانہ امتحان بناتی ہے کہ ماڈلز کس طرح پیشہ ور افراد کی سپورٹ کر سکتے ہیں۔

GDPval ایک ابتدائی قدم ہے جو بہت سے اقتصادی ٹاسکس کی مکمل باریکیوں کو ظاہر نہیں کرتا ہے۔ اگرچہ یہ 44 پیشوں اور سیکڑوں علمی کاموں پر محیط ہے، یہ صرف واحد-شاٹ تشخیص تک محدود ہے، اس لیے یہ ایسے معاملات کو نہیں پکڑتا جہاں ایک ماڈل کو سیاق و سباق کی تعمیر یا متعدد مسودوں کے ذریعے بہتری کی ضرورت پڑتی ہو۔ مستقبل کی ورژنز زیادہ متعامل ورک فلو اور سیاق و سباق سے بھرپور ٹاسکس تک توسیع کریں گی تاکہ حقیقی دنیا کے علم کے کام کی پیچیدگی کو بہتر طور پر ظاہر کیا جا سکے (نیچے ہماری حدود کے سیکشن میں مزید دیکھیں)۔

ہم کس طرح پیشے منتخب کرتے ہیں

GDPval، 9 صنعتوں اور 44 پیشوں میں ٹاسکس کا احاطہ کرتا ہے، اور مستقبل کی ورژنز کوریج کو وسعےت دینا جاری رکھیں گی۔ ابتدائی 9 صنعتوں کا انتخاب ان صنعتوں کی بنیاد پر کیا گیا جو امریکی GDP میں 5% سے زیادہ کی شراکت کرتی ہیں، جیسا کہ فیڈرل ریزرو بینک آف سینٹ لوئس کے ڈیٹا سے طے کیا گیا۔ پھر، ہم نے ہر صنعت کے اندر 5 پیشے منتخب کیے جو کل اجرت اور معاوضے میں سب سے زیادہ حصہ ڈالتے ہیں اور بنیادی طور پر علمی کام کے پیشے ہیں، May 2024 US Bureau of Labor Statistics (BLS) occupational employment report⁠(نئی ونڈو میں کھلتا ہے) سے اجرت اور ملازمت کے ڈیٹا کو استعمال کرتے ہوئے۔ یہ جاننے کے لیے کہ آیا پیشے غالب طور پر علم پر مبنی تھے، ہم نے O*NET⁠(نئی ونڈو میں کھلتا ہے) سے ٹاسک کا ڈیٹا استعمال کیا، جو امریکی محکمہ محنت کی سرپرستی میں امریکی پیشہ ورانہ معلومات کا ایک ڈیٹا بیس ہے۔ ہم نے O*NET میں ہر پیشے کے لیے ہر ٹاسک کی علم کے کام یا جسمانی کام/دستی محنت (جو جسمانی دنیا میں کاروائیاں کرنے کی ضرورت ہوتی ہیں) کے طور پر درجہ بندی کی۔ کسی پیشے کو مجموعی طور پر "زیادہ تر علم کام" کے طور پر اس وقت اہل سمجھا جاتا ہے جب اس کے کم از کم 60% اجزاء کے ٹاسک جسمانی یا دستی محنت میں شامل نہ ہوں۔ ہم نے GDPval کی پہلی ورژن کے لیے 60% کی حد کو ایک نقطہ آغاز کے طور پر منتخب کی، ان پیشوں پر توجہ مرکوز کرتے ہوئے جہاں AI حقیقی دنیا کی پیداواریت پر سب سے زیادہ اثر ڈال سکتا ہے۔

اس عمل کے نتیجے میں شمولیت کے لیے 44 پیشے منتخب کیے گئے۔

رئیل اسٹیٹ، کرایہ داری، اور لیزنگ

کونسیئرز
پراپرٹی، رئیل اسٹیٹ، اور کمیونٹی ایسوسی ایشن مینیجرز
جائیداد کی فروخت کے ایجنٹس
رئیل اسٹیٹ بروکرز
کاؤنٹر اور کرایہ پر دینے کے کلرکس

حکومت

تفریحی کارکن
کمپلائنس افسران
پولیس اور جاسوسوں کے پہلے درجے کے سپروائزر
انتظامی خدمات کے مینیجرز
بچوں، خاندان، اور اسکول کے سماجی کارکنان

مینوفیکچرنگ

مکینیکل انجینئرز
صنعتی انجینئر
خریدار اور خریداری کے ایجنٹس
شپنگ، وصولی، اور انوینٹری کے کلرکس
پروڈکشن اور آپریٹنگ ورکرز کے فرسٹ لائن سپروائزرز

پیشہ ورانہ، سائنسی، اور تکنیکی خدمات

سافٹ ویئر ڈویلپرز
وکلاء
اکاؤنٹنٹس اور آڈیٹرز
کمپیوٹر اور معلوماتی نظام کے منتظمین
پروجیکٹ مینجمنٹ کے ماہرین

نگہداشت صحت اور سماجی معاونت

رجسٹرڈ نرسیں
نرس پریکٹیشنرز
طبی اور صحت کی خدمات کے مینیجرز
دفتر اور انتظامی سپورٹ کارکنوں کے پہلی صف کے سپروائزر
طبی سیکرٹری اور انتظامی معاونین

مالیات اور انشورنس

کسٹمر سروس کے نمائندے
مالیاتی اور سرمایہ کاری کے تجزیہ کار
مالیاتی مینیجرز
ذاتی مالیاتی مشیر
سیکیورٹیز، اجناس اور مالیاتی خدمات کے فروخت کے ایجنٹس

ریٹیل ٹریڈ

فارماسسٹس
ریٹیل سیلز کارکنوں کے پہلے درجے کے سپروائزر
جنرل اور آپریشنز مینیجرز
نجی جاسوس اور تفتیش کار

تھوک تجارت

سیلز مینیجرز
آرڈر کلرک
غیر ریٹیل سیلز کارکنوں کے پہلے درجے کے سپروائزر
سیلز نمائندگان، ہول سیل اور مینوفیکچرنگ، تکنیکی اور سائنسی مصنوعات کے سوا
سیلز نمائندگان، ہول سیل اور مینوفیکچرنگ، تکنیکی اور سائنسی مصنوعات

معلومات

آڈیو اور ویڈیو ٹیکنیشنز
پروڈیوسر اور ڈائریکٹر
خبری تجزیہ کار، رپورٹرز، اور صحافی
فلم اور ویڈیو ایڈیٹرز
ایڈیٹرز

GDPval 9 شعبوں میں 44 علمی کام کی پیشوں پر محیط ہے، جس میں سافٹ ویئر ڈویلپرز اور وکلاء سے لے کر رجسٹرڈ نرسیں اور مکینیکل انجینئرز شامل ہیں۔ یہ پیشے ان کی اقتصادی اہمیت کی بنیاد پر منتخب کیے گئے تھے اور ان قسم کے روزمرہ کے کاموں کی نمائندگی کرتے ہیں جہاں AI پیشہ ور افراد کی بامعنی طور پر مدد کر سکتا ہے۔

ہم نے ڈیٹاسیٹ کیسے تیار کیا

ہر پیشے کے لیے، ہم نے تجربہ کار پیشہ ور افراد کے ساتھ مل کر نمائندہ ٹاسک بنائیں جو ان کے روزمرہ کے کام کی عکاسی کرتے ہیں۔ ان پیشہ ور افراد کے پاس اوسطاً 14 سال کا تجربہ تھا، اور ان کے ترقی کے ریکارڈ مضبوط تھے۔ ہم نے جان بوجھ کر ماہرین—جیسا کہ وکلاء کی ایک وسیع تعداد کو مختلف شعبوں اور مختلف سائز کی فرموں سے بھرتی کیا—تاکہ نمائندگی کو زیادہ سے زیادہ کیا جا سکے۔

ہر ٹاسک کو ایک کثیر مرحلہ جائزہ عمل سے گزارا گیا تاکہ یہ یقینی بنایا جا سکے کہ یہ حقیقی کام کی نمائندگی کرتا ہے، کسی دوسرے پیشہ ور کے لیے مکمل کرنا ممکن ہے، اور تشخیص کے لیے واضح ہے۔ اوسطاً، ہر ٹاسک کو 5 بار ماہرین کی نظرثانی موصول ہوئی، جس میں دیگر ٹاسکس لکھنے والوں، اضافی پیشہ ورانہ نظرثانی کرنے والوں، اور ماڈل پر مبنی توثیق شامل ہیں۔

حاصل شدہ ڈیٹا سیٹ میں ہر پیشے کے لیے 30 مکمل جائزہ شدہ ٹاسک شامل ہیں (مکمل سیٹ) اور ہمارے اوپن سورسڈ گولڈ سیٹ میں ہر پیشے کے لیے 5 ٹاسکس شامل ہیں، جو حقیقی دنیا کے علم کے کام پر ماڈل کی کارکردگی کی تشخِص کرنے کے لیے ایک مضبوط بنیاد فراہم کرتے ہیں۔

GDPval ٹاسک کی مثالیں

پرامٹ + ٹاسک سیاق و سباق

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

ماہر انسانی ڈیلیوریبل

GDPval میں ہر ٹاسک ایک تجربہ کار پیشہ ور کے ذریعہ ڈیزائن کیا گیا ہے اور ان کے پیشے سے حقیقی علم کا کام ظاہر کرتا ہے۔ یہ پرامپٹس ایک حقیقت پسندانہ کام کی تفویض ہے جو ایک شعبہ ماہر نے بنایا ہے، اور بہترین نتیجہ ماہر کا اپنا حل ہے۔

ہم ماڈل کی کارکردگی کی جانچ کیسے کرتے ہیں

GDPval ٹاسک پر ماڈل کی کارکردگی کی تشخِص کرنے کے لیے، ہم ماہر "گریڈرز" پر انحصار کرتے ہیں—یہ تجربہ کار پیشہ ور افراد کا ایک گروپ ہے جو ڈیٹا سیٹ میں شامل پیشوں کی نمائندگی کرتے ہیں۔ یہ گریڈرز ماڈل کے ذریعے پیدا کردہ ڈیلیوریبلز کا موازنہ ٹاسک لکھنے والوں کے پیدا کردہ مواد سے کرتے ہیں (یہ جانے بغیر کہ کون سا AI ہے اور کون سا انسانی تخلیق ہے)، اور تنقیدات اور درجہ بندی پیش کرتے ہیں۔ گریڈرز پھر انسانی اور AI کی ڈیلیوریبلز کی درجہ بندی کرتے ہیں اور ہر AI ڈیلیوریبل کی، ایک دوسرے کے مقابلے میں "بہتر"، "اتنا ہی اچھا" یا "بدتر" کے طور پر درجہ بندی کرتے ہیں۔

ٹاسک لکھنے والوں نے اپنے پیشوں کے لیے تفصیلی اسکورنگ روبریکس بھی بنائے، جو گریڈنگ کے عمل میں مستقل مزاجی اور شفافیت کا اضافہ کرتے ہیں۔ ہم نے ایک "خودکار گریڈر" بھی تیار کیا ہے، جو ایک AI نظام ہے جو اس بات کا اندازہ لگانے کے لیے تربیت یافتہ ہے کہ انسانی ماہرین کسی دیئے گئے ڈیلیورایبل کا کس طرح جائزہ لیں گے۔ با الفاظ دیگر، ہر بار مکمل ماہرانہ جائزہ لینے کے بجائے، خودکار گریڈر تیزی سے پیش گوئی کر سکتا ہے کہ لوگ کس آؤٹ پٹ کو ممکنہ طور پر ترجیح دیں گے۔ ہم evals.openai.com پر اس ٹول کو ایک تجرباتی تحقیقی سروس کے طور پر جاری کر رہے ہیں، لیکن یہ ابھی تک ماہر گریڈرز کی طرح قابل اعتماد نہیں ہے، اس لیے ہم اسے ان کی جگہ استعمال نہیں کرتے ہیں۔

ابتدائی نتائج

ہم نے پایا کہ آج کے بہترین جدید ماڈلز پہلے ہی صنعت کے ماہرین کے تیار کردہ کام کے معیار کے قریب پہنچ رہے ہیں۔ اس کی جانچ کے لیے، ہم نے بلائنڈ تشخیصات کیں جہاں صنعت کے ماہرین نے کئی اہم ماڈلز—GPT‑4o، o4-mini، OpenAI o3، GPT‑5، Claude Opus 4.1، Gemini 2.5 Pro، اور Grok 4—کے نتائج کا انسانی تیار کردہ کام کے ساتھ موازنہ کیا۔ GDPval گولڈ سیٹ میں 220 ٹاسکس کے دوران، ہم نے ریکارڈ کیا کہ کب ماڈلز کے نتائج کو صنعت کے ماہرین کی جانب سے فراہم کردہ مواد سے بہتر ("جیت") یا برابر ("ٹائی") قرار دیا گیا، جیسا کہ ذیل میں دیئے گئے بار چارٹ میں دکھایا گیا ہے۔ Claude Opus 4.1 اس سیٹ میں بہترین کارکردگی کا مظاہرہ کرنے والا ماڈل تھا، خاص طور پر جمالیات (مثلاً، دستاویز کی فارمیٹنگ، سلائیڈ کی ترتیب) میں مہارت رکھتا تھا، اور GPT‑5 خاص طور پر درستگی (مثلاً، شعبہ مخصوص علم کی تلاش) میں ممتاز تھا۔ ہم ان ٹاسکس پر وقت کے ساتھ ساتھ واضح پیش رفت بھی دیکھتے ہیں۔ GPT‑4o (جو بہار 2024 میں جاری کیا گیا تھا) سے GPT‑5 (جو موسم گرما 2025 میں جاری کیا گیا تھا) تک کارکردگی میں دوگنا سے زیادہ اضافہ ہوا ہے، جو ایک واضح خطی رجحان کی پیروی کرتا ہے۔

مزید برآں، ہمیں یہ معلوم ہوا کہ فرنٹیئر ماڈلز GDPval ٹاسک کو تقریباً 100 گنا تیز اور 100 گنا سستا مکمل کر سکتے ہیں جتنا کہ صنعت کے ماہرین۔ تاہم، یہ اعداد و شمار خالص ماڈل استنباط وقت اور API بلنگ کی شرحوں کی عکاسی کرتے ہیں، اور اس لیے حقیقی کام کی جگہ کی ترتیبات میں ہمارے ماڈلز کو استعمال کرنے کے لیے درکار انسانی سپروائزری، تکرار، اور انضمام کے مراحل کو نہیں پکڑتے ہیں۔ پھر بھی، خاص طور پر ان ٹاسکس کے ذیلی سیٹ پر جہاں ماڈلز خاص طور پر مستحکم ہیں، ہم توقع کرتے ہیں کہ کسی ٹاسک کو انسان کے ساتھ آزمانے سے پہلے ماڈلز کو دینا وقت اور پیسہ محفوظ کرے گا۔

ماہر گریڈرز نے نمایاں ماڈلز کی ڈیلیوریبلز کا انسانی ماہرین سے موازنہ کیا۔ آج کے فرنٹیئر ماڈلز پہلے ہی صنعت کے ماہرین کے تیار کردہ کام کے معیار کے قریب پہنچ رہے ہیں۔ Claude Opus 4.1 نے آؤٹ پٹ تیار کی جو تقریباً نصف ٹاسک میں انسانوں کے برابر یا ان سے بہتر درجہ بندی حاصل کرتی ہے۔

GPT‑4o سے GPT‑5 تک، GDPval ٹاسکس پر کارکردگی ایک سال میں تین گنا سے زیادہ بڑھ گئی۔

آخرکار، ہم نے GPT‑5 کے ایک اندرونی، تجرباتی ورژن کو بتدریج تربیت دی تاکہ یہ جانچ سکیں کہ آیا ہم GDPval پر کارکردگی کو بہتر بنا سکتے ہیں۔ ہم نے پایا کہ اس عمل نے کارکردگی کو بہتر بنایا، اور مزید ممکنہ بہتری کے لیے ایک راستہ فراہم کیا۔ دیگر کنٹرول شدہ تجربات اس کی تائید کرتے ہیں: ماڈل کے سائز میں اضافہ، زیادہ استدلالی مراحل کی حوصلہ افزائی، اور زیادہ بھرپور ٹاسک سیاق و سباق فراہم کرنا، ہر ایک نے قابل پیمائش فوائد حاصل کیے۔

آپ ہمارے مقالے میں مکمل نتائج پڑھ سکتے ہیں۔ ہم GDPval ٹاسک کے ایک گولڈ سب سیٹ اور ایک عوامی گریڈنگ سروس بھی جاری کر رہے ہیں تاکہ دیگر محققین اس کام پر مزید تحقیق کر سکیں۔

کام اور مصنوعی ذہانت کا مستقبل

جیسے جیسے AI زیادہ قابل ہوتا جائے گا، یہ ممکنہ طور پر ملازمت کی منڈی میں تبدیلیاں لائے گا۔ ابتدائی GDPval نتائج سے ظاہر ہوتا ہے کہ ماڈلز پہلے ہی کچھ دہرائے جانے والے، اچھی طرح سے متعین کردہ ٹاسک ماہرین کے مقابلے میں تیزی سے اور کم لاگت پر انجام دے سکتے ہیں۔ تاہم، زیادہ تر نوکریاں محض ایسے ٹاسکس کا مجموعہ نہیں ہوتیں جنہیں لکھا جا سکے۔ GDPval اس بات کو اجاگر کرتا ہے کہ AI کس طرح معمول کے ٹاسک سے نمٹ سکتا ہے تاکہ لوگ اپنے کام کے تخلیقی اور فیصلہ سازی کے اہم حصوں پر زیادہ وقت گزار سکیں۔ جب AI اس طرح کارکنوں کی تکمیل کرتا ہے تو یہ اہم اقتصادی ترقی میں تبدیل ہو سکتی ہے۔ ہمارا مقصد یہ ہے کہ سب کو AI کی "اوپر کی طرف جانے والی لفٹ" پر رکھیں، ان ٹولز تک رسائی کو جمہوری بنائیں، تبدیلی کے دوران کارکنوں کی مدد کریں، اور ایسے نظام بنائیں جو وسیع شراکت کا صلہ دیتے ہیں۔

محدودیتیں اور آگے کیا ہے

GDPval ایک ابتدائی مرحلہ ہے۔ جبکہ یہ 44 پیشوں اور سینکڑوں ٹاسکس کا احاطہ کرتا ہے، ہم اپنے ٹیسٹنگ کے دائرہ کار کو بڑھانے اور نتائج کو زیادہ بامعنی بنانے کے لیے اپنے طریقہ کار کو بہتر بناتے ہوئے جاری رکھیں۔ موجودہ ورژن کی تشخیص بھی ایک بار کی جاتی ہے، اس لیے یہ ان صورتوں کو نہیں پکڑتی ہے جہاں ایک ماڈل کو سیاق و سباق بنانے یا متعدد مسودوں کے ذریعے بہتری کی ضرورت ہو—مثال کے طور پر، موکل کی فیڈبیک کے بعد قانونی بریف پر نظر ثانی کرنا یا کسی بے قاعدگی کو دیکھنے کے بعد ڈیٹا تجزیہ پر دوبارہ کام کرنا۔ مزید برآں، حقیقی دنیا میں، ٹاسک ہمیشہ ایک پرامپٹس اور حوالہ فائلوں کے ساتھ واضح طور پر متعین نہیں ہوتے ہیں؛ مثال کے طور پر، ایک وکیل کو ابہام کو سمجھنا پڑ سکتا ہے اور اپنے موکل سے بات کرنی پڑ سکتی ہے اس سے پہلے کہ وہ قانونی بریف بنائیں تاکہ ان کی مدد کے لیے صحیح طریقہ کار اپنایا جا سکے۔ ہم GDPval کو مزید پیشوں، صنعتوں، اور ٹاسکس کی اقسام کو شامل کرنے کے لئے توسیع دینے کا منصوبہ رکھتے ہیں، جس میں زیادہ انٹرایکٹیویٹی ہوگی، اور زیادہ ٹاسک شامل ہوں گے جو ابہام کو نیویگیٹ کرنے میں شامل ہوں گے، طویل مدتی مقصد کے ساتھ کہ مختلف علم کے کام پر پیشرفت کی بہتر پیمائش کی جا سکے۔

شامل ہو جائیں

اگر آپ صنعت کے ماہر ہیں جو GDPval میں شراکت کرنے والے میں دلچسپی رکھتے ہیں، تو براہ کرم اپنی دلچسپی یہاں ظاہر کریں۔
اگر آپ OpenAI کے ساتھ کام کرنے والے صارف ہیں اور آپ GDPval کے مستقبل کے دور میں شراکت کرنا چاہتے ہیں، تو براہ کرم یہاں دلچسپی کا اظہار کریں۔

کمیونٹی کی شرکت لازمی ہے—ہم محققین، عملی ماہرین، اور تنظیموں کے ساتھ مل کر GDPval بنانے کے لیے پرجوش ہیں جو ہمارے مقصد کا اشتراک کرتے ہیں کہ AGI کو کام پر لوگوں کے لیے زیادہ مفید بنایا جا سکے۔

مصنف

OpenAI

پڑھتے رہیں

سب دیکھیں

GPT-Red: مضبوطی کے لیے خود بہتری کو کھولنا

حفاظت۱۵ جولائی، ۲۰۲۶

کوڈنگ جائزوں میں سگنل کو شور سے الگ کرنا

تحقیق۸ جولائی، ۲۰۲۶

GeneBench-Pro متعارف کروا رہے ہیں

تحقیق۳۰ جون، ۲۰۲۶