বাস্তব জগতের কাজগুলিতে আমাদের মডেলগুলোর কার্যকারিতা পরিমাপ করা
আমরা GDPval চালু করছি, একটি নতুন মূল্যায়ন 44টি পেশার বাস্তব জগতের অর্থনৈতিকভাবে মূল্যবান কাজের মডেল পারফরমেন্স পরিমাপ করে।
আমাদের লক্ষ্য হলো কৃত্রিম সাধারণ বুদ্ধিমত্তা যেন সমগ্র মানবজাতির উপকার করে তা নিশ্চিত করা। আমাদের মিশনের অংশ হিসেবে, আমরা বাস্তব জগতে AI মডেলগুলি কীভাবে মানুষকে সাহায্য করতে পারে তার অগ্রগতি স্বচ্ছভাবে জানাতে চাই। এই কারণেই আমরা GDPval চালু করছি: একটি নতুন মূল্যায়ন যা আমাদের মডেল এবং অন্যান্য মডেলগুলি অর্থনৈতিকভাবে মূল্যবান, বাস্তব-বিশ্বের কাজগুলিতে কতটা ভালোভাবে কাজ করে তা ট্র্যাক করতে সাহায্য করার জন্য ডিজাইন করা হয়েছে। আমরা এই মূল্যায়নকে GDPval বলি কারণ আমরা গ্রস ডোমেস্টিক প্রোডাক্ট (GDP) কে একটি মূল অর্থনৈতিক সূচক হিসেবে ধারণা দিয়ে শুরু করেছিলাম এবং GDP তে সবচেয়ে বেশি অবদান রাখে এমন ইন্ডাস্ট্রিের মূল পেশার কাজগুলি অন্তর্ভুক্ত করা হয়।
মানুষ প্রায়ই সমাজে কৃত্রিম বুদ্ধিমত্তার ব্যাপক প্রভাব সম্পর্কে কল্পনা করে, কিন্তু এর সম্ভাবনা বোঝার সবচেয়ে স্পষ্ট উপায় হল মডেলগুলি ইতিমধ্যে কী করতে সক্ষম তা দেখা। ইতিহাস থেকে দেখা যায়—ইন্টারনেট থেকে স্মার্টফোন পর্যন্ত প্রধান প্রযুক্তিগুলি—আবিষ্কার হওয়া থেকে ব্যাপকভাবে গ্রহণযোগ্য হতে এক দশকেরও বেশি সময় লেগেছে। GDPval-এর মতো মূল্যায়ন অনুমানের পরিবর্তে প্রমাণের ভিত্তিতে ভবিষ্যতের AI উন্নতি সম্পর্কে আলোচনা শুরু করতে সাহায্য করে এবং সময়ের সাথে সাথে মডেলের উন্নতি ট্র্যাক করতে আমাদের সাহায্য করতে পারে।
পূর্ববর্তী এআই মূল্যায়ন, যেমন চ্যালেঞ্জিং একাডেমিক টেস্ট এবং প্রতিযোগিতামূলক কোডিং চ্যালেঞ্জ, মডেল যুক্তিপ্রয়োগ সক্ষমতা বাড়ানোর ক্ষেত্রে অপরিহার্য ছিল, কিন্তু প্রায়শই তারা তাদের দৈনন্দিন কাজে যে ধরণের কাজগুলি পরিচালনা করে তা পূরণ করতে ব্যর্থ হয়।
এই ব্যবধান পূরণের জন্য, আমরা ক্রমবর্ধমান বাস্তবসম্মত এবং অর্থনৈতিকভাবে প্রাসঙ্গিক সক্ষমতা পরিমাপকারী মূল্যায়ন তৈরি করছি। এই অগ্রগতি MMLU (ডজন ডজন বিষয়ের উপর পরীক্ষার ধরণে প্রশ্ন) এর মতো ক্লাসিক একাডেমিক মানদণ্ড থেকে, SWE-Bench (সফ্টওয়্যার ইঞ্জিনিয়ারিং বাগ-ফিক্সিং টাস্ক), MLE-Bench (মডেল প্রশিক্ষণ এবং বিশ্লেষণের মতো মেশিন লার্নিং ইঞ্জিনিয়ারিং টাস্ক), এবং পেপার-বেঞ্চ (গবেষণাপত্রের উপর বৈজ্ঞানিক যুক্তি এবং সমালোচনা) এর মতো আরও প্রয়োগিক মূল্যায়নে এবং সম্প্রতি SWE-Lancer (প্রকৃত অর্থপ্রদানের উপর ভিত্তি করে ফ্রিল্যান্স সফটওয়্যার ইঞ্জিনিয়ারিং প্রকল্প) এর মতো বাজার-ভিত্তিক মূল্যায়নে স্থানান্তরিত হয়েছে।
GDPval সেই অগ্রগতির পরবর্তী ধাপ। এটি বিভিন্ন পেশা এবং সেক্টরের অভিজ্ঞ পেশাদারদের বাস্তব জগতের জ্ঞান ভিত্তিক থেকে সরাসরি গৃহীত কাজের উপর মডেল কর্মক্ষমতা পরিমাপ করে, যা অর্থনৈতিকভাবে মূল্যবান কাজগুলিতে মডেলরা কীভাবে কাজ করে তার একটি পরিষ্কার চিত্র প্রদান করে। বাস্তব পেশাগত কাজে মডেলগুলি মূল্যায়ন করলে আমাদের কেবল ল্যাবে তারা কতটা ভালো কাজ করে তা বুঝতে সাহায্য করে না, বরং তারা কীভাবে দৈনন্দিন কাজে লোকেদের সহায়তা করতে পারে তা বুঝতে সাহায্য করে।
এই মূল্যায়নের প্রথম সংস্করণ, GDPval, যুক্তরাষ্ট্রের GDP তে অবদান রাখা 9টি ইন্ডাস্ট্রি থেকে নির্বাচিত 44টি পেশাকে অন্তর্ভুক্ত করে। GDPval এর পূর্ণাঙ্গ সেটে 1320টি বিশেষায়িত কাজ রয়েছে (গোল্ড ওপেন-সোর্স সেটে 220টি), প্রতিটি কাজ অত্যন্ত সতর্কতার সাথে তৈরি এবং যাচাই করা হয়েছে অভিজ্ঞ পেশাদারদের দ্বারা যাদের গড়ে 14 বছরেরও বেশি অভিজ্ঞতা রয়েছে এই ক্ষেত্রগুলিতে। প্রতিটি কাজ বাস্তব কাজের পণ্যের উপর ভিত্তি করে তৈরি, যেমন একটি আইনি সারসংক্ষেপ, একটি ইঞ্জিনিয়ারিং ব্লুপ্রিন্ট, একটি গ্রাহক সহায়তা কথোপকথন, অথবা একটি নার্সিং কেয়ার পরিকল্পনা।
GDPval তার বাস্তবতা এবং মূল্যায়ন করা কাজের বৈচিত্র্য উভয়ের ক্ষেত্রেই স্বতন্ত্র। অর্থনৈতিক মূল্যবোধের সাথে সম্পর্কিত অন্যান্য মূল্যায়নের বিপরীতে, যা নির্দিষ্ট ক্ষেত্রগুলিতে (যেমন, SWE-Lancer) মনোনিবেশ করে, GDPval অনেক কাজ এবং পেশাকে অন্তর্ভুক্ত করে। এবং যেসব মানদণ্ডে একাডেমিক পরীক্ষা বা টেস্ট (যেমন, হিউম্যানিটি'স লাস্ট এক্সাম বা MMLU) স্টাইলে কৃত্রিমভাবে কাজ তৈরি করা হয়, তার বিপরীতে, GDPval এমন কাজের উপর দৃষ্টি নিবদ্ধ করে যা ডেলিভারেবলের উপর ভিত্তি করে তৈরি করা হয় যা হয় প্রকৃত কাজ বা আজকের বিদ্যমান পণ্য, অথবা একইভাবে নির্মিত কাজের পণ্য।
ঐতিহ্যবাহী মানদণ্ডের বিপরীতে, GDPval কাজগুলি সহজতর টেক্সট নির্দেশ নয়। এগুলিতে রেফারেন্স ফাইল এবং প্রসঙ্গ থাকে এবং প্রত্যাশিত ডেলিভারেবল স্প্যান নথি, স্লাইড, ডায়াগ্রাম, স্প্রেডশিট এবং মাল্টিমিডিয়া থাকে। এই ফলে মডেলগুলি কীভাবে পেশাদারদের সহায়তা করতে পারে তা নির্ধারণে GDPval একটি আরও বাস্তবসম্মত টেস্ট হিসেবে গণ্য হচ্ছে।
GDPval একটি প্রাথমিক ধাপ যা অনেক অর্থনৈতিক কাজের সম্পূর্ণ সূক্ষ্ম প্রতিফলিত করে না। যদিও এটি 44টি পেশা এবং শত শত জ্ঞান ভিত্তিক কাজে বিস্তৃত, এটি এক-শট মূল্যায়নের মধ্যে সীমাবদ্ধ, তাই এটি এমন কোনও ঘটনা ক্যাপচার করে না যেখানে একটি মডেলকে একাধিক খসড়ার মাধ্যমে প্রসঙ্গ তৈরি বা উন্নতি করা প্রয়োজন। ভবিষ্যতের সংস্করণে বাস্তব জগতের জ্ঞান ভিত্তিক কাজের জটিলতাকে আরও ভালভাবে প্রতিফলিত করার জন্য আরও ইন্টারেক্টিভ কর্মপ্রবাহ এবং কনটেক্সট-সমৃদ্ধ কার্যগুলি অন্তর্ভুক্ত হবে (নীচে আমাদের সীমাবদ্ধতা বিভাগে আরও দেখুন)।
GDPval 9টি ইন্ডাস্ট্রি এবং 44টি পেশার কাজ কভার করে এবং ভবিষ্যতের সংস্করনে আরও প্রসারিত করা হবে। ফেডারেল রিজার্ভ ব্যাংক অফ এসটি লুইসের তথ্য অনুসারে, যুক্তরাষ্ট্রে GDP তে 5% এর বেশি অবদান রাকছে এমন প্রধান 9টি ইন্ডাস্ট্রি নির্বাচন করা হয়েছিল। তারপর, আমরা প্রতিটি ইন্ডাস্ট্রি থেকে 5টি পেশা নির্বাচন করেছি যা মোট মজুরি এবং পারিশ্রমিকে সবচেয়ে বেশি অবদান রাখে এবং মূলত জ্ঞান-ভিত্তিক কর্মক্ষেত্র, মে 2024 মার্কিন শ্রম পরিসংখ্যান ব্যুরো (BLS) এর পেশাগত কর্মসংস্থান প্রতিবেদন(একটি নতুন উইন্ডোতে খোলে) থেকে মজুরি এবং কর্মসংস্থানের তথ্য ব্যবহার করে। পেশাগুলি মূলত জ্ঞান ভিত্তিক কিনা তা নির্ধারণ করতে, আমরা O*NET(একটি নতুন উইন্ডোতে খোলে) থেকে টাস্ক ডেটা ব্যবহার করেছি, যা মার্কিন শ্রম বিভাগ দ্বারা স্পনসর করা মার্কিন পেশাগত তথ্যের একটি ডাটাবেস। আমরা O*NET-তে প্রতিটি পেশার প্রতিটি কাজ জ্ঞান ভিত্তিক কাজ নাকি শারীরিক শ্রম/কায়িক শ্রম (ভৌত জগতে পদক্ষেপ নেওয়ার প্রয়োজন) তা শ্রেণীবদ্ধ করেছি। একটি পেশাকে সামগ্রিকভাবে "প্রধানত জ্ঞানভিত্তিক কাজ" হিসেবে গণ্য করা হয় যদি সেই কাজের কমপক্ষে 60% শারীরিক শ্রম বা কায়িক শ্রমের সাথে জড়িত নয় বলে শ্রেণীবদ্ধ করা হয়। GDPval-এর প্রথম সংস্করণের জন্য 60% থ্রেশহোল্ডকে একটি সূচনা বিন্দু হিসেবে বেছে নেওয়া হয়েছিল, যেখানে এমন পেশাগুলির উপর দৃষ্টি নিবদ্ধ করা হয়েছিল যেখানে AI বাস্তব-বিশ্বের উৎপাদনশীলতার উপর সর্বোচ্চ প্রভাব ফেলতে পারে।
এই প্রক্রিয়ায় অন্তর্ভুক্তির জন্য 44টি পেশা নির্ধারিত হয়েছে।
রিয়েল এস্টেট, রেন্টাল এবং লিজিং
কনসিজার্জ
সম্পত্তি, রিয়েল এস্টেট এবং কমিউনিটি অ্যাসোসিয়েশন ম্যানেজার
রিয়েল এস্টেট বিক্রয় এজেন্ট
রিয়েল এস্টেট ব্রোকার
কাউন্টার এবং রেন্টাল ক্লার্ক
সরকার
বিনোদন কর্মী
কমপ্লায়েন্স অীফসার
পুলিশ এবং অনুসন্ধানকারীর ফার্স্ট-লাইন সুপারভাইজার
প্রশাসনিক সার্ভিস ম্যানেজার
শিশু, পরিবার এবং স্কুলের সমাজকর্মীল
উৎপাদন
মেকানিকাল ইঞ্জিনিয়ার
ইন্ডাস্ট্রিয়াল ইঞ্জিনিয়ার
ক্রেতা এবং ক্রয় এজেন্ট
শিপিং, রিসিভিং এবং ইনভেন্টরি ক্লার্ক
প্রোডাকশন এবং অপারেটিং কর্মীদের ফার্স্ট-লাইন সুপারভাইজার
প্রফেশনাল, সায়েন্টিফিক এবং টেকনিক্যাল সার্ভিসেস
সফটওয়্যার ডেভেলপারপে
আইনজীবী
অ্যাকাউনট্যান্ট এবং অডিটর
কম্পিউটার এবং তথ্য সিস্টেম ম্যানেজার
প্রজেক্ট ম্যানেজমেন্ট বিশেষজ্ঞ
স্বাস্থ্যসেবা এবং সামাজিক সহায়তা
নিবন্ধিত নার্স
নার্স প্র্যাকটিশনার
চিকিৎসা ও স্বাস্থ্য সার্ভিস ম্যানেজার
অফিস এবং প্রশাসনিক সহায়তা কর্মীদের ফার্স্ট-লাইন সুপারভাইজার
মেডিকেল সেক্রেটারী এবং প্রশাসনিক সহকারী
অর্থনীতি এবং বীমা
কাস্টমার সার্ভিস রিপ্রেজেন্টেটিভ
আর্থিক এবং বিনিয়োগ বিশ্লেষণ
আর্থিক ম্যানেজার
ব্যক্তিগত আর্থিক উপডেস্টা
সিকিউরিটিজ, পণ্য এবং আর্থিক পরিষেবা বিক্রয় এজেন্ট
খুচরা বাণিজ্য
ফার্মাসিস্ট
রিটেইল সেলস কর্মীদের ফার্স্ট-লাইন সুপারভাইজার
সাধারণ এবং অপারেশন ম্যানেজার
ব্যক্তিগত গোয়েন্দা এবং অনুসন্ধানকারী
পাইকারি বাণিজ্য
বিক্রয় ম্যানেজার
অর্ডার ক্লার্ক
নন-রিটেইল সেলস কর্মীদের ফার্স্ট-লাইন সুপারভাইজার
বিক্রয় প্রতিনিধি, পাইকারি ও উৎপাদন, প্রযুক্তিগত ও বৈজ্ঞানিক পণ্য ব্যতীত
বিক্রয় প্রতিনিধি, পাইকারি ও উৎপাদন, প্রযুক্তিগত ও বৈজ্ঞানিক পণ্য
তথ্য
অডিও এবং ভিডিও প্রযুক্তিবিদ
প্রযোজক এবং পরিচালক
নিউজ অ্যানালিস্টস, রিপোর্টার এবং জার্নালিস্ট
চলচ্চিত্র এবং ভিডিও এডিটর
এডিটর
প্রতিটি পেশার জন্য, আমরা অভিজ্ঞ বিশেষজ্ঞদের সাথে কাজ করেছি যাতে তাদের দৈনন্দিন কাজের প্রতিফলন ঘটাতে পারে এমন প্রতিনিধিত্বমূলক কাজ তৈরি করা যায়। এই বিশেষজ্ঞদের গড়ে 14 বছরের অভিজ্ঞতা ছিল, অগ্রগতির দৃঢ় রেকর্ড রয়েছে। প্রতিনিধিত্ব সর্বাধিক করার জন্য—আমরা ইচ্ছাকৃতভাবে বিভিন্ন পেশার এবং বিভিন্ন আকারের ফার্ম থেকে —আইনজীবীদের মতো বিশেষজ্ঞদের নিয়োগ করেছি।
এটি বাস্তব কাজের প্রতিনিধিত্ব করতে, অন্য বিশেষজ্ঞদের জন্য সম্পন্ন করা সম্ভব এবং মূল্যায়নের জন্য স্পষ্ট করতে প্রতিটি কাজ বহু-ধাপের পর্যালোচনা প্রক্রিয়ার মধ্য দিয়ে যায়। গড়ে, প্রতিটি কাজ 5 দফা বিশেষজ্ঞ পর্যালোচনা করা হয়, যার মধ্যে অন্যান্য টাস্ক লেখক, অতিরিক্ত পেশাগত পর্যালোচক এবং মডেল-ভিত্তিক যাচাইকরণ অন্তর্ভুক্ত রয়েছে।
ফলস্বরূপ ডেটাসেটে প্রতি পেশার জন্য 30টি সম্পূর্ণ পর্যালোচনা করা কাজ (পূর্ণ-সেট) অন্তর্ভুক্ত রয়েছে, যার মধ্যে আমাদের ওপেন-সোর্সড গোল্ড সেটে প্রতিটি পেশার জন্য 5টি কাজ, যা বাস্তব জগতের জ্ঞান ভিত্তিক কাজের উপর মডেল কর্মক্ষমতা মূল্যায়নের জন্য একটি শক্তিশালী ভিত্তি প্রদান করে।
GDPval কাজের উদাহরণ
প্রম্পট + টাস্ক কনটেক্সট
অভিজ্ঞ মানব-প্রস্তুত ডেলিভারেবল

GDPval টাস্কগুলিতে মডেল পারফরম্যান্স মূল্যায়ন করার জন্য, আমরা বিশেষজ্ঞ "গ্রেডার্স"—ডেটাসেটে উপস্থাপিত একই পেশার অভিজ্ঞ পেশাদারদের একটি টিম এর উপর নির্ভর করি। এই গ্রেডাররা অন্ধভাবে মডেল-জেনারেটেড ডেলিভারেবলের তুলনা টাস্ক রাইটারদের তৈরি ডেলিভারেবলের সাথে করে (মানুষের তৈরি বনাম AI কোনটি তা জানে না), এবং সমালোচনা এবং র্যাঙ্কিং প্রদান করে। এরপর গ্রেডাররা মানব এবং AI ডেলিভারেবলগুলিকে র্যাঙ্ক করে এবং প্রতিটি AI ডেলিভারেবলকে একে অপরের চেয়ে "ভালো", "কতটা ভালো", অথবা "খারাপ" হিসাবে শ্রেণীবদ্ধ করে।
টাস্ক লেখকরা তাদের পেশার জন্য বিস্তারিত স্কোরিং রুব্রিকও তৈরি করেছেন, যা গ্রেডিং প্রক্রিয়ায় ধারাবাহিকতা এবং স্বচ্ছতা যোগ করে। আমরা একটি "স্বয়ংক্রিয় গ্রেডার"ও তৈরি করেছি, একটি কৃত্রিম বুদ্ধিমত্তা ব্যবস্থা যা মানব বিশেষজ্ঞরা কীভাবে একটি নির্দিষ্ট ডেলিভোরেবল বিচার করবেন তা অনুমান করার জন্য প্রশিক্ষিত। অন্যভাবে বলা যায়, প্রতিবার সম্পূর্ণ বিশেষজ্ঞ পর্যালোচনার পরিবর্তে, স্বয়ংক্রিয় গ্রেডার দ্রুত ভবিষ্যদ্বাণী করতে পারে যে লোকেরা কোন আউটপুট পছন্দ করবে। আমরা evals.openai.com ওয়েবসাইটের মাধ্যমে এই টুলটি একটি পরীক্ষামূলক গবেষণা পরিষেবা হিসেবে রিলিজ করছি, কিন্তু এটি এখনও বিশেষজ্ঞ গ্রেডারদের মতো নির্ভরযোগ্য নয়, তাই আমরা তাদের প্রতিস্থাপনের জন্য এটি ব্যবহার করি না।
আজকের অগ্রণী মডেলগুলি ইতিমধ্যেই ইনডাস্ট্রি বিশেষজ্ঞদের করা কাজের মানের কাছাকাছি পৌঁছেছে। এটি টেস্ট করতে, আমরা অন্ধ মূল্যায়ন পরিচালনা করেছি যেখানে ইন্ডাস্ট্রি বিশেষজ্ঞরা বেশ কয়েকটি শীর্ষস্থানীয় মডেল—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, এবং Grok 4 —থেকে প্রাপ্ত পণ্যগুলিকে মানুষের তৈরি কাজের সাথে তুলনা করেছেন। GDPval গোল্ড সেটের 220টি কাজের মধ্যে, আমরা রেকর্ড করেছি যখন মডেল আউটপুটগুলিকে ("জয়") এর চেয়ে ভালো বা ইন্ডাস্ট্রি বিশেষজ্ঞদের কাছ থেকে প্রাপ্ত ডেলিভারেবলের ("টাই") সমতুল্য হিসাবে রেট দেওয়া হয়েছিল, যেমনটি নীচের বার চার্টে দেখানো হয়েছে। সেটে Claude Opus 4.1 সেরা পারফর্মিং মডেল ছিল, বিশেষ করে নান্দনিকতার ক্ষেত্রে (যেমন, ডকুমেন্ট ফর্ম্যাটিং, স্লাইড লেআউট) সর্বোচ্চ ছিল, এবং GPT‑5 বিশেষ করে নির্ভুলতার ক্ষেত্রে (যেমন, ডোমেন-নির্দিষ্ট জ্ঞান খুঁজে বের করা) উৎকৃষ্ট ছিল। সময়ের সাথে সাথে আমরা এই কাজগুলিতে স্পষ্ট অগ্রগতিও দেখতে পাচ্ছি। স্পষ্ট লিনিয়ার ট্রেন্ড অনুসরণ করে, GPT‑4o (2024 সালের বসন্তে প্রকাশিত) থেকে GPT‑5 (2025 সালের গ্রীষ্মে প্রকাশিত) পর্যন্ত কর্মক্ষমতা দ্বিগুণেরও বেশি বেড়েছে।
এছাড়াও, আমরা দেখেছি যে ফ্রন্টিয়ার মডেলগুলি ইন্ডাস্ট্রি বিশেষজ্ঞদের তুলনায় GDPval কাজগুলি প্রায় 100x দ্রুত এবং 100x সস্তায় সম্পন্ন করতে পারে। যাইহোক, এই পরিসংখ্যানগুলি বিশুদ্ধ মডেল ইন্টারফারেন্স টাইম এবং API বিলিংয়ের হার প্রতিফলিত করে, এবং তাই আমাদের মডেলগুলি ব্যবহার করার জন্য বাস্তব কর্মক্ষেত্রের সেটিংসে প্রয়োজনীয় মানব তত্ত্বাবধান, পুনরাবৃত্তি এবং সমন্বয় দঅপগুলি অন্তর্ভুক্ত নয়। তবুও, বিশেষ করে যেসব কাজের ক্ষেত্রে মডেলগুলি বিশেষভাবে শক্তিশালী, আমরা আশা করি যে কোনও মডেলকে কোনও মানুষের সাথে চেষ্টা করার আগে কোনও কাজ দেওয়ার ফলে সময় এবং অর্থ সাশ্রয় হবে।
বিশেষজ্ঞ গ্রেডাররা নেতৃস্থানীয় মডেল থেকে প্রাপ্ত ফলাফলের সাথে মানব বিশেষজ্ঞদের তুলনা করেছেন। আজকের অগ্রণী মডেলগুলি ইতিমধ্যেই ইনডাস্ট্রি বিশেষজ্ঞদের করা কাজের মানের কাছাকাছি পৌঁছেছে। Claude Opus 4.1 অর্ধেকেরও কম কাজে মানুষের মতো বা তার চেয়ে ভালো রেটিংপ্রাপ্ত আউটপুট তৈরি করেছে।
GPT‑4o থেকে GPT‑5 পর্যন্ত, GDPval কাজের পারফরম্যান্স এক বছরের মধ্যে তিনগুণেরও বেশি বৃদ্ধি পেয়েছে।
অবশেষে, আমরা GDPval-এ কর্মক্ষমতা উন্নত করতে পারি কিনা তা মূল্যায়ন করার জন্য GPT‑5‑এর একটি অভ্যন্তরীণ, পরীক্ষামূলক সংস্করণকে ক্রমবর্ধমানভাবে প্রশিক্ষণ দিয়েছি। আমরা দেখেছি যে এই প্রক্রিয়াটি কর্মক্ষমতা উন্নত করেছে, যা আরও সম্ভাব্য উন্নতির পথ তৈরি করেছে। অন্যান্য নিয়ন্ত্রিত পরীক্ষা-নিরীক্ষা এটিকে সমর্থন করে: মডেলের আকার বৃদ্ধি, আরও রিজনিং পদক্ষেপগুলিকে উৎসাহিত করা এবং প্রতিটি কাজের কনটেক্সটকে আরও সমৃদ্ধ করার ফলে পরিমাপযোগ্য লাভ হয়েছে।
আপনি আমাদের পেপারে সম্পূর্ণ ফলাফল দেখতে পাবেন। আমরা GDPval টাস্কের একটি গোল্ড সাবসেট এবং একটি পাবলিক গ্রেডিং পরিষেবাও প্রকাশ করছি যাতে অন্যান্য গবেষকরা এই কাজের উপর ভিত্তি করে কাজটি তৈরি করতে পারেন।
AI যত বেশি সক্ষম হবে, ততই এটি চাকরির বাজারে পরিবর্তন ঘটানোর সম্ভাবনা রয়েছে। প্রাথমিক GDPval ফলাফল থেকে দেখা যায় মডেলগুলি ইতিমধ্যেই কিছু পুনরাবৃত্তিমূলক, সুনির্দিষ্ট কাজ দ্রুত এবং বিশেষজ্ঞদের তুলনায় কম খরচে করে দিতে পারে। তবে, বেশিরভাগ কাজ কেবল লিখে রাখা যায় এমন কাজের সমষ্টির চেয়েও বেশি কিছু। GDPval হাইলাইট করে AI কোন রুটিন কাজগুলি পরিচালনা করতে পারে যাতে মানুষ সৃজনশীল, বিবেচান ভিত্তিক কাজে আরও বেশি সময় ব্যয় করতে পারে। AI এইভাবে কর্মীদের পরিপূরক হলে, এটি উল্লেখযোগ্য অর্থনৈতিক প্রবৃদ্ধিতে অবদান রাখবে। আমাদের লক্ষ্য হলো এই টুলস এ অ্যাক্সেসকে গণতান্ত্রিক করে, পরিবর্তনের মাধ্যমে কর্মীদের সহায়তা করে এবং ব্যাপক অবদানকে পুরস্কৃত করে এমন ব্যবস্থা তৈরি করে সকলকে কৃত্রিম বুদ্ধিমত্তার "উন্নত লিফটে" রাখা।
GDPval একটি প্রাথমিক ধাপ। যদিও এটি 44টি পেশা এবং শত শত কাজকে অন্তর্ভুক্ত করে, আমরা আমাদের টেস্টের পরিধি প্রসারিত করতে এবং ফলাফলগুলিকে আরও অর্থবহ করে তুলতে আমাদের পদ্ধতিকে আরও পরিমার্জন করে চলেছি। মূল্যায়নের বর্তমান সংস্করণটিও এক-শট, তাই এটি এমন কোনও ঘটনা ক্যাপচার করে না যেখানে একটি মডেলকে একাধিক খসড়ার মাধ্যমে প্রেক্ষাপট তৈরি বা উন্নতি করতে হয়—উদাহরণস্বরূপ, ক্লায়েন্টের ফিডব্যাকের পরে একটি আইনি সারসংক্ষেপ সংশোধন করা বা কোনও অসঙ্গতি সনাক্ত করার পরে ডেটা বিশ্লেষণের পুনরাবৃত্তি করা। এছাড়াও, বাস্তব জগতে, কাজগুলি সবসময় একটি প্রম্পট এবং রেফারেন্স ফাইলের মাধ্যমে স্পষ্টভাবে সংজ্ঞায়িত করা হয় না; উদাহরণস্বরূপ, একজন আইনজীবীকে অস্পষ্টতা কাটিয়ে উঠতে হতে পারে এবং তাদের ক্লায়েন্টের সাথে কথা বলতে হতে পারে, সিদ্ধান্ত নেওয়ার আগে যে একটি আইনি সংক্ষিপ্ত বিবরণ তৈরি করা তাদের সাহায্য করার জন্য সঠিক পদ্ধতি। আমরা GDPval সম্প্রসারণের পরিকল্পনা করছি যাতে আরও বেশি পেশা, ইন্ডাস্ট্রি এবং কাজের ধরণ অন্তর্ভুক্ত করা যায়, বর্ধিত ইন্টারঅ্যাক্টিভিটি সহ, এবং অস্পষ্টতা নেভিগেট করার সাথে জড়িত আরও কাজ অন্তর্ভুক্ত করা যায়, যার দীর্ঘমেয়াদী লক্ষ্য হল বৈচিত্র্যময় জ্ঞানের কাজের অগ্রগতি আরও ভালভাবে পরিমাপ করা।
- আপনি যদি একজন ইন্ডাস্ট্রি বিশেষজ্ঞ হন এবং GDPval-এ অংশ নিতে চান, তাহলে অনুগ্রহ করে এখানে আপনার আগ্রহের বিষয়ে জানান।
- আপনি যদি OpenAI-এর সাথে কাজ করা একজন গ্রাহক হন এবং আপনি ভবিষ্যতে GDPval-এর একটি রাউন্ডে অবদান রাখতে চান, তাহলে অনুগ্রহ করে এখানে আগ্রহের বিষয়ে জানান।
সম্প্রদায়ের অংশগ্রহণ অপরিহার্য—আমরা কর্মক্ষেত্রে মানুষের জন্য AGI কে আরও কার্যকর করে তুলতে চান এমন গবেষক, প্র্যাক্টিশনার এবং সংস্থাগুলির সাথে একত্রে GDPval তৈরি করতে আগ্রহী।


