মূল কনটেন্টে যান
OpenAI

২৫ সেপ্টেম্বর, ২০২৫

পাবলিকেশনগবেষণা

বাস্তব জগতের কাজগুলিতে আমাদের মডেলগুলোর কার্যকারিতা পরিমাপ করা

আমরা GDPval চালু করছি, একটি নতুন মূল্যায়ন 44টি পেশার বাস্তব জগতের অর্থনৈতিকভাবে মূল্যবান কাজের মডেল পারফরমেন্স পরিমাপ করে।

আমাদের লক্ষ্য হলো কৃত্রিম সাধারণ বুদ্ধিমত্তা যেন সমগ্র মানবজাতির উপকার করে তা নিশ্চিত করা। আমাদের মিশনের অংশ হিসেবে, আমরা বাস্তব জগতে AI মডেলগুলি কীভাবে মানুষকে সাহায্য করতে পারে তার অগ্রগতি স্বচ্ছভাবে জানাতে চাই। এই কারণেই আমরা GDPval চালু করছি: একটি নতুন মূল্যায়ন যা আমাদের মডেল এবং অন্যান্য মডেলগুলি অর্থনৈতিকভাবে মূল্যবান, বাস্তব-বিশ্বের কাজগুলিতে কতটা ভালোভাবে কাজ করে তা ট্র্যাক করতে সাহায্য করার জন্য ডিজাইন করা হয়েছে। আমরা এই মূল্যায়নকে GDPval বলি কারণ আমরা গ্রস ডোমেস্টিক প্রোডাক্ট (GDP) কে একটি মূল অর্থনৈতিক সূচক হিসেবে ধারণা দিয়ে শুরু করেছিলাম এবং GDP তে সবচেয়ে বেশি অবদান রাখে এমন ইন্ডাস্ট্রিের মূল পেশার কাজগুলি অন্তর্ভুক্ত করা হয়।

মানুষ প্রায়ই সমাজে কৃত্রিম বুদ্ধিমত্তার ব্যাপক প্রভাব সম্পর্কে কল্পনা করে, কিন্তু এর সম্ভাবনা বোঝার সবচেয়ে স্পষ্ট উপায় হল মডেলগুলি ইতিমধ্যে কী করতে সক্ষম তা দেখা। ইতিহাস থেকে দেখা যায়—ইন্টারনেট থেকে স্মার্টফোন পর্যন্ত প্রধান প্রযুক্তিগুলি—আবিষ্কার হওয়া থেকে ব্যাপকভাবে গ্রহণযোগ্য হতে এক দশকেরও বেশি সময় লেগেছে। GDPval-এর মতো মূল্যায়ন অনুমানের পরিবর্তে প্রমাণের ভিত্তিতে ভবিষ্যতের AI উন্নতি সম্পর্কে আলোচনা শুরু করতে সাহায্য করে এবং সময়ের সাথে সাথে মডেলের উন্নতি ট্র্যাক করতে আমাদের সাহায্য করতে পারে।

পূর্ববর্তী এআই মূল্যায়ন, যেমন চ্যালেঞ্জিং একাডেমিক টেস্ট এবং প্রতিযোগিতামূলক কোডিং চ্যালেঞ্জ, মডেল যুক্তিপ্রয়োগ সক্ষমতা বাড়ানোর ক্ষেত্রে অপরিহার্য ছিল, কিন্তু প্রায়শই তারা তাদের দৈনন্দিন কাজে যে ধরণের কাজগুলি পরিচালনা করে তা পূরণ করতে ব্যর্থ হয়।

এই ব্যবধান পূরণের জন্য, আমরা ক্রমবর্ধমান বাস্তবসম্মত এবং অর্থনৈতিকভাবে প্রাসঙ্গিক সক্ষমতা পরিমাপকারী মূল্যায়ন তৈরি করছি। এই অগ্রগতি MMLU (ডজন ডজন বিষয়ের উপর পরীক্ষার ধরণে প্রশ্ন) এর মতো ক্লাসিক একাডেমিক মানদণ্ড থেকে, SWE-Bench (সফ্টওয়্যার ইঞ্জিনিয়ারিং বাগ-ফিক্সিং টাস্ক), MLE-Bench (মডেল প্রশিক্ষণ এবং বিশ্লেষণের মতো মেশিন লার্নিং ইঞ্জিনিয়ারিং টাস্ক), এবং পেপার-বেঞ্চ (গবেষণাপত্রের উপর বৈজ্ঞানিক যুক্তি এবং সমালোচনা) এর মতো আরও প্রয়োগিক মূল্যায়নে এবং সম্প্রতি SWE-Lancer (প্রকৃত অর্থপ্রদানের উপর ভিত্তি করে ফ্রিল্যান্স সফটওয়্যার ইঞ্জিনিয়ারিং প্রকল্প) এর মতো বাজার-ভিত্তিক মূল্যায়নে স্থানান্তরিত হয়েছে।

GDPval সেই অগ্রগতির পরবর্তী ধাপ। এটি বিভিন্ন পেশা এবং সেক্টরের অভিজ্ঞ পেশাদারদের বাস্তব জগতের জ্ঞান ভিত্তিক থেকে সরাসরি গৃহীত কাজের উপর মডেল কর্মক্ষমতা পরিমাপ করে, যা অর্থনৈতিকভাবে মূল্যবান কাজগুলিতে মডেলরা কীভাবে কাজ করে তার একটি পরিষ্কার চিত্র প্রদান করে। বাস্তব পেশাগত কাজে মডেলগুলি মূল্যায়ন করলে আমাদের কেবল ল্যাবে তারা কতটা ভালো কাজ করে তা বুঝতে সাহায্য করে না, বরং তারা কীভাবে দৈনন্দিন কাজে লোকেদের সহায়তা করতে পারে তা বুঝতে সাহায্য করে। 

GDPval মিজার কী

এই মূল্যায়নের প্রথম সংস্করণ, GDPval, যুক্তরাষ্ট্রের GDP তে অবদান রাখা 9টি ইন্ডাস্ট্রি থেকে নির্বাচিত 44টি পেশাকে অন্তর্ভুক্ত করে। GDPval এর পূর্ণাঙ্গ সেটে 1320টি বিশেষায়িত কাজ রয়েছে (গোল্ড ওপেন-সোর্স সেটে 220টি), প্রতিটি কাজ অত্যন্ত সতর্কতার সাথে তৈরি এবং যাচাই করা হয়েছে অভিজ্ঞ পেশাদারদের দ্বারা যাদের গড়ে 14 বছরেরও বেশি অভিজ্ঞতা রয়েছে এই ক্ষেত্রগুলিতে। প্রতিটি কাজ বাস্তব কাজের পণ্যের উপর ভিত্তি করে তৈরি, যেমন একটি আইনি সারসংক্ষেপ, একটি ইঞ্জিনিয়ারিং ব্লুপ্রিন্ট, একটি গ্রাহক সহায়তা কথোপকথন, অথবা একটি নার্সিং কেয়ার পরিকল্পনা।

GDPval তার বাস্তবতা এবং মূল্যায়ন করা কাজের বৈচিত্র্য উভয়ের ক্ষেত্রেই স্বতন্ত্র। অর্থনৈতিক মূল্যবোধের সাথে সম্পর্কিত অন্যান্য মূল্যায়নের বিপরীতে, যা নির্দিষ্ট ক্ষেত্রগুলিতে (যেমন, SWE-Lancer) মনোনিবেশ করে, GDPval অনেক কাজ এবং পেশাকে অন্তর্ভুক্ত করে। এবং যেসব মানদণ্ডে একাডেমিক পরীক্ষা বা টেস্ট (যেমন, হিউম্যানিটি'স লাস্ট এক্সাম বা MMLU) স্টাইলে কৃত্রিমভাবে কাজ তৈরি করা হয়, তার বিপরীতে, GDPval এমন কাজের উপর দৃষ্টি নিবদ্ধ করে যা ডেলিভারেবলের উপর ভিত্তি করে তৈরি করা হয় যা হয় প্রকৃত কাজ বা আজকের বিদ্যমান পণ্য, অথবা একইভাবে নির্মিত কাজের পণ্য। 

ঐতিহ্যবাহী মানদণ্ডের বিপরীতে, GDPval কাজগুলি সহজতর টেক্সট নির্দেশ নয়। এগুলিতে রেফারেন্স ফাইল এবং প্রসঙ্গ থাকে এবং প্রত্যাশিত ডেলিভারেবল স্প্যান নথি, স্লাইড, ডায়াগ্রাম, স্প্রেডশিট এবং মাল্টিমিডিয়া থাকে। এই ফলে মডেলগুলি কীভাবে পেশাদারদের সহায়তা করতে পারে তা নির্ধারণে GDPval একটি আরও বাস্তবসম্মত টেস্ট হিসেবে গণ্য হচ্ছে।

GDPval একটি প্রাথমিক ধাপ যা অনেক অর্থনৈতিক কাজের সম্পূর্ণ সূক্ষ্ম প্রতিফলিত করে না। যদিও এটি 44টি পেশা এবং শত শত জ্ঞান ভিত্তিক কাজে বিস্তৃত, এটি এক-শট মূল্যায়নের মধ্যে সীমাবদ্ধ, তাই এটি এমন কোনও ঘটনা ক্যাপচার করে না যেখানে একটি মডেলকে একাধিক খসড়ার মাধ্যমে প্রসঙ্গ তৈরি বা উন্নতি করা প্রয়োজন। ভবিষ্যতের সংস্করণে বাস্তব জগতের জ্ঞান ভিত্তিক কাজের জটিলতাকে আরও ভালভাবে প্রতিফলিত করার জন্য আরও ইন্টারেক্টিভ কর্মপ্রবাহ এবং কনটেক্সট-সমৃদ্ধ কার্যগুলি অন্তর্ভুক্ত হবে (নীচে আমাদের সীমাবদ্ধতা বিভাগে আরও দেখুন)।

আমরা কীভাবে পেশা নির্বাচন করেছি

GDPval 9টি ইন্ডাস্ট্রি এবং 44টি পেশার কাজ কভার করে এবং ভবিষ্যতের সংস্করনে আরও প্রসারিত করা হবে। ফেডারেল রিজার্ভ ব্যাংক অফ এসটি লুইসের তথ্য অনুসারে, যুক্তরাষ্ট্রে GDP তে 5% এর বেশি অবদান রাকছে এমন প্রধান 9টি ইন্ডাস্ট্রি নির্বাচন করা হয়েছিল। তারপর, আমরা প্রতিটি ইন্ডাস্ট্রি থেকে 5টি পেশা নির্বাচন করেছি যা মোট মজুরি এবং পারিশ্রমিকে সবচেয়ে বেশি অবদান রাখে এবং মূলত জ্ঞান-ভিত্তিক কর্মক্ষেত্র, মে 2024 মার্কিন শ্রম পরিসংখ্যান ব্যুরো (BLS) এর পেশাগত কর্মসংস্থান প্রতিবেদন(একটি নতুন উইন্ডোতে খোলে) থেকে মজুরি এবং কর্মসংস্থানের তথ্য ব্যবহার করে। পেশাগুলি মূলত জ্ঞান ভিত্তিক কিনা তা নির্ধারণ করতে, আমরা O*NET(একটি নতুন উইন্ডোতে খোলে) থেকে টাস্ক ডেটা ব্যবহার করেছি, যা মার্কিন শ্রম বিভাগ দ্বারা স্পনসর করা মার্কিন পেশাগত তথ্যের একটি ডাটাবেস। আমরা O*NET-তে প্রতিটি পেশার প্রতিটি কাজ জ্ঞান ভিত্তিক কাজ নাকি শারীরিক শ্রম/কায়িক শ্রম (ভৌত জগতে পদক্ষেপ নেওয়ার প্রয়োজন) তা শ্রেণীবদ্ধ করেছি। একটি পেশাকে সামগ্রিকভাবে "প্রধানত জ্ঞানভিত্তিক কাজ" হিসেবে গণ্য করা হয় যদি সেই কাজের কমপক্ষে 60% শারীরিক শ্রম বা কায়িক শ্রমের সাথে জড়িত নয় বলে শ্রেণীবদ্ধ করা হয়। GDPval-এর প্রথম সংস্করণের জন্য 60% থ্রেশহোল্ডকে একটি সূচনা বিন্দু হিসেবে বেছে নেওয়া হয়েছিল, যেখানে এমন পেশাগুলির উপর দৃষ্টি নিবদ্ধ করা হয়েছিল যেখানে AI বাস্তব-বিশ্বের উৎপাদনশীলতার উপর সর্বোচ্চ প্রভাব ফেলতে পারে। 

এই প্রক্রিয়ায় অন্তর্ভুক্তির জন্য 44টি পেশা নির্ধারিত হয়েছে।

রিয়েল এস্টেট, রেন্টাল এবং লিজিং

  • কনসিজার্জ

  • সম্পত্তি, রিয়েল এস্টেট এবং কমিউনিটি অ্যাসোসিয়েশন ম্যানেজার

  • রিয়েল এস্টেট বিক্রয় এজেন্ট

  • রিয়েল এস্টেট ব্রোকার

  • কাউন্টার এবং রেন্টাল ক্লার্ক

সরকার

  • বিনোদন কর্মী

  • কমপ্লায়েন্স অীফসার

  • পুলিশ এবং অনুসন্ধানকারীর ফার্স্ট-লাইন সুপারভাইজার

  • প্রশাসনিক সার্ভিস ম্যানেজার

  • শিশু, পরিবার এবং স্কুলের সমাজকর্মীল

উৎপাদন

  • মেকানিকাল ইঞ্জিনিয়ার

  • ইন্ডাস্ট্রিয়াল ইঞ্জিনিয়ার

  • ক্রেতা এবং ক্রয় এজেন্ট

  • শিপিং, রিসিভিং এবং ইনভেন্টরি ক্লার্ক

  • প্রোডাকশন এবং অপারেটিং কর্মীদের ফার্স্ট-লাইন সুপারভাইজার

প্রফেশনাল, সায়েন্টিফিক এবং টেকনিক্যাল সার্ভিসেস

  • সফটওয়্যার ডেভেলপারপে

  • আইনজীবী

  • অ্যাকাউনট্যান্ট এবং অডিটর

  • কম্পিউটার এবং তথ্য সিস্টেম ম্যানেজার

  • প্রজেক্ট ম্যানেজমেন্ট বিশেষজ্ঞ

স্বাস্থ্যসেবা এবং সামাজিক সহায়তা

  • নিবন্ধিত নার্স

  • নার্স প্র্যাকটিশনার

  • চিকিৎসা ও স্বাস্থ্য সার্ভিস ম্যানেজার

  • অফিস এবং প্রশাসনিক সহায়তা কর্মীদের ফার্স্ট-লাইন সুপারভাইজার

  • মেডিকেল সেক্রেটারী এবং প্রশাসনিক সহকারী

অর্থনীতি এবং বীমা

  • কাস্টমার সার্ভিস রিপ্রেজেন্টেটিভ

  • আর্থিক এবং বিনিয়োগ বিশ্লেষণ

  • আর্থিক ম্যানেজার

  • ব্যক্তিগত আর্থিক উপডেস্টা

  • সিকিউরিটিজ, পণ্য এবং আর্থিক পরিষেবা বিক্রয় এজেন্ট

খুচরা বাণিজ্য

  • ফার্মাসিস্ট

  • রিটেইল সেলস কর্মীদের ফার্স্ট-লাইন সুপারভাইজার

  • সাধারণ এবং অপারেশন ম্যানেজার

  • ব্যক্তিগত গোয়েন্দা এবং অনুসন্ধানকারী

পাইকারি বাণিজ্য

  • বিক্রয় ম্যানেজার

  • অর্ডার ক্লার্ক

  • নন-রিটেইল সেলস কর্মীদের ফার্স্ট-লাইন সুপারভাইজার

  • বিক্রয় প্রতিনিধি, পাইকারি ও উৎপাদন, প্রযুক্তিগত ও বৈজ্ঞানিক পণ্য ব্যতীত

  • বিক্রয় প্রতিনিধি, পাইকারি ও উৎপাদন, প্রযুক্তিগত ও বৈজ্ঞানিক পণ্য

তথ্য

  • অডিও এবং ভিডিও প্রযুক্তিবিদ

  • প্রযোজক এবং পরিচালক

  • নিউজ অ্যানালিস্টস, রিপোর্টার এবং জার্নালিস্ট

  • চলচ্চিত্র এবং ভিডিও এডিটর

  • এডিটর

GDPval 9 বিভাগে 44টি জ্ঞান ভিত্তিক পেশায় কাজ করছে, যার মধ্যে রয়েছে সফটওয়্যার ডেভেলপার এবং আইনজীবী থেকে শুরু করে নিবন্ধিত নার্স এবং মেকানিকাল ইঞ্জিনিয়ার. এই পেশাগুলি অর্থনৈতিক গুরুত্বের ভিত্তিতে নির্বাচিত হয়েছিল এবং দৈনন্দিন কাজের ধরণের প্রতিনিধিত্ব করে যেখানে AI পেশাদারদের অর্থপূর্ণভাবে সহায়তা করতে পারে.

আমরা কীভাবে ডেটাসেট তৈরি করেছি

প্রতিটি পেশার জন্য, আমরা অভিজ্ঞ বিশেষজ্ঞদের সাথে কাজ করেছি যাতে তাদের দৈনন্দিন কাজের প্রতিফলন ঘটাতে পারে এমন প্রতিনিধিত্বমূলক কাজ তৈরি করা যায়। এই বিশেষজ্ঞদের গড়ে 14 বছরের অভিজ্ঞতা ছিল, অগ্রগতির দৃঢ় রেকর্ড রয়েছে। প্রতিনিধিত্ব সর্বাধিক করার জন্য—আমরা ইচ্ছাকৃতভাবে বিভিন্ন পেশার এবং বিভিন্ন আকারের ফার্ম থেকে —আইনজীবীদের মতো বিশেষজ্ঞদের নিয়োগ করেছি।

এটি বাস্তব কাজের প্রতিনিধিত্ব করতে, অন্য বিশেষজ্ঞদের জন্য সম্পন্ন করা সম্ভব এবং মূল্যায়নের জন্য স্পষ্ট করতে প্রতিটি কাজ বহু-ধাপের পর্যালোচনা প্রক্রিয়ার মধ্য দিয়ে যায়। গড়ে, প্রতিটি কাজ 5 দফা বিশেষজ্ঞ পর্যালোচনা করা হয়, যার মধ্যে অন্যান্য টাস্ক লেখক, অতিরিক্ত পেশাগত পর্যালোচক এবং মডেল-ভিত্তিক যাচাইকরণ অন্তর্ভুক্ত রয়েছে। 

ফলস্বরূপ ডেটাসেটে প্রতি পেশার জন্য 30টি সম্পূর্ণ পর্যালোচনা করা কাজ (পূর্ণ-সেট) অন্তর্ভুক্ত রয়েছে, যার মধ্যে আমাদের ওপেন-সোর্সড গোল্ড সেটে প্রতিটি পেশার জন্য 5টি কাজ, যা বাস্তব জগতের জ্ঞান ভিত্তিক কাজের উপর মডেল কর্মক্ষমতা মূল্যায়নের জন্য একটি শক্তিশালী ভিত্তি প্রদান করে।

GDPval কাজের উদাহরণ

প্রম্পট + টাস্ক কনটেক্সট

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

অভিজ্ঞ মানব-প্রস্তুত ডেলিভারেবল

একটি কেবল রিল ডিজাইনের বিস্ফোরণের দৃশ্য
GDPval-এর প্রতিটি কাজ একজন অভিজ্ঞ বিশেষজ্ঞ ডিজাইন করেন এবং তাদের পেশার বাস্তব জ্ঞানের প্রতিফলন ঘটায়. নির্দেশ একজন ডোমেন বিশেষজ্ঞ দ্বারা তৈরি একটি বাস্তবসম্মত কাজের অ্যাসাইনমেন্ট, এবং গোল্ড ডেলিভারেবল হল বিশেষজ্ঞের নিজস্ব সমাধান.

কীভাবে আমরা মডেলের কার্যকারিতা মূল্যায়ন করি

GDPval টাস্কগুলিতে মডেল পারফরম্যান্স মূল্যায়ন করার জন্য, আমরা বিশেষজ্ঞ "গ্রেডার্স"—ডেটাসেটে উপস্থাপিত একই পেশার অভিজ্ঞ পেশাদারদের একটি টিম এর উপর নির্ভর করি। এই গ্রেডাররা অন্ধভাবে মডেল-জেনারেটেড ডেলিভারেবলের তুলনা টাস্ক রাইটারদের তৈরি ডেলিভারেবলের সাথে করে (মানুষের তৈরি বনাম AI কোনটি তা জানে না), এবং সমালোচনা এবং র‍্যাঙ্কিং প্রদান করে। এরপর গ্রেডাররা মানব এবং AI ডেলিভারেবলগুলিকে র‍্যাঙ্ক করে এবং প্রতিটি AI ডেলিভারেবলকে একে অপরের চেয়ে "ভালো", "কতটা ভালো", অথবা "খারাপ" হিসাবে শ্রেণীবদ্ধ করে।

টাস্ক লেখকরা তাদের পেশার জন্য বিস্তারিত স্কোরিং রুব্রিকও তৈরি করেছেন, যা গ্রেডিং প্রক্রিয়ায় ধারাবাহিকতা এবং স্বচ্ছতা যোগ করে। আমরা একটি "স্বয়ংক্রিয় গ্রেডার"ও তৈরি করেছি, একটি কৃত্রিম বুদ্ধিমত্তা ব্যবস্থা যা মানব বিশেষজ্ঞরা কীভাবে একটি নির্দিষ্ট ডেলিভোরেবল বিচার করবেন তা অনুমান করার জন্য প্রশিক্ষিত। অন্যভাবে বলা যায়, প্রতিবার সম্পূর্ণ বিশেষজ্ঞ পর্যালোচনার পরিবর্তে, স্বয়ংক্রিয় গ্রেডার দ্রুত ভবিষ্যদ্বাণী করতে পারে যে লোকেরা কোন আউটপুট পছন্দ করবে। আমরা evals.openai.com ওয়েবসাইটের মাধ্যমে এই টুলটি একটি পরীক্ষামূলক গবেষণা পরিষেবা হিসেবে রিলিজ করছি, কিন্তু এটি এখনও বিশেষজ্ঞ গ্রেডারদের মতো নির্ভরযোগ্য নয়, তাই আমরা তাদের প্রতিস্থাপনের জন্য এটি ব্যবহার করি না। 

প্রাথমিক ফলাফল

আজকের অগ্রণী মডেলগুলি ইতিমধ্যেই ইনডাস্ট্রি বিশেষজ্ঞদের করা কাজের মানের কাছাকাছি পৌঁছেছে। এটি টেস্ট করতে, আমরা অন্ধ মূল্যায়ন পরিচালনা করেছি যেখানে ইন্ডাস্ট্রি বিশেষজ্ঞরা বেশ কয়েকটি শীর্ষস্থানীয় মডেল—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, এবং Grok 4 —থেকে প্রাপ্ত পণ্যগুলিকে মানুষের তৈরি কাজের সাথে তুলনা করেছেন। GDPval গোল্ড সেটের 220টি কাজের মধ্যে, আমরা রেকর্ড করেছি যখন মডেল আউটপুটগুলিকে ("জয়") এর চেয়ে ভালো বা ইন্ডাস্ট্রি বিশেষজ্ঞদের কাছ থেকে প্রাপ্ত ডেলিভারেবলের ("টাই") সমতুল্য হিসাবে রেট দেওয়া হয়েছিল, যেমনটি নীচের বার চার্টে দেখানো হয়েছে। সেটে Claude Opus 4.1 সেরা পারফর্মিং মডেল ছিল, বিশেষ করে নান্দনিকতার ক্ষেত্রে (যেমন, ডকুমেন্ট ফর্ম্যাটিং, স্লাইড লেআউট) সর্বোচ্চ ছিল, এবং GPT‑5 বিশেষ করে নির্ভুলতার ক্ষেত্রে (যেমন, ডোমেন-নির্দিষ্ট জ্ঞান খুঁজে বের করা) উৎকৃষ্ট ছিল। সময়ের সাথে সাথে আমরা এই কাজগুলিতে স্পষ্ট অগ্রগতিও দেখতে পাচ্ছি। স্পষ্ট লিনিয়ার ট্রেন্ড অনুসরণ করে, GPT‑4o (2024 সালের বসন্তে প্রকাশিত) থেকে GPT‑5 (2025 সালের গ্রীষ্মে প্রকাশিত) পর্যন্ত কর্মক্ষমতা দ্বিগুণেরও বেশি বেড়েছে।

এছাড়াও, আমরা দেখেছি যে ফ্রন্টিয়ার মডেলগুলি ইন্ডাস্ট্রি বিশেষজ্ঞদের তুলনায় GDPval কাজগুলি প্রায় 100x দ্রুত এবং 100x সস্তায় সম্পন্ন করতে পারে। যাইহোক, এই পরিসংখ্যানগুলি বিশুদ্ধ মডেল ইন্টারফারেন্স টাইম এবং API বিলিংয়ের হার প্রতিফলিত করে, এবং তাই আমাদের মডেলগুলি ব্যবহার করার জন্য বাস্তব কর্মক্ষেত্রের সেটিংসে প্রয়োজনীয় মানব তত্ত্বাবধান, পুনরাবৃত্তি এবং সমন্বয় দঅপগুলি অন্তর্ভুক্ত নয়। তবুও, বিশেষ করে যেসব কাজের ক্ষেত্রে মডেলগুলি বিশেষভাবে শক্তিশালী, আমরা আশা করি যে কোনও মডেলকে কোনও মানুষের সাথে চেষ্টা করার আগে কোনও কাজ দেওয়ার ফলে সময় এবং অর্থ সাশ্রয় হবে।

বিশেষজ্ঞ গ্রেডাররা নেতৃস্থানীয় মডেল থেকে প্রাপ্ত ফলাফলের সাথে মানব বিশেষজ্ঞদের তুলনা করেছেন। আজকের অগ্রণী মডেলগুলি ইতিমধ্যেই ইনডাস্ট্রি বিশেষজ্ঞদের করা কাজের মানের কাছাকাছি পৌঁছেছে। Claude Opus 4.1 অর্ধেকেরও কম কাজে মানুষের মতো বা তার চেয়ে ভালো রেটিংপ্রাপ্ত আউটপুট তৈরি করেছে।

GPT‑4o থেকে GPT‑5 পর্যন্ত, GDPval কাজের পারফরম্যান্স এক বছরের মধ্যে তিনগুণেরও বেশি বৃদ্ধি পেয়েছে। 

অবশেষে, আমরা GDPval-এ কর্মক্ষমতা উন্নত করতে পারি কিনা তা মূল্যায়ন করার জন্য GPT‑5‑এর একটি অভ্যন্তরীণ, পরীক্ষামূলক সংস্করণকে ক্রমবর্ধমানভাবে প্রশিক্ষণ দিয়েছি। আমরা দেখেছি যে এই প্রক্রিয়াটি কর্মক্ষমতা উন্নত করেছে, যা আরও সম্ভাব্য উন্নতির পথ তৈরি করেছে। অন্যান্য নিয়ন্ত্রিত পরীক্ষা-নিরীক্ষা এটিকে সমর্থন করে: মডেলের আকার বৃদ্ধি, আরও রিজনিং পদক্ষেপগুলিকে উৎসাহিত করা এবং প্রতিটি কাজের কনটেক্সটকে আরও সমৃদ্ধ করার ফলে পরিমাপযোগ্য লাভ হয়েছে।

আপনি আমাদের পেপারে সম্পূর্ণ ফলাফল দেখতে পাবেন। আমরা GDPval টাস্কের একটি গোল্ড সাবসেট এবং একটি পাবলিক গ্রেডিং পরিষেবাও প্রকাশ করছি যাতে অন্যান্য গবেষকরা এই কাজের উপর ভিত্তি করে কাজটি তৈরি করতে পারেন।

কর্মক্ষেত্র এবং AI-এর ভবিষ্যত 

AI যত বেশি সক্ষম হবে, ততই এটি চাকরির বাজারে পরিবর্তন ঘটানোর সম্ভাবনা রয়েছে। প্রাথমিক GDPval ফলাফল থেকে দেখা যায় মডেলগুলি ইতিমধ্যেই কিছু পুনরাবৃত্তিমূলক, সুনির্দিষ্ট কাজ দ্রুত এবং বিশেষজ্ঞদের তুলনায় কম খরচে করে দিতে পারে। তবে, বেশিরভাগ কাজ কেবল লিখে রাখা যায় এমন কাজের সমষ্টির চেয়েও বেশি কিছু। GDPval হাইলাইট করে AI কোন রুটিন কাজগুলি পরিচালনা করতে পারে যাতে মানুষ সৃজনশীল, বিবেচান ভিত্তিক কাজে আরও বেশি সময় ব্যয় করতে পারে। AI এইভাবে কর্মীদের পরিপূরক হলে, এটি উল্লেখযোগ্য অর্থনৈতিক প্রবৃদ্ধিতে অবদান রাখবে। আমাদের লক্ষ্য হলো এই টুলস এ অ্যাক্সেসকে গণতান্ত্রিক করে, পরিবর্তনের মাধ্যমে কর্মীদের সহায়তা করে এবং ব্যাপক অবদানকে পুরস্কৃত করে এমন ব্যবস্থা তৈরি করে সকলকে কৃত্রিম বুদ্ধিমত্তার "উন্নত লিফটে" রাখা। 

সীমাবদ্ধতা এবং পরবর্তী পদক্ষেপ

GDPval একটি প্রাথমিক ধাপ। যদিও এটি 44টি পেশা এবং শত শত কাজকে অন্তর্ভুক্ত করে, আমরা আমাদের টেস্টের পরিধি প্রসারিত করতে এবং ফলাফলগুলিকে আরও অর্থবহ করে তুলতে আমাদের পদ্ধতিকে আরও পরিমার্জন করে চলেছি। মূল্যায়নের বর্তমান সংস্করণটিও এক-শট, তাই এটি এমন কোনও ঘটনা ক্যাপচার করে না যেখানে একটি মডেলকে একাধিক খসড়ার মাধ্যমে প্রেক্ষাপট তৈরি বা উন্নতি করতে হয়—উদাহরণস্বরূপ, ক্লায়েন্টের ফিডব্যাকের পরে একটি আইনি সারসংক্ষেপ সংশোধন করা বা কোনও অসঙ্গতি সনাক্ত করার পরে ডেটা বিশ্লেষণের পুনরাবৃত্তি করা। এছাড়াও, বাস্তব জগতে, কাজগুলি সবসময় একটি প্রম্পট এবং রেফারেন্স ফাইলের মাধ্যমে স্পষ্টভাবে সংজ্ঞায়িত করা হয় না; উদাহরণস্বরূপ, একজন আইনজীবীকে অস্পষ্টতা কাটিয়ে উঠতে হতে পারে এবং তাদের ক্লায়েন্টের সাথে কথা বলতে হতে পারে, সিদ্ধান্ত নেওয়ার আগে যে একটি আইনি সংক্ষিপ্ত বিবরণ তৈরি করা তাদের সাহায্য করার জন্য সঠিক পদ্ধতি। আমরা GDPval সম্প্রসারণের পরিকল্পনা করছি যাতে আরও বেশি পেশা, ইন্ডাস্ট্রি এবং কাজের ধরণ অন্তর্ভুক্ত করা যায়, বর্ধিত ইন্টারঅ্যাক্টিভিটি সহ, এবং অস্পষ্টতা নেভিগেট করার সাথে জড়িত আরও কাজ অন্তর্ভুক্ত করা যায়, যার দীর্ঘমেয়াদী লক্ষ্য হল বৈচিত্র্যময় জ্ঞানের কাজের অগ্রগতি আরও ভালভাবে পরিমাপ করা।

অংশ নিন

সম্প্রদায়ের অংশগ্রহণ অপরিহার্য—আমরা কর্মক্ষেত্রে মানুষের জন্য AGI কে আরও কার্যকর করে তুলতে চান এমন গবেষক, প্র্যাক্টিশনার এবং সংস্থাগুলির সাথে একত্রে GDPval তৈরি করতে আগ্রহী।