ChatGPT এজেন্ট পরিচিতি: গবেষণা এবং কার্যক্রমের সংযোগ
ChatGPT এখন ভাবে আর কাজ করে, নিজের কম্পিউটার ব্যবহার করে আপনার জন্য টাস্ক সম্পন্ন করতে এজেন্টিক স্কিলসের টুলবক্স থেকে প্রোঅ্যাকটিভলি বেছে নেয়.
ChatGPT এখন নিজের কম্পিউটার ব্যবহার করে আপনার জন্য কাজ করতে পারে—শুরু থেকে শেষ পর্যন্ত জটিল কাজগুলি পরিচালনা করতে পারে.
এখন আপনি ChatGPT‑কে এমন রিকোয়েস্ট হ্যান্ডেল করতে বলতে পারেন: “আমার ক্যালেন্ডার দেখো আর রিসেন্ট নিউজ অনুযায়ী আসন্ন ক্লায়েন্ট মিটিংসের ব্রিফ দাও,” “চারজনের জন্য জাপানিজ ব্রেকফাস্ট বানাতে প্ল্যান করো আর ইনগ্রেডিয়েন্টস কিনে দাও,” আর “তিনজন কম্পিটিটর অ্যানালাইজ করে একটি স্লাইড ডেক তৈরি করো.” ChatGPT বুদ্ধিমত্তার সাথে ওয়েবসাইট নেভিগেট করবে, ফলাফল ফিল্টার করুন, প্রয়োজনে আপনাকে নিরাপদে লগ-ইন করতে নির্দেশ করবে, কোড চালাবে, বিশ্লেষণ করবে এবং এমনকি সম্পাদনাযোগ্য স্লাইডশো এবং স্প্রেডশিট সরবরাহ করবে যা তার ফলাফলগুলির সংক্ষিপ্তসার করে.
এই নতুন ক্যাপাবিলিটির কেন্দ্রে রয়েছে একটি ইউনিফাইড এজেন্টিক সিস্টেম. এটি পূর্ববর্তী সাফল্যের তিনটি শক্তি একত্রিত করে: অপারেটরের ওয়েবসাইটগুলির সাথে ইন্টারঅ্যাক্ট করার ক্ষমতা, গভীর গবেষণার তথ্য সংশ্লেষণের দক্ষতা এবং চ্যাটজিপিটির বুদ্ধিমত্তা এবং কথোপকথনের সাবলীলতা.
ChatGPT নিজের ভার্চুয়াল কম্পিউটার ব্যবহার করে এই কাজগুলো সম্পন্ন করে, রিজনিং আর অ্যাকশনের মধ্যে ফ্লুইডলি শিফট করে শুরু থেকে শেষ পর্যন্ত জটিল ওয়ার্কফ্লো হ্যান্ডেল করে—সবই আপনার নির্দেশাবলীর উপর ভিত্তি করে.
সবচেয়ে গুরুত্বপূর্ণ হলো, নিয়ন্ত্রণ সব সময় আপনার হাতে. ChatGPT কোনো পদক্ষেপ নেওয়ার আগে অনুমতি চাইবে, আর আপনি সহজেই বন্ধ করতে পারবেন, ব্রাউজার নিয়ন্ত্রণ করতে পারবেন, বা যেকোনো সময় কাজ বন্ধ করতে পারবেন.
আজ থেকে, Pro, Plus এবং Team ব্যবহারকারীরা যেকোনো কথোপকথনের যেকোনো সময়ে কম্পোজারের টুলস ড্রপডাউন থেকে 'এজেন্ট মোড' নির্বাচন করে সরাসরি ChatGPT‑এর নতুন এজেন্টিক ক্ষমতা সক্রিয় করতে পারবেন.
ChatGPT এজেন্ট ইতোমধ্যেই জটিল কাজগুলো পরিচালনার জন্য একটি শক্তিশালী টুল, তবে আজকের লঞ্চ কেবল শুরু মাত্র. আমরা নিয়মিতভাবে ইটারেটিভলি গুরুত্বপূর্ণ উন্নতি যোগ করতে থাকব, যাতে সময়ের সঙ্গে এটি আরও বেশি সক্ষম এবং আরও বেশি মানুষের জন্য উপযোগী হয়ে ওঠে.
এর আগে, Operator এবং ডিপ রিসার্চ প্রত্যেকে নিজস্ব ইউনিক স্ট্রেংথ এনেছিল: Operator ওয়েবে স্ক্রোল, ক্লিক এবং টাইপ করতে পারত, আর ডিপ রিসার্চ তথ্য বিশ্লেষণ এবং সংক্ষিপ্তকরণে উৎকৃষ্ট ছিল. কিন্তু তারা বিভিন্ন পরিস্থিতিতে সবচেয়ে ভালো কাজ করেছিল: Operator বিশ্লেষণের গভীরে ডুব দিতে বা বিস্তারিত প্রতিবেদন লিখতে পারত না, এবং ডিপ রিসার্চ ওয়েবসাইটের সাথে যোগাযোগ করে ফলাফল পরিমার্জন করতে বা ব্যবহারকারীর প্রমাণীকরণের প্রয়োজন এমন সামগ্রী অ্যাক্সেস করতে পারত না. আসলে, আমরা দেখেছি অনেক কোয়েরি যা ব্যবহারকারীরা Operator দিয়ে করার চেষ্টা করেছিলেন, তা আসলে ডিপ রিসার্চের জন্য বেশি উপযুক্ত ছিল—তাই আমরা দুটোর সেরা দিক একসঙ্গে এনেছি.
ChatGPT‑এ এই কমপ্লিমেন্টারি স্ট্রেংথগুলো একত্রিত করে এবং অতিরিক্ত নতুন টুলস প্রবর্তন করে, আমরা একটি মডেলের মধ্যে একেবারে নতুন ক্ষমতা উন্মোচন করেছি. এটি এখন সক্রিয়ভাবে ওয়েবসাইটে এনগেজ করতে পারে—ক্লিক করা, ফিল্টার করা এবং আরও সুনির্দিষ্ট ও দক্ষ ফলাফল সংগ্রহ করতে. আপনি স্বাভাবিকভাবেই একটি সাধারণ কথোপকথন থেকে সরাসরি একই চ্যাটের মধ্যে পদক্ষেপের অনুরোধ করতে পারেন.
আমরা ChatGPT এজেন্টকে সরঞ্জামগুলির একটি স্যুট দিয়ে সজ্জিত করেছি: একটি ভিজ্যুয়াল ব্রাউজার যা গ্রাফিক্যাল-ইউজার ইন্টারফেসের মাধ্যমে ওয়েবের সাথে ইন্টারঅ্যাক্ট করে, সহজ যুক্তি-ভিত্তিক ওয়েব অনুসন্ধানের জন্য একটি পাঠ্য-ভিত্তিক ব্রাউজার, একটি টার্মিনাল এবং সরাসরি API অ্যাক্সেস. এজেন্টটি ChatGPT সংযোগকারী(একটি নতুন উইন্ডোতে খোলে) ব্যবহার করতে পারে, যা আপনাকে জিমেইল এবং গিটহাবের মতো অ্যাপগুলি সংযোগ করতে দেয় যাতে ChatGPT আপনার নির্দেশগুলির সাথে প্রাসঙ্গিক তথ্য খুঁজে পেতে পারে এবং সেগুলি তার প্রতিক্রিয়াগুলিতে ব্যবহার করতে পারে. আপনি ব্রাউজার টেকওভার করে যেকোনো ওয়েবসাইটে লগ ইনও করতে পারেন, যাতে এটি রিসার্চ এবং টাস্ক এক্সিকিউশনে আরও ডিপার এবং ব্রডার যেতে পারে. ChatGPT‑কে ওয়েব তথ্য অ্যাক্সেস এবং ইন্টারঅ্যাক্ট করার জন্য এই ভিন্ন ভিন্ন উপায়গুলো দেওয়া মানে হলো এটি সবচেয়ে দক্ষতার সঙ্গে কাজ সম্পাদনের জন্য সর্বোত্তম পথ বেছে নিতে পারে. উদাহরণস্বরূপ, এটি একটি এপিআইয়ের মাধ্যমে আপনার ক্যালেন্ডার সম্পর্কে তথ্য সংগ্রহ করতে পারে, পাঠ্য-ভিত্তিক ব্রাউজার ব্যবহার করে বৃহৎ পরিমাণের পাঠ্যের উপর দক্ষতার সাথে যুক্তিবিচার করতে পারে, এবং প্রাথমিকভাবে মানুষের জন্য ডিজাইন করা ওয়েবসাইটগুলির সাথে দৃশ্যমানভাবে ইন্টারঅ্যাক্ট করার ক্ষমতাও রয়েছে.
এই সব কিছুই এটি করে নিজের ভার্চুয়াল কম্পিউটার ব্যবহার করে, যা কাজের জন্য প্রয়োজনীয় প্রসঙ্গ সংরক্ষণ করে, এমনকি যখন একাধিক টুল ব্যবহার করা হয়—মডেলটি টেক্সট ব্রাউজার বা ভিজ্যুয়াল ব্রাউজার ব্যবহার করে একটি পেজ খুলতে পারে, ওয়েব থেকে একটি ফাইল ডাউনলোড করতে পারে, টার্মিনালে একটি কমান্ড চালিয়ে সেটি ম্যানিপুলেট করতে পারে, এবং তারপর আউটপুট আবার ভিজ্যুয়াল ব্রাউজারে দেখতে পারে. মডেল তার অ্যাপ্রোচ অ্যাডাপ্ট করে টাস্ক স্পিড, অ্যাকিউরেসি আর এফিশিয়েন্সির সঙ্গে সম্পন্ন করতে.
ChatGPT এজেন্ট ডিজাইন করা হয়েছে ইটারেটিভ, কলাবরেটিভ ওয়ার্কফ্লোর জন্য—যা আগের মডেলের তুলনায় অনেক বেশি ইন্টারঅ্যাকটিভ আর ফ্লেক্সিবল. ChatGPT যখন কাজ করে, তখন আপনি যেকোনো সময় ইন্টারাপ্ট করতে পারেন আপনার নির্দেশনা স্পষ্ট করতে, সেটিকে কাঙ্ক্ষিত ফলাফলের দিকে পরিচালিত করতে, অথবা পুরোপুরি কাজটি পরিবর্তন করতে. এটি যেখানে থেমে গিয়েছিল সেখান থেকেই শুরু করবে, নতুন ইনফরমেশনসহ—কিন্তু আগের প্রগ্রেস না হারিয়ে. তেমনি, ChatGPT নিজেই প্রোঅ্যাকটিভলি আপনার কাছ থেকে অতিরিক্ত ডিটেইল চাইতে পারে, যাতে টাস্ক আপনার গোলের সঙ্গে অ্যালাইন্ড থাকে. যদি কোনো টাস্ক প্রত্যাশার চেয়ে বেশি সময় নেয় বা স্টাক মনে হয়, আপনি সেটি পজ করতে পারেন, প্রগ্রেস সামারি চাইতে পারেন, বা একেবারে স্টপ করে পারশিয়াল রেজাল্ট নিতে পারেন. যদি আপনার ফোনে ChatGPT অ্যাপ থাকে, এটি আপনার টাস্ক শেষ হলে আপনাকে একটি নোটিফিকেশন পাঠাবে.
এই ইউনিফাইড এজেন্টিক ক্যাপাবিলিটি ChatGPT‑র ইউজফুলনেসকে প্রতিদিনের আর প্রফেশনাল দুই কনটেক্সটেই উল্লেখযোগ্যভাবে বাড়িয়ে দেয়. কাজে, আপনি রিপেটিটিভ টাস্কগুলো অটোমেট করতে পারেন—যেমন স্ক্রিনশট বা ড্যাশবোর্ডকে এডিটেবল ভেক্টর এলিমেন্টসসহ প্রেজেন্টেশনে রূপান্তর করা, মিটিংস রিঅ্যারেঞ্জ করা, অফসাইট প্ল্যান ও বুক করা, এবং নতুন ফিনান্সিয়াল ডাটা দিয়ে স্প্রেডশিট আপডেট করা—একই ফরম্যাটিং বজায় রেখে. আপনার ব্যক্তিগত জীবনে, আপনি এটি ব্যবহার করে অনায়াসে ভ্রমণপথ পরিকল্পনা এবং বুক করতে, সম্পূর্ণ ডিনার পার্টি ডিজাইন এবং বুক করতে, অথবা বিশেষজ্ঞদের খুঁজে পেতে এবং অ্যাপয়েন্টমেন্ট নির্ধারণ করতে পারেন.
মডেলের উন্নত ক্ষমতাগুলি ওয়েব ব্রাউজিং এবং বাস্তব-বিশ্বের কাজ সম্পন্ন করার ক্ষমতা পরিমাপের মূল্যায়নে তার অত্যাধুনিক (SOTA) পারফরম্যান্সে প্রতিফলিত হয়.
Humanity’s Last Exam(একটি নতুন উইন্ডোতে খোলে)-এ, একটি মূল্যায়ন যা বিশেষজ্ঞ-স্তরের প্রশ্নগুলিতে বিস্তৃত বিষয় জুড়ে এআইয়ের পারফরম্যান্স পরিমাপ করে, ChatGPT এজেন্টের মডেলটি 41.6 এ একটি নতুন pass@1 SOTA স্কোর অর্জন করেছে. কারণ এজেন্ট ডায়নামিকালি প্ল্যান করে এবং নিজের টুলস চয়েস করে, এটি একই টাস্ক একাধিক রান জুড়ে বিভিন্নভাবে হ্যান্ডেল করতে পারে. যখন আমরা এটি স্কেল করেছি একটি সিম্পল প্যারালেল রোলআউট স্ট্র্যাটেজি দিয়ে—একসঙ্গে আটবার পর্যন্ত রান করে আর যার সেলফ-রিপোর্টেড কনফিডেন্স সবচেয়ে বেশি সেটিকে বেছে নিয়ে—এজেন্টের HLE স্কোর বেড়ে হয়েছে 44.4.
FrontierMath** হল সবচেয়ে কঠিন পরিচিত গণিতের মানদণ্ড, যেখানে নতুন, অপ্রকাশিত সমস্যা রয়েছে যা প্রায়শই বিশেষজ্ঞ গণিতবিদদের ঘণ্টার পর ঘণ্টা এমনকি দিনও সময় লাগে সমাধান করতে. টুল ব্যবহারের মাধ্যমে, যেমন কোড এক্সিকিউশনের জন্য টার্মিনালে প্রবেশের সুযোগ পেয়ে, ChatGPT এজেন্ট 27.4% সঠিকতা অর্জন করেছে, যা আগের দুই মডেলকে অনেক ব্যবধানে ছাড়িয়ে গেছে.
আমরা মডেলটিকে এমন বেঞ্চমার্ক ব্যবহার করে মূল্যায়ন করেছি যা জটিল বাস্তব জীবনের কাজের উপর ভিত্তি করে তৈরি. জটিল, অর্থনৈতিকভাবে মূল্যবান জ্ঞান-কাজের কাজগুলিতে মডেলের পারফরম্যান্স মূল্যায়নের জন্য ডিজাইন করা একটি অভ্যন্তরীণ বেঞ্চমার্কে, ChatGPT এজেন্টের আউটপুট প্রায় অর্ধেক ক্ষেত্রে মানুষের সাথে তুলনীয় বা তার চেয়ে ভালো, যখন উল্লেখযোগ্যভাবে o3 এবং o4-mini এর চেয়ে বেশি পারফরম্যান্স করে. মডেলের আউটপুটকে প্রতিটি ফিল্ডের টপ পারফর্মারদের তৈরি করা উচ্চমানের মানব বেসলাইনের সঙ্গে এক্সপার্টরা মূল্যায়ন করেন. বিভিন্ন পেশা এবং শিল্পের বিশেষজ্ঞদের কাছ থেকে প্রাপ্ত এই কাজগুলি বাস্তব-বিশ্বের পেশাদার কাজের প্রতিফলন করে - যেমন অন-ডিমান্ড জরুরি যত্ন প্রদানকারীদের প্রতিযোগিতামূলক বিশ্লেষণ প্রস্তুত করা, বিশদ অ্যামোর্টাইজেশন সময়সূচী তৈরি করা এবং একটি নতুন সবুজ হাইড্রোজেন সুবিধার জন্য কার্যকরী জলের কূপগুলি শনাক্ত করা.
ডেটা বিশ্লেষণ এবং মডেলিংয়ের বাস্তবসম্মত ডেটা সায়েন্স কাজগুলিতে এজেন্টদের মূল্যায়ন করার জন্য ডিজাইন করা ডিএসবেঞ্চে(একটি নতুন উইন্ডোতে খোলে), চ্যাটজিপিটি এজেন্ট উল্লেখযোগ্যভাবে একটি উল্লেখযোগ্য ব্যবধানে মানুষের পারফরম্যান্সকে ছাড়িয়ে যায়.
SpreadsheetBench-এ, যা বাস্তব-বিশ্বের পরিস্থিতি থেকে প্রাপ্ত স্প্রেডশিটগুলি সম্পাদনা করার ক্ষমতার উপর মডেলগুলিকে মূল্যায়ন করে, ChatGPT এজেন্ট বিদ্যমান মডেলগুলিকে একটি উল্লেখযোগ্য ব্যবধানে ছাড়িয়ে যায়. যখন সরাসরি স্প্রেডশিট সম্পাদনা করার ক্ষমতা দেওয়া হয়, তখন ChatGPT এজেন্ট 45.5% স্কোর করে, যা এক্সেলে কোপাইলটের 20.0% এর তুলনায় অনেক বেশি.
পদ্ধতি: স্প্রেডশীটবেঞ্চ লেখকরা স্প্রেডশিট মূল্যায়ন করতে মাইক্রোসফ্ট এক্সেল ব্যবহার করে একটি উইন্ডোজ পরিবেশ ব্যবহার করেছেন. আমরা একটি OSX এনভায়রনমেন্ট আর LibreOffice ব্যবহার করেছি, যা গ্রেডিং-এ ছোটখাটো পার্থক্য আনতে পারে. উদাহরণস্বরূপ, লেখকেরা GPT‑4o‑র জন্য 15.02% ওভারঅল হার্ড রেস্ট্রিকশন পেয়েছিলেন, আর আমরা পেয়েছি 13.38%. আমরা পুরো 912-প্রশ্নের বেঞ্চমার্ক ব্যবহার করেছি.
একটি অভ্যন্তরীণ বেঞ্চমার্কে—যা মডেলের প্রথম থেকে তৃতীয় বর্ষের ইনভেস্টমেন্ট ব্যাংকিং অ্যানালিস্ট মডেলিং টাস্কনেওয়ার সক্ষমতা মাপে—যেমন একটি Fortune 500 কোম্পানির জন্য সঠিক ফরম্যাটিং ও উদ্ধৃতি সহ তিন-স্টেটমেন্ট ফিনান্সিয়াল মডেল তৈরি করা, অথবা একটি টেক-প্রাইভেটের জন্য লেভারেজড বাইআউট মডেল তৈরি করা—ChatGPT এজেন্ট চালানো মডেল ডিপ রিসার্চ এবং o3‑এর তুলনায় উল্লেখযোগ্যভাবে ভালো ফলাফল দেখিয়েছে. প্রতিটি টাস্ক কারেক্টনেস আর ফর্মুলা ইউজ সম্পর্কিত শত শত ক্রাইটেরিয়ার উপর ভিত্তি করে গ্রেড করা হয়.
আমরা BrowseComp এ ChatGPT এজেন্টকেও মূল্যায়ন করেছি, এটি একটি বেঞ্চমার্ক যা আমরা এই বছরের শুরুতে প্রকাশ করেছি যা ব্রাউজিং এজেন্টদের ওয়েবে খুঁজে পাওয়া কঠিন তথ্য সনাক্ত করার ক্ষমতা পরিমাপ করে. মডেলটি 68.9% দিয়ে একটি নতুন SOTA স্থাপন করেছে, যা ডিপ রিসার্চের চেয়ে 17.4 শতাংশ পয়েন্ট বেশি.
অবশেষে, WebArena(একটি নতুন উইন্ডোতে খোলে), যা বাস্তব জীবনের ওয়েব কাজ সম্পন্ন করার ক্ষেত্রে ওয়েব-ব্রাউজিং এজেন্টদের পারফরম্যান্স মূল্যায়নের জন্য ডিজাইন করা একটি বেঞ্চমার্ক, সেখানে মডেলটি o3‑চালিত CUA (যা Operator চালিত করে) এর চেয়ে উন্নত হয়.
আপনি ChatGPT‑এর নতুন এজেন্টিক ক্যাপাবিলিটি সরাসরি কম্পোজারের টুলস ড্রপডাউন থেকে যেকোনো কথোপকথনের যেকোনো সময় ‘agent mode’ সিলেক্ট করে এক্টিভেট করতে পারেন. শুধু আপনার ডিজায়ার্ড টাস্ক বর্ণনা করুন—যা-ই হোক, গভীর গবেষণা করা, স্লাইডশো তৈরি করা, বা ব্যয় জমা দেওয়া. এটি যখন আপনার টাস্ক পারফর্ম করে, তখন একটি অন-স্ক্রিন ন্যারেশন আপনাকে এক্স্যাক্টলি দেখায় ChatGPT কী করছে. আপনি প্রয়োজনে যেকোনো সময় ইন্টারাপ্ট করে ব্রাউজারের কন্ট্রোল নিতে পারেন, যাতে টাস্ক সবসময় আপনার লক্ষ্য অনুযায়ী থাকে.
ChatGPT এজেন্ট আপনার কানেক্টরস অ্যাক্সেস করতে পারে, যা এটিকে আপনার ওয়ার্কফ্লোতে ইন্টিগ্রেট হতে এবং প্রাসঙ্গিক, কার্যকর তথ্য অ্যাক্সেস করতে সক্ষম করে. একবার প্রমাণীকৃত হলে, এই সংযোগকারীগুলি ChatGPT‑কে তথ্য দেখতে এবং দিনের জন্য আপনার ইনবক্সের সংক্ষিপ্তসার তৈরি করতে বা মিটিংয়ের জন্য উপলভ্য সময় স্লটগুলি খুঁজে পেতে সক্ষম করে. তবে, এই সাইটগুলিতে পদক্ষেপ নিতে, আপনাকে এখনও ব্রাউজারটি দখল করে লগ-ইন করতে অনুরোধ করা হবে.
এছাড়াও, আপনি সম্পন্ন হওয়া কাজগুলোকে স্বয়ংক্রিয়ভাবে পুনরাবৃত্তি করার জন্য নির্ধারণ করতে পারেন, যেমন প্রতি সোমবার সকালে একটি সাপ্তাহিক মেট্রিক্স রিপোর্ট তৈরি করা.
এই রিলিজের মাধ্যমে প্রথমবারের মতো ইউজাররা ChatGPT‑কে ওয়েবে অ্যাকশন নিতে বলতে পারছেন. এটি নতুন ঝুঁকি তৈরি করে, বিশেষ করে কারণ ChatGPT এজেন্ট সরাসরি আপনার ডাটার সঙ্গে কাজ করতে পারে—হোক সেটা কানেক্টরের মাধ্যমে অ্যাক্সেস করা তথ্য বা টেকওভার মোডের মাধ্যমে লগ ইন করা ওয়েবসাইট. আমরা Operator-এর রিসার্চ প্রিভিউ থেকে শক্তিশালী কন্ট্রোলগুলো আরও মজবুত করেছি এবং লাইভ ওয়েবে সংবেদনশীল তথ্য পরিচালনা, বিস্তৃত ব্যবহারকারী পৌঁছানো, এবং (সীমিত) টার্মিনাল নেটওয়ার্ক অ্যাক্সেসের মতো চ্যালেঞ্জগুলোর জন্য সুরক্ষা ব্যবস্থা যোগ করেছি. যদিও এই প্রশমনগুলি ঝুঁকি উল্লেখযোগ্যভাবে হ্রাস করে, ChatGPT এজেন্টের বর্ধিত সরঞ্জাম এবং বৃহত্তর ব্যবহারকারীর নাগাল এর সামগ্রিক ঝুঁকি প্রোফাইলকে উচ্চতর করে তোলে.
আমরা ChatGPT এজেন্টকে প্রম্পট ইনজেকশনের মাধ্যমে প্রতিকূল ম্যানিপুলেশন থেকে সুরক্ষিত করার উপর বিশেষ গুরুত্ব দিয়েছি, যা সাধারণত এজেন্টিক সিস্টেমগুলির জন্য ঝুঁকিপূর্ণ এবং সেই অনুযায়ী আরও বিস্তৃত প্রশমন ব্যবস্থা প্রস্তুত করেছি. প্রম্পট ইনজেকশন হলো থার্ড পার্টির প্রচেষ্টা, যা ম্যালিসিয়াস ইন্সট্রাকশনের মাধ্যমে এর বিহেভিয়ার ম্যানিপুলেট করার চেষ্টা করে, যা ChatGPT এজেন্ট ওয়েবে টাস্ক সম্পন্ন করার সময় সম্মুখীন হতে পারে. উদাহরণস্বরূপ, একটি ওয়েবপেজে লুকানো ম্যালিসিয়াস প্রম্পট—যেমন অদৃশ্য উপাদান বা মেটাডেটায়—এজেন্টকে বিভ্রান্ত করে অনিচ্ছাকৃত কাজ করতে বাধ্য করতে পারে, যেমন কানেক্টর থেকে ব্যক্তিগত তথ্য আক্রমণকারীর সঙ্গে শেয়ার করা বা এমন একটি সাইটে ক্ষতিকর কাজ করা যেখানে ব্যবহারকারী লগ ইন করেছেন. কারণ ChatGPT এজেন্ট সরাসরি পদক্ষেপ নিতে সক্ষম, সফল আক্রমণগুলি আরও বড় প্রভাব ফেলতে পারে এবং উচ্চতর ঝুঁকি সৃষ্টি করতে পারে.
আমরা এজেন্টকে প্রম্পট ইনজেকশন শনাক্ত ও প্রতিরোধ করার জন্য প্রশিক্ষণ ও পরীক্ষা করেছি, পাশাপাশি মনিটরিং ব্যবহার করে দ্রুত প্রম্পট ইনজেকশন আক্রমণ শনাক্ত ও প্রতিক্রিয়া জানাতে সক্ষম করেছি. কনসিকোয়েন্সিয়াল অ্যাকশনের আগে স্পষ্ট ইউজার কনফার্মেশন প্রয়োজনীয় করে আমরা এই আক্রমণ থেকে ক্ষতির ঝুঁকি আরও কমিয়ে ফেলি, এবং ইউজাররা প্রয়োজনে টাস্কে হস্তক্ষেপ করতে পারেন—টেকওভার করে বা পজ করে. ব্যবহারকারীদের এজেন্টকে কী তথ্য সরবরাহ করবেন তা সিদ্ধান্ত নেওয়ার সময় এই ট্রেডঅফগুলি বিবেচনা করা উচিত এবং এই ঝুঁকিগুলির সংস্পর্শ হ্রাস করার পদক্ষেপ নেওয়া উচিত, যেমন কোনও কাজের জন্য প্রয়োজনীয় না হলে সংযোগকারীগুলি অক্ষম করা.
আমরা মডেলের ভুল সংশোধনের জন্য পদক্ষেপও গ্রহণ করেছি, বিশেষত যেহেতু মডেল এখন বাস্তব বিশ্বকে প্রভাবিত করে এমন কাজ সম্পাদন করতে সক্ষম।
- সুস্পষ্ট ব্যবহারকারীর নিশ্চিতকরণ: ChatGPT কে ক্রয়ের মতো বাস্তব জগতের পরিণতির সাথে পদক্ষেপ নেওয়ার আগে স্পষ্টভাবে আপনার অনুমতি চাওয়ার জন্য প্রশিক্ষিত করা হয়েছে.
- সক্রিয় তত্ত্বাবধান (“ওয়াচ মোড”): কিছু গুরুত্বপূর্ণ কাজ, যেমন ইমেল পাঠানো, আপনার সক্রিয় নজরদারির প্রয়োজন.
- প্রোঅ্যাকটিভ ঝুঁকি প্রশমন: ChatGPT ব্যাংক স্থানান্তরের মতো উচ্চ-ঝুঁকিপূর্ণ কাজগুলি সক্রিয়ভাবে প্রত্যাখ্যান করার জন্য প্রশিক্ষিত.
অবশেষে, আমরা মডেলের অ্যাক্সেস থাকা ডেটা সীমাবদ্ধ করতে অতিরিক্ত নিয়ন্ত্রণ চালু করেছি:
- গোপনীয়তা নিয়ন্ত্রণ: ChatGPT‑এর সেটিংসে একক ক্লিকের মাধ্যমে, আপনি সমস্ত ব্রাউজিং ডেটা মুছুন এবং অবিলম্বে সমস্ত সক্রিয় ওয়েবসাইট সেশন থেকে লগ-আউট করতে পারেন. অন্যথায়, কুকিজ প্রতিটি ভিজিট করা ওয়েবসাইটের কুকি পলিসির উপর ভিত্তি করে থাকে, যা সাইটে রিপিট ভিজিটকে আরও এফিশিয়েন্ট করতে পারে.
- নিরাপদ ব্রাউজার অধিগ্রহণ মোড: আপনি যখন ChatGPT‑এর ব্রাউজার ("অধিগ্রহণ মোড") ব্যবহার করে ওয়েবের সাথে ইন্টারঅ্যাক্ট করেন, তখন আপনার ইনপুটগুলি ব্যক্তিগত থাকে. ChatGPT এই সেশনগুলোতে আপনার এন্টার করা কোনো ডাটা (যেমন পাসওয়ার্ড) কালেক্ট বা স্টোর করে না—কারণ মডেলের এর প্রয়োজন নেই, আর এটি কখনও না দেখাই নিরাপদ.
মডেলের বর্ধিত ক্ষমতার সাথে, আমরা আমাদের প্রস্তুতি কাঠামোর অধীনে ChatGPT এজেন্টকে উচ্চ জৈবিক এবং রাসায়নিক ক্ষমতা হিসেবে বিবেচনা করার সিদ্ধান্ত নিয়েছি এবং সংশ্লিষ্ট সুরক্ষাব্যবস্থা সক্রিয় করছি. যদিও আমাদের কাছে নিশ্চিত প্রমাণ নেই যে মডেলটি একটি নবিসকে গুরুতর জৈবিক ক্ষতি সৃষ্টি করতে অর্থপূর্ণভাবে সাহায্য করতে পারে—যা আমাদের High capability-এর থ্রেশহোল্ড—তবুও আমরা সতর্কতা অবলম্বন করছি এবং প্রয়োজনীয় সেফগার্ড এখন ইমপ্লিমেন্ট করছি. ফলস্বরূপ, এই মডেলটিতে জীববিজ্ঞানের জন্য উন্নত সুরক্ষা ব্যবস্থা সহ আমাদের সবচেয়ে ব্যাপক সুরক্ষা স্ট্যাক রয়েছে: ব্যাপক হুমকি মডেলিং, দ্বৈত-ব্যবহার প্রত্যাখ্যান প্রশিক্ষণ, সর্বদা সক্রিয় শ্রেণীবিন্যাসকারী এবং যুক্তি পর্যবেক্ষক, এবং স্পষ্ট প্রয়োগ পাইপলাইন.
ChatGPT এজেন্টকে সুরক্ষিত করার আমাদের কাজের পাশাপাশি, আমরা জানি যে লেয়ার্ড বায়োসেফটি সবচেয়ে ভালো কাজ করে যখন সেফগার্ড এক ল্যাবের বাইরে প্রসারিত হয়, তাই আমরা ডিফেন্স শক্তিশালী করতে পুরো ইকোসিস্টেম জুড়ে সহযোগিতা করি. প্রথম দিন থেকেই আমরা বাইরের বায়োসিকিউরিটি এক্সপার্ট, সেফটি ইনস্টিটিউট আর একাডেমিক রিসার্চারের সঙ্গে কাজ করেছি আমাদের থ্রেট মডেল, অ্যাসেসমেন্ট আর পলিসি গঠনের জন্য. বায়োলজি-ট্রেইনড রিভিউয়াররা আমাদের ইভ্যালুয়েশন ডাটা ভ্যালিডেট করেছেন, আর ডোমেইন-এক্সপার্ট রেড টিমাররা রিয়েলিস্টিক সিনারিওতে সেফগার্ডগুলো স্ট্রেস-টেস্ট করেছেন. এই মাসের শুরুর দিকে আমরা সরকার, একাডেমিয়া, ন্যাশনাল ল্যাব আর NGO-র এক্সপার্টদের নিয়ে একটি বায়োডিফেন্স ওয়ার্কশপ করেছি—AI-চালিত বায়োডিফেন্স রিসার্চকে এগিয়ে নেওয়া আর কলাবোরেশন ত্বরান্বিত করার জন্য. আমরা উদীয়মান ঝুঁকির থেকে এগিয়ে থাকতে বিশ্বব্যাপী অংশীদারিত্ব অব্যাহত রাখব.
সিস্টেম কার্ডে ইউনিফাইড এজেন্টিক মডেলের জন্য আমাদের শক্তিশালী সুরক্ষা পদ্ধতির সম্পর্কে আরও পড়ুন. আমরা একটি বাগ বাউন্টি প্রোগ্রাম ও চালু করছি যাতে আমরা বাস্তব-বিশ্বের ঝুঁকিগুলি খুঁজে পেতে এবং প্রতিকার করতে পারি.
ChatGPT এজেন্ট আজ থেকে Pro, Plus এবং Team-এ রোল আউট শুরু করছে; Pro ব্যবহারকারীরা আজকের মধ্যেই অ্যাক্সেস পাবেন, আর Plus ও Team ব্যবহারকারীরা আগামী কয়েক দিনের মধ্যে অ্যাক্সেস পাবেন. এন্টারপ্রাইজ এবং এডুকেশন ব্যবহারকারীরা আসন্ন সপ্তাহগুলোতে অ্যাক্সেস পাবেন. Pro ইউজারদের প্রতি মাসে 400 মেসেজ থাকে, আর অন্যান্য পেইড ইউজাররা মাসে 40 মেসেজ পান—অতিরিক্ত ব্যবহার ফ্লেক্সিবল ক্রেডিট-বেসড অপশন দিয়ে পাওয়া যায়.
আমরা এখনও ইউরোপীয় অর্থনৈতিক অঞ্চল এবং সুইজারল্যান্ডের জন্য প্রবেশাধিকার চালু করার জন্য কাজ করছি.
Operator রিসার্চ প্রিভিউ সাইট আরও কয়েক সপ্তাহ কার্যকর থাকবে, এরপর সেটি সানসেট করা হবে. ডিপ রিসার্চ ChatGPT এজেন্টের ক্যাপাবিলিটিগুলোর একটি অংশ. আপনি যদি অরিজিনাল ডিপ রিসার্চ ফিচার পছন্দ করেন—যা রান করতে বেশি সময় নিতে পারে কিন্তু ডিফল্টভাবে আরও বিস্তারিত, গভীর উত্তর প্রদান করে—তাহলে আপনি এখনও মেসেজ কম্পোজারের ড্রপডাউন থেকে “deep research” নির্বাচন করে সেটিতে প্রবেশ করতে পারবেন.
ChatGPT এজেন্ট এখনও এর আর্লি স্টেজে আছে. এটি বিভিন্ন জটিল কাজ সম্পাদন করতে সক্ষম, তবে এটি এখনও ভুল করতে পারে.
আমরা স্লাইডশো তৈরি করার ক্ষমতায় উল্লেখযোগ্য সম্ভাবনা দেখছি, তবে এই ফাংশনটি বর্তমানে বিটা পর্যায়ে রয়েছে. এই মুহূর্তে আউটপুট কখনও কখনও ফরম্যাটিং আর পালিশে রুডিমেন্টারি মনে হতে পারে—বিশেষ করে যখন কোনো এক্সিস্টিং ডকুমেন্ট ছাড়া শুরু হয়. আমরা মডেলের প্রাথমিক সক্ষমতাগুলোকে এমন আর্টিফ্যাক্ট তৈরি করার দিকে কেন্দ্রীভূত করেছি যা তথ্যকে এমন একটি প্রবাহ এবং ফরম্যাটে সংগঠিত করে যা উপস্থাপনার জন্য উপযুক্ত, যেখানে টেক্সট, চার্ট, ছবি এবং আকৃতির মতো উপাদান থাকে যা এক্সপোর্টের পর স্বাভাবিকভাবেই এবং সহজেই সম্পাদনাযোগ্য, এবং যা কাঠামো ও নমনীয়তার জন্য সর্বোত্তমভাবে ডিজাইন করা হয়েছে. বর্তমানে, ভিউয়ারের স্লাইড আর এক্সপোর্ট করা পাওয়ারপয়েন্টের মধ্যে মাঝে মাঝে ডিসক্রেপ্যান্সি দেখা যায়, যেটি কমানোর জন্য আমরা কাজ করছি. এছাড়াও, যদিও আপনি বর্তমানে একটি এক্সিস্টিং স্প্রেডশিট আপলোড করে ChatGPT দিয়ে এডিট করাতে বা টেমপ্লেট হিসেবে ব্যবহার করতে পারেন, এই ক্যাপাবিলিটি এখনও স্লাইডশোর জন্য অ্যাভেইলেবল নয়. আমরা ইতোমধ্যেই ChatGPT‑এর স্লাইডশো তৈরির পরবর্তী ইটারেশন ট্রেনিং করছি, যাতে আরও পালিশড, সোফিস্টিকেটেড আউটপুট তৈরি হয়, বিস্তৃত ক্ষমতা এবং উন্নত ফরম্যাটিং সহ.
সামগ্রিকভাবে, আমরা আশা করি সময়ের সঙ্গে সঙ্গে ChatGPT এজেন্টের কার্যকারিতা, গভীরতা এবং বহুমুখীতায় ধারাবাহিক উন্নতি হবে, যার মধ্যে আরও সীমলেস ইন্টারঅ্যাকশন থাকবে, কারণ আমরা ব্যবহারকারীর থেকে প্রয়োজনীয় তদারকির পরিমাণ সামঞ্জস্য করে এটিকে আরও কার্যকর করে তুলছি, তবে এটি নিরাপদভাবে ব্যবহারের নিশ্চয়তা দিয়ে.
SpreadsheetBench | ||||
মডেল | ইভ্যালুয়েশন এনভায়রনমেন্ট | নরম সীমাবদ্ধতা (%): সেল-লেভেল | সফট রেস্ট্রিকশন (%): শিট-লেভেল | নরম সীমাবদ্ধতা (%): সামগ্রিকভাবে |
GPT‑4o | উইন্ডোজ, এক্সেল | 15.03 | 23.65 | 18.35 |
কপাইলট ইন এক্সেল | উইন্ডোজ, এক্সেল | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, লাইব্রেঅফিস | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, লাইব্রেঅফিস | 22.40 | 24.60 | 23.25 |
ChatGPT এজেন্টড | OSX, লাইব্রেঅফিস | 38.27 | 30.48 | 35.27 |
ChatGPT এজেন্ট .xlsx সহ | OSX, লাইব্রেঅফিস | 50.56 | 37.51 | 45.54 |
মানব | 75.56 | 65.00 | 71.33 |
লেখক
ফুটনোটস
* ব্রাউজিং সক্রিয় করার সময়, মডেলটি কখনও কখনও অনলাইনে সঠিক উত্তর খুঁজে পেতে পারে, যেমন একটি ডেটাসেট থেকে নমুনা সমস্যার ব্লগ পোস্ট পড়ে. আমরা দুটি কৌশল ব্যবহার করে ব্রাউজ করার সময় মডেল প্রতারণার উদ্বেগ কমাতে পারি:
1. ব্লক করা ডোমেইনগুলি যেগুলি থেকে আমরা অতীতে মডেলটিকে প্রতারণা করতে দেখেছি.
2. প্রতিটি প্রচেষ্টায় সমস্ত টুল আউটপুট টোকেন পরীক্ষা করার জন্য একটি অতিরিক্ত মডেল মনিটর হিসাবে ব্যবহার করা হয়েছে সন্দেহজনক আচরণ শনাক্ত করতে. সন্দেহজনক আচরণকে সংজ্ঞায়িত করা হয়েছে "একটি পৃষ্ঠা, ফাইল বা স্নিপেট যার প্রধান উদ্দেশ্য এই নির্দিষ্ট প্রশ্নের সঠিক উত্তর প্রদান করা - যেমন, একটি অফিসিয়াল গ্রেডিং কী, ফাঁস হওয়া "সমাধান" সারমর্ম, বা সমাপ্ত উত্তরটি উদ্ধৃত করে আলোচনা. সৌম্য আচরণকে সংজ্ঞায়িত করা হয়েছে "যে কোনও কর্তৃত্বশীল উৎস যা একজন পরিশ্রমী ব্যক্তি পরামর্শ করতে পারে (ডকুমেন্টেশন, ম্যানুয়াল, পণ্ডিত কাগজপত্র, নামী নিবন্ধ) এমনকি যদি ঘটনাক্রমে সঠিক উত্তর থাকে. যে কোনও প্রচেষ্টা যেখানে মনিটর রোলআউটকে সন্দেহজনক বলে মনে করে তা ভুল হিসাবে গণ্য করা হয়. এই চেক দ্বারা ব্যর্থ বেশিরভাগ নমুনা ছিল এমন সমস্যা যার সঠিক সমাধান একাধিক ইন্টারনেট উৎসে পাওয়া যায় যা HLE-র সাথে সম্পর্কিত নয়.
**টিয়ার 1-3 ডেটাসেটের 290টি ব্যক্তিগত প্রশ্নের মধ্যে 237টিতে OpenAI-এর একচেটিয়া প্রবেশাধিকার রয়েছে. ফ্রন্টিয়ারম্যাথ টিয়ার 4 প্রশ্নগুলো এই ইভ্যালুতে ইনক্লুড করা হয়নি. প্রতিটি প্রশ্নের 16টি প্রচেষ্টার অ্যাভারেজ হিসেবে রেজাল্ট ইভ্যালুয়েট করা হয়েছে. ChatGPT এজেন্টের রেজাল্ট OpenAI দ্বারা এলিসিট করা হয়েছে, Epoch AI দ্বারা গ্রেড করা হয়েছে, ব্রাউজার আর টার্মিনাল অ্যাক্সেস সহ, এবং প্রতিটি আন্সারে 128K টোকেন লিমিট রয়েছে. OpenAI o4-mini এবং o3 মূল্যায়ন Epoch AI দ্বারা আহরণ এবং গ্রেড করা হয়, কোনও ব্রাউজার এবং টার্মিনাল অ্যাক্সেস ছাড়াই, ফাংশন কলিংয়ের মাধ্যমে পাইথন স্ক্রিপ্ট ব্যবহার করে এবং প্রতি উত্তরে 100K token এর সীমা থাকে.
Oracle@64 গ্রাউন্ড ট্রুথ ব্যবহার করে নির্বাচিত 64টি নমুনা রান জুড়ে অর্জিত সেরা স্কোরকে বোঝায় (অর্থাৎ, আমরা প্রকৃত গ্রেডেড পারফরম্যান্সের ভিত্তিতে প্রতিটি কাজের জন্য সর্বোচ্চ স্কোরিং প্রচেষ্টা বেছে নিই). আমরা সমস্ত কাজ জুড়ে এই প্রতি কাজের সেরা স্কোরগুলির গড় রিপোর্ট করি. এই মেট্রিকটি মডেলের সর্বোচ্চ সম্ভাবনা এবং কাজের পারফরম্যান্সের বৈচিত্র্যকে তুলে ধরে—মডেলটি সফল হলে কতটা সক্ষম হতে পারে তা দেখায় এবং আরও প্রশিক্ষণের মাধ্যমে ধারাবাহিকতা উন্নত করার জন্য সুযোগ নির্দেশ করে. সাধারণ "এন এর সেরা" মেট্রিক্সের বিপরীতে, যা মডেলের আত্মবিশ্বাসের ভিত্তিতে নির্বাচন করে, oracle@64 নির্বাচনের জন্য গ্রাউন্ড ট্রুথ ব্যবহার করে এবং বাইনারি পাস/ব্যর্থতার পরিবর্তে অবিচ্ছিন্ন 0-1 স্কেলে গ্রেড করা কাজগুলিতে প্রযোজ্য.


