۱۷ جولائی، ۲۰۲۵

چیٹ جی پی ٹی ایجنٹ کا تعارف کرانا: تحقیق اور کاروائی کو برج کرنا

ChatGPT اب سوچتا اور عمل کرتا ہے، اور آپ کے کام مکمل کرنے کے لیے اپنی کمپیوٹر صلاحیتوں کا استعمال کرتے ہوئے ایجنٹک اسکلز کے ٹول باکس میں سے خود ہی مناسب صلاحیت کا انتخاب کرتا ہے۔

ChatGPT پر آزمائیں

لوڈ ہو رہا ہے…

ChatGPT اب آپ کے لیے کام انجام دے سکتا ہے، اپنے ہی کمپیوٹر کا استعمال کرتے ہوئے—اور پیچیدہ کاموں کو ابتدا سے اختتام تک نمٹا سکتا ہے۔

آپ اب ChatGPT سے ایسے کام بھی کروا سکتے ہیں جیسے کہ:"میرا کیلینڈر دیکھ کر آنے والی کلائنٹ میٹنگز کا خلاصہ حالیہ خبروں کی بنیاد پر بتاؤ"،"چار افراد کے لیے جاپانی ناشتہ تیار کرنے کی منصوبہ بندی کرو اور اس کے اجزاء خریدو"،"تین حریف کمپنیوں کا تجزیہ کر کے ایک سلائیڈ ڈیک تیار کرو"۔ ChatGPT ذہانت کے ساتھ ویب سائٹس پر نیویگیٹ کرے گا، نتائج کو فلٹر کرے گا، ضرورت پڑنے پر آپ کو محفوظ طریقے سے لاگ اِن کرائے گا، کوڈ چلائے گا، تجزیہ کرے گا، اور حتیٰ کہ ایڈیٹ ایبل سلائیڈ شوز اور اسپریڈ شیٹس بھی فراہم کرے گا جن میں اس کے تجزیے کا خلاصہ شامل ہوگا۔

اس نئی صلاحیت کا بنیادی مرکز ایک متحدہ ایجنٹک سسٹم ہے۔ یہ پچھلی پیش رفتوں کی تین طاقتوں کو یکجا کرتا ہے:آپریٹر)⁠ کی ویب سائٹس کے ساتھ تعامل کرنے کی قابلیت، (ڈیپ ریسرچ)⁠ کی معلومات کو مربوط اور یکجا کرنے کی مہارت،اور ChatGPT (چیٹ جی پی ٹی) کی ذہانت اور مکالماتی روانی۔

ChatGPT اپنے ہی ورچوئل کمپیوٹر کا استعمال کرتے ہوئے یہ تمام کام انجام دیتا ہے، اور آپ کی ہدایات کی بنیاد پر پیچیدہ ورک فلو کو ابتدا سے انجام تک سنبھالتے ہوئے، استدلال اور عمل کے درمیان باآسانی منتقل ہوتا رہتا ہے۔

سب سے اہم بات یہ ہے کہ اختیار ہمیشہ آپ کے ہاتھ میں رہتا ہے۔ ChatGPT کسی بھی اہم نوعیت کا قدم اٹھانے سے پہلے آپ سے اجازت طلب کرتا ہے، اور آپ کسی بھی وقت باآسانی کام روک سکتے ہیں، براؤزر کا کنٹرول سنبھال سکتے ہیں، یا جاری ٹاسک کو ختم کر سکتے ہیں۔

آج سے، Pro (پرو)، Plus (پلس)، اور Team (ٹیم) صارفین کسی بھی گفتگو کے دوران کسی بھی وقت کمپوزر میں موجود Tools (ٹولز) ڈراپ ڈاؤن سے ‘Agent Mode’ (ایجنٹ موڈ) منتخب کرکے براہِ راست ChatGPT کی نئی Agentic (ایجنٹک) صلاحیتیں فعال کر سکتے ہیں۔

اگرچہ ChatGPT Agent پہلے ہی پیچیدہ کاموں کو سنبھالنے کے لیے ایک طاقتور ٹول ہے، لیکن آج کی ریلیز محض شروعات ہے۔ ہم باقاعدگی سے نمایاں بہتریاں شامل کرتے رہیں گے، تاکہ وقت کے ساتھ اس کی صلاحیت اور افادیت مزید بڑھتی رہے۔

Operator اور Deep Research کا فطری ارتقاء

ماضی میں، Operator (اوپریٹر) اور Deep Research (ڈیپ ریسرچ) دونوں اپنی اپنی منفرد طاقتیں لائے تھے:— Operator ویب پر اسکرول، کلک اور ٹائپ کر سکتا تھا،— جبکہ Deep Research معلومات کے تجزیے اور خلاصہ سازی میں بہترین تھا۔ لیکن دونوں مختلف نوعیت کے حالات میں بہتر کام کرتے تھے:Operator تفصیلی تجزیے یا جامع رپورٹس نہیں لکھ سکتا تھا،اور Deep Research ویب سائٹس سے براہِ راست تعامل کرکے نتائج کو بہتر نہیں بنا سکتا تھا یا ایسی مواد تک رسائی نہیں رکھتا تھا جس کے لیے صارف لاگ اِن ضروری ہو۔ درحقیقت، ہمیں معلوم ہوا کہ صارفین Operator کے ذریعے جو بہت سے سوالات کرتے تھے، وہ دراصل Deep Research کے لیے زیادہ موزوں تھے—لہٰذا ہم نے دونوں کی بہترین صلاحیتوں کو یکجا کر دیا۔

ان تکمیلی طاقتوں کو ChatGPT میں ضم کرکے اور اضافی ٹولز متعارف کروا کر، ہم نے ایک ہی ماڈل کے اندر بالکل نئی صلاحیتیں فعال کر دی ہیں۔ اب یہ ویب سائٹس کو فعال طور پر مشغول کر سکتا ہے—کلک کرنا، فلٹرکریں، اور زیادہ عین مطابق، مؤثر نتائج جمع کرنا۔ آپ ایک سادہ گفتگو سے باآسانی ایسے مراحل تک منتقل ہو سکتے ہیں جہاں آپ اسی چیٹ کے اندر براہِ راست کارروائیاں کروائیں۔

ایک ایسا ایجنٹ جو آپ کے لیے اور آپ کے ساتھ کام کرے

ہم نے ChatGPT Agent کو ٹولز کے ایک مکمل پیکج سے لیس کیا ہے:— ایک Visual Browser (ویژول براؤزر) جو گرافیکل یوزر انٹرفیس کے ذریعے ویب کے ساتھ تعامل کرتا ہے،— ایک Text-Based Browser (ٹیکسٹ بیسڈ براؤزر) جو سادہ، استدلال پر مبنی ویب سوالات کے لیے ہے،— ایک Terminal (ٹرمینل)،— اور Direct API Access (ڈائریکٹ API ایکسس)۔ ایجنٹ ChatGPT جڑیں⁠(نئی ونڈو میں کھلتا ہے) کا بھی فائدہ اٹھا سکتا ہے، جو آپ کو جی میل اور گٹ ہب جیسی ایپس کو جڑنے کی اجازت دیتا ہے تاکہ ChatGPT آپ کے بروقت سے متعلق معلومات تلاش کرسکے اور انہیں اپنے جوابات میں استعمال کرسکے۔ آپ براؤزر کو کنٹرول کر کے کسی بھی ویب سائٹ پر لاگ ان کر سکتے ہیں، جس سے یہ اپنی تحقیق اور ٹاسک کی انجام دہی میں مزید گہرائی اور وسعت حاصل کر سکتا ہے۔ چیٹ جی پی ٹی کو ویب معلومات تک رسائی اور ان سے تعامل کے لئے مختلف راستے فراہم کرنے کا مطلب ہے کہ یہ ٹاسکس کو انتہائی مؤثر طریقے سے انجام دینے کے لئے بہترین راستہ منتخب کر سکتا ہے۔ مثال کے طور پر، یہ ایک API کے ذریعے آپ کے کیلنڈر کے بارے میں معلومات جمع کر سکتا ہے، متن پر مبنی براؤزر کا استعمال کرتے ہوئے بڑی مقدار میں متن پر مؤثر طریقے سے تجزیہ کر سکتا ہے، جبکہ بنیادی طور پر انسانوں کے لئے ڈیزائن کردہ ویب سائٹوں کے ساتھ بصری طور پر تعامل کرنے کی صلاحیت بھی رکھتا ہے۔

یہ تمام کام ماڈل کے اپنے ورچوئل کمپیوٹر کے ذریعے انجام پاتا ہے، جو اس کام کے لیے درکار کانٹیکسٹ کو برقرار رکھتا ہے—چاہے متعدد ٹولز ہی کیوں نہ استعمال کیے جائیں۔ ماڈل ضرورت کے مطابق ٹیکسٹ براؤزر یا ویژول براؤزر کے ذریعے کوئی صفحہ کھول سکتا ہے، ویب سے کوئی فائل ڈاؤن لوڈ کرسکتا ہے، ٹرمینل میں کمانڈ چلا کر اس فائل میں تبدیلی کرسکتا ہے، اور پھر اس کا نتیجہ دوبارہ ویژول براؤزر میں دیکھ سکتا ہے۔ نمونہ رفتار، درستگی اور کارکردگی کے ساتھ ٹاسک کو انجام دینے کے لئے اپنا نقطہ نظر ڈھالتا ہے۔

ChatGPT ایجنٹ کو تکراری، تعاون پر مبنی ورک فلو کے لیے ڈیزائن کیا گیا ہے، جو پچھلے ماڈلز کے مقابلے میں کہیں زیادہ انٹرایکٹو اور لچکدار ہے۔ چونکہ ChatGPT کام کرتا ہے، آپ اپنی ہدایات کو واضح کرنے، مطلوبہ نتائج کی طرف چلانے، یا ٹاسک کو مکمل طور پر تبدیل کرنے کے لئے کسی بھی مقام پر مداخلت کرسکتے ہیں۔ اب نئی معلومات کے ساتھ، لیکن پچھلی پیشرفت کو کھونے کے بغیر، یہ جہاں چھوڑا ہوا جہاں چھوڑا ہوا ہے۔ اسی طرح، ChatGPT خود آپ سے اضافی تفصیلات طلب کر سکتا ہے جب ضرورت ہو تاکہ یہ یقینی بنایا جا سکے کہ ٹاسک آپ کے مقاصد کے مطابق رہے۔ اگر کوئی ٹاسک توقع سے زیادہ وقت لیتا ہے یا رکاوٹ محسوس ہوتی ہے، تو آپ اسے روک سکتے ہیں، اس سے پیشرفت کا خلاصہ طلب کر سکتے ہیں، یا اسے مکمل طور پر روک کر جزوی نتائج حاصل کر سکتے ہیں۔ اگر آپ کے فون پر ChatGPT ایپ ہے، تو یہ آپ کا ٹاسک مکمل ہونے پر آپ کو ایک نوٹیفکیشن بھیجے گی۔

حقیقی دنیا کی افادیت کو بڑھانا

یہ متحد ایجنٹک صلاحیتیں ChatGPT کی افادیت کو روزمرہ اور پیشہ ورانہ دونوں سیاق و سباق میں نمایاں طور پر بڑھاتی ہیں۔ کام پر، آپ بار بار ہونے والے ٹاسک کو خودکار بنا سکتے ہیں، جیسے اسکرین شاٹس یا ڈیش بورڈز کو ایڈیٹ ایبل ویکٹر عناصر پر مشتمل پیشکشیں میں تبدیل کرنا، میٹنگز کو دوبارہ ترتیب دینا، آف سائٹس کی منصوبہ بندی اور بکنگ کرنا، اور نئی مالیاتی ڈیٹا کے ساتھ سپریڈ شیٹس کو اپ ڈیٹ کرنا جبکہ اسی فارمیٹنگ کو برقرار رکھنا۔ آپ اپنی ذاتی زندگی میں اسے آسانی سے سفری منصوبے بنانے اور بک کرنے، مکمل ڈنر پارٹیوں کو ڈیزائن اور بک کرنے، یا ماہرین کو تلاش کرنے اور ملاقاتوں کا شیڈول بنانے کے لئے استعمال کر سکتے ہیں۔

ماڈل کی اعلی صلاحیتیں ویب براؤزنگ اور حقیقی دنیا کے ٹاسک کی تکمیل کی صلاحیتوں کی پیمائش کرنے والی تشخیصات میں اس کی جدید ترین (SOTA) کارکردگی میں ظاہر ہوتی ہیں۔

انسانیت کے آخری امتحان⁠(نئی ونڈو میں کھلتا ہے)* پر، جو ایک تشخیص ہے جو ماہر سطح کے سوالات پر مبنی مختلف مضامین میں AI کی کارکردگی کی پیمائش کرتی ہے، ChatGPT ایجنٹ کو چلانے والے ماڈل 41.6 پر ایک نیا پاس@1 SOTA اسکور کرتا ہے۔ کیونکہ ایجنٹ متحرک طور پر منصوبہ بناتا ہے اور اپنے اوزار خود منتخب کرتا ہے، اس لیے یہ مختلف رنوں میں ایک ہی ٹاسک کو مختلف طریقوں سے انجام دے سکتا ہے۔ جب ہم نے اسے ایک سادہ متوازی رول آؤٹ حکمت عملی کے ساتھ اسکیل کیا—ایک وقت میں آٹھ کوششیں چلائیں اور سب سے زیادہ خود رپورٹ شدہ اعتماد کے ساتھ ایک کو منتخب کریں—تو ایجنٹ کا HLE اسکور 44.4 تک بڑھ جاتا ہے۔

فرنٹیرمیتھ** ریاضی کا سب سے مشکل معروف معیار ہے، جس میں نئے، غیر شائع شدہ مسائل شامل ہیں جن کو حل کرنے میں اکثر ماہر ریاضی دانوں کو گھنٹوں یا یہاں تک کہ دن لگ جاتے ہیں۔ ٹول کے استعمال کے ساتھ، جیسے کوڈ پر عمل درآمد کے لئے ٹرمینل تک رسائی، ChatGPT ایجنٹ 27.4٪ درستگی حاصل کرتا ہے، جو پچھلے دونوں نمونوں کو بڑے فرق سے پیچھے چھوڑ دیتا ہے۔

ہم نے پیچیدہ حقیقی دنیا کے ٹاسکس کے مطابق تیار کردہ بینچ مارک کا استعمال کرتے ہوئے ماڈل کا بھی جائزہ لیا۔ اندرونی بینچ مارک پر، جو پیچیدہ، معاشی طور پر قیمتی علم کے ٹاسک پر نمونہ کی کارکردگی کا اندازہ کرنے کے لئے ڈیزائن کیا گیا ہے، ChatGPT ایجنٹ کا آؤٹ پٹ کام کی تکمیل کے اوقات میں تقریبا نصف معاملات میں انسانوں کے برابر یا بہتر ہے، جبکہ o3 اور o4-mini سے نمایاں طور پر بہتر کارکردگی کا مظاہرہ کرتا ہے۔ نمونہ کے آؤٹ پٹ کا فیصلہ ماہرین کے ذریعہ ہر شعبے میں اعلی معیار کے انسانی بیسلائنز کے خلاف کیا جاتا ہے۔ یہ ٹاسک، مختلف پیشوں اور صنعتوں کے ماہرین سے حاصل کیے گئے ہیں، حقیقی دنیا کے پیشہ ورانہ کام کی عکاسی کرتے ہیں، جیسے کہ طلب پر فوری نگہداشت فراہم کرنے والوں کا مسابقتی تجزیہ تیار کرنا، تفصیلی امورٹائزیشن شیڈول بنانا، اور نئی گرین ہائیڈروجن سہولت کے لئے قابل عمل پانی کے کنویں کی نشاندہی کرنا۔

پر DSBench⁠(نئی ونڈو میں کھلتا ہے)،جو ڈیٹا سائنس کے حقیقت سے قریب تر کاموں، جیسے ڈیٹا تجزیہ اور ماڈلنگ، پر ایجنٹس کی کارکردگی جانچنے کے لیے تیار کیا گیا ہے—چیٹ جی پی ٹی ایجنٹ نے انسانی کارکردگی کو نمایاں فرق سے پیچھے چھوڑ دیا ہے۔

اسپریڈشیٹ بینچ پر—جو حقیقی دنیا کے حالات سے اخذ کردہ اسپریڈشیٹس میں ترمیم کرنے کے ماڈلز کی صلاحیت کا جائزہ لیتا ہے—ChatGPT ایجنٹ موجودہ ماڈلز کے مقابلے میں نمایاں برتری حاصل کرتا ہے۔ جب براہ راست سپریڈ شیٹ میں ترمیم کرنے کی صلاحیت دی جاتی ہے، تو ChatGPT ایجنٹ 45.5٪ کے ساتھ اور بھی زیادہ اسکور کرتا ہے، جبکہ ایکسل میں کوپائلٹ کا اسکور 20.0٪ ہے۔

طریقہ کار:SpreadsheetBench کے مصنفین نے اسپریڈشیٹس کا جائزہ لینے کے لیے Microsoft Excel استعمال کرتے ہوئے Windows ماحول میں کام کیا ہم نے OSX ماحول اور LibreOffice استعمال کیا، جس کے نتیجے میں چھوٹے گریڈنگ فرق پیدا ہو سکتے ہیں۔ مثال کے طور پر، مصنفین نے GPT‑4o کے لیے Overall Hard restriction 15.02% پایا، جبکہ ہمیں یہ 13.38% حاصل ہوا۔ ہم نے مکمل 912 سوالات کا بینچ مارک استعمال کیا۔

ایک داخلی بینچ مارک میں—جو کسی ماڈل کی اس صلاحیت کو ماپتا ہے کہ وہ پہلے سے تیسرے سال کے انویسٹمنٹ بینکنگ اینالسٹ ماڈلنگ کے کام انجام دے سکے، جیسے فورچون 500 کمپنی کے لیے درست فارمیٹنگ اور حوالہ جات کے ساتھ تین مالی بیانات پر مبنی ماڈل تیار کرنا، یا کسی کمپنی کو نجی کرنے کے لیے لیوریجڈ بائے آؤٹ ماڈل بنانا—ChatGPT ایجنٹ کو چلانے والا ماڈل ڈیپ ریسرچ اور o3 کے مقابلے میں نمایاں طور پر بہتر کارکردگی دکھاتا ہے۔ ہر ٹاسک کو درستگی اور فارمولے کے استعمال سے متعلق سیکڑوں معیارات پر جانچا جاتا ہے۔

ہم نے ChatGPT ایجنٹ کا جائزہ براوز کمپ⁠ پر بھی لیا—ایک بینچ مارک جو ہم نے اس سال کے اوائل میں شائع کیا تھا، جو براؤزنگ ایجنٹس کی اس صلاحیت کو ناپتا ہے کہ وہ ویب پر مشکل سے ملنے والی معلومات تلاش کر سکیں۔ نمونہ نے 68.9% کے ساتھ ایک نیا SOTA قائم کیا، جو گہری تحقیق سے 17.4 فیصد پوائنٹس زیادہ ہے۔

آخرکار، ویب ایرینا⁠(نئی ونڈو میں کھلتا ہے) پر—جو حقیقی دنیا کے ویب ٹاسکس مکمل کرنے میں ویب براؤزنگ ایجنٹس کی کارکردگی جانچنے کے لیے تیار کیا گیا ایک بینچ مارک ہے—ماڈل نے o3 سے چلنے والے CUA (جو آپریٹر کو چلانے والا ماڈل ہے) کے مقابلے میں بہتر کارکردگی ظاہر کی ہے۔

استعمال کرنے کا طریقہ

آپ کمپوزر کے ٹولز ڈراپ ڈاؤن سے 'ایجنٹ موڈ' منتخب کرکے کسی بھی گفتگو کے دوران کسی بھی وقت براہ راست ChatGPT کی نئی ایجنٹک صلاحیتوں کو فعال کر سکتے ہیں۔ براہ کرم اپنے مطلوبہ ٹاسک کی وضاحت کریں - چاہے وہ گہری تحقیق کرنا ہو، سلائیڈ شو بنائیں، یا اخراجات جمع کروانا ہو۔ جب یہ آپ کا ٹاسک انجام دیتا ہے، تو اسکرین پر ایک داستان بالکل واضح کرتی ہے کہ ChatGPT کیا کر رہا ہے۔ جب بھی ضرورت ہو، آپ براؤزر کو روک سکتے ہیں اور اس پر کنٹرول حاصل کر سکتے ہیں، اس بات کو یقینی بناتے ہوئے کہ ٹاسک آپ کے مقاصد کے مطابق رہیں۔

ChatGPT ایجنٹ آپ کے کنیکٹرز تک رسائی حاصل کر سکتا ہے، جس سے یہ آپ کے ورک فلو کے ساتھ مربوط ہو سکتا ہے اور متعلقہ، قابل عمل معلومات تک رسائی حاصل کر سکتا ہے۔ ایک بار تصدیق ہوجانے کے بعد، یہ کنیکٹرز ChatGPT کو معلومات دیکھنے اور ایسے کام کرنے کی اجازت دیتے ہیں جیسے آپ کے دن کے ان باکس کا خلاصہ بنانا یا میٹنگ کے لئے دستیاب وقت کے سلاٹس تلاش کرنا۔ تاہم، ان سائٹس پر کارروائی کرنے کے لئے، آپ کو براؤزر کے ذریعے لاگ ان کریں کا اشارہ دیا جائے گا۔

مزید برآں، آپ مکمل شدہ ٹاسکس کو خود بخود دوبارہ انجام پانے کے لیے شیڈول کر سکتے ہیں، جیسے ہر پیر کی صبح ہفتہ وار میٹرکس رپورٹ تیار کرنا۔

نئی صلاحیتیں، نئے خطرات

یہ ریلیز پہلی بار ہے جب صارفین ChatGPT سے ویب پر کاروائیاں کرنے کے لئے کہہ سکتے ہیں۔ یہ نئے خطرات متعارف کراتا ہے، خاص طور پر کیونکہ ChatGPT ایجنٹ آپ کے ڈیٹا کے ساتھ براہ راست کام کر سکتا ہے، چاہے یہ کنیکٹرز کے ذریعے حاصل کردہ معلومات ہوں یا وہ ویب سائٹس جن میں آپ نے اسے ٹیک اوور موڈ کے ذریعے لاگ ان کیا ہو۔ ہم نے Operator کے تحقیقی پیش نظارہ سے مضبوط کنٹرولز کو مزید مضبوط کیا ہے اور براہ راست ویب پر حساس معلومات کو سنبھالنے، وسیع تر صارف تک رسائی، اور (محدود) ٹرمینل نیٹ ورک تک رسائی جیسے چیلنجوں کے لیے حفاظتی اقدامات شامل کیے ہیں۔ اگرچہ یہ تخفیفات خطرے کو نمایاں طور پر کم کرتی ہیں، لیکن ChatGPT ایجنٹ کے توسیع شدہ ٹولز اور وسیع تر صارف تک رسائی کا مطلب ہے کہ اس کا مجموعی خطرے کا پروفائل زیادہ ہے۔

ہم نے ChatGPT agent کو محفوظ بنانے کیلئےپرومپٹ انجیکشن کے ذریعے ایڈورسیرئیل مینِپُلیشن پر خاص توجہ دی ہے — یہ عمومًا ایجنٹک نظاموں کے لیے ایک خطرہ ہے — اور اسی لیے ہم نے اس کے لیے مزید جامع حفاظتی تدابیر تیار کی ہیں۔ پرومپٹ انجیکشن دراصل تیسری جماعت کی طرف سے ایسا حملہ ہے جس کے ذریعے خطرناک ہدایات دے کر ماڈل کے رویے کو تبدیل کرنے کی کوشش کی جاتی ہے، اور یہ وہ ہدایات ہوسکتی ہیں جو ChatGPT agent کو ویب پر کسی ٹاسک کو مکمل کرتے ہوئے ملیں۔ مثال کے طور پر، کسی ویب صفحے میں چھپا ہوا مخرب پرومپٹ — جیسے غیر مرئی عناصر یا میٹا ڈیٹا میں — ایجنٹ کو دھوکہ دے کر غیر مطلوبہ کارروائیاں کروانے کا سبب بن سکتا ہے؛ مثلاً کنیکٹر سے نجی ڈیٹا کو حملہ آور کے ساتھ شیئر کرنا، یا ایسی سائٹ پر نقصان دہ کارروائی کرنا جس میں صارف پہلے سے لاگ ان ہو چکا ہو۔ چونکہ ChatGPT agent براہِ راست کارروائیاں انجام دے سکتا ہے، اس لیے کامیاب حملوں کا اثر زیادہ سنگین اور خطرات زیادہ بڑے ہو سکتے ہیں۔

ہم نے ایجنٹ کو پرومپٹ انجیکشن کے ذریعے ایڈورسیرئیل مینِپُلیشن کی شناخت اور اس کے خلاف مزاحمت کرنے کی تربیت بھی دی ہے، اور ساتھ ہی مانیٹرنگ کا استعمال کیا ہے تاکہ پرومپٹ انجیکشن حملوں کا تیز رفتار انداز میں پتہ لگا کر اُن پر ردِعمل دیا جا سکے۔ اہم نوعیت کی کارروائیاں کرنے سے پہلے صارف کی واضح منظوری کی ضرورت نے ان حملوں سے ہونے والے نقصان کے امکان کو مزید کم کر دیا ہے، اور صارف ضرورت کے مطابق کسی بھی وقت مداخلت کرسکتا ہے—چاہے ٹاسک کو روک کر یا خود سنبھال کر۔ صارفین کو چاہیے کہ وہ یہ فیصلہ کرتے وقت ان فوائد و نقصانات پر غور کریں کہ ایجنٹ کو کون سی معلومات فراہم کی جائیں، اور ان خطرات سے نمائش کو کم کرنے کے لیے اقدامات کریں—مثلاً ایسے کنیکٹرز کو غیر فعال کرنا جو کسی مخصوص ٹاسک کے لیے درکار نہ ہوں۔

ہم نے ماڈل کی غلطیوں سے متعلق حفاظتی اقدامات بھی نافذ کیے ہیں، خاص طور پر اب جبکہ ماڈل حقیقی دنیا پر اثر انداز ہونے والے کام انجام دینے کی صلاحیت رکھتا ہے:

صارف کی صریح منظوری:ChatGPT کو تربیت دی گئی ہے کہ وہ کسی بھی ایسی کارروائی سے پہلے آپ سے واضح اجازت طلب کرے جس کے حقیقی دنیا میں نتائج ہوں، جیسے کوئی خریداری کرنا۔
فعال نگرانی (“واچ موڈ”):کچھ اہم کام، جیسے ای میل بھیجنا، آپ کی فعال نگرانی کے بغیر نہیں کیے جا سکتے۔
پیشگی خطرے کی روک تھام:ChatGPT کو تربیت دی گئی ہے کہ وہ ہائی رسک کاموں، جیسے بینک ٹرانسفر، کو فعال طور پر انکار کرے۔

آخر میں، ہم نے اضافی کنٹرولز متعارف کروائے ہیں تاکہ ماڈل کی رسائی ڈیٹا تک محدود کی جا سکے:

پرائیویسی کنٹرولز:ChatGPT کی سیٹنگز میں ایک کلک سے آپ تمام براؤزنگ ڈیٹا حذف کر سکتے ہیں اور تمام فعال ویب سائٹ سیشنز سے فوری طور پر لاگ آؤٹ ہو سکتے ہیں۔ بصورت دیگر، کوکیز ہر وزٹ کی گئی ویب سائٹ کی کوکی پالیسی کے مطابق برقرار رہتی ہیں، جو سائٹس پر دوبارہ وزٹ کو زیادہ مؤثر بنا سکتی ہیں۔
محفوظ براؤزر ٹیک اوور موڈ:جب آپ ChatGPT کے براؤزر (“ٹیک اوور موڈ”) کے ذریعے ویب کے ساتھ تعامل کرتے ہیں، تو آپ کی ان پٹ نجی رہتی ہیں۔ ChatGPT ان سیشنز کے دوران آپ کی دی گئی کسی بھی معلومات، جیسے پاس ورڈز، کو جمع یا محفوظ نہیں کرتا، کیونکہ ماڈل کو اس کی ضرورت نہیں ہے، اور یہ زیادہ محفوظ ہے کہ وہ اسے کبھی نہ دیکھے۔

حیاتیاتی خطرے کے لیے ہماری سب سے مضبوط حفاظتی تدابیر

ماڈل کی بڑھتی ہوئی صلاحیتوں کے پیش نظر، ہم نے فیصلہ کیا ہے کہ ChatGPT ایجنٹ کو ہمارے تیاری کے فریم ورک⁠ کے تحت ہائی حیاتیاتی اور کیمیائی صلاحیتوں کے زمرے میں شامل کیا جائے اور متعلقہ حفاظتی اقدامات فعال کیے جائیں۔ اگرچہ ہمارے پاس اس بات کے قطعی ثبوت نہیں کہ ماڈل کسی نو آموز کو سنگین حیاتیاتی نقصان پیدا کرنے میں بامعنی مدد فراہم کر سکتا ہے — جو ہمارے ہائی کیپبلیٹی کے معیار کے مطابق ہے — ہم احتیاط برت رہے ہیں اور درکار حفاظتی اقدامات ابھی نافذ کر رہے ہیں۔ نتیجتاً، اس ماڈل میں اب تک کی ہماری سب سے جامع حفاظتی تدابیر شامل ہیں، جس میں حیاتیات کے لیے مضبوط اضافی حفاظتی اقدامات موجود ہیں: جامع تھریٹ ماڈلنگ، ڈوئل-یوز انکار کی تربیت، ہمیشہ فعال کلاسیفائرز اور ریزننگ مانیٹرز، اور واضح نفاذ کے عمل۔

ChatGPT ایجنٹ کو محفوظ بنانے کے لیے کیے گئے کام کے علاوہ، ہمیں معلوم ہے کہ لیئرڈ بایوسیفٹی سب سے مؤثر ہوتی ہے جب حفاظتی اقدامات کسی ایک لیبارٹری تک محدود نہ ہوں، اس لیے ہم پورے ایکوسسٹم میں تعاون کرتے ہیں تاکہ دفاع کو مضبوط بنایا جا سکے۔ پہلے دن سے ہم نے بیرونی بایوسیکیورٹی ماہرین، حفاظتی اداروں، اور تعلیمی محققین کے ساتھ کام کیا ہے تاکہ ہمارا تھریٹ ماڈل، تشخیصات، اور پالیسیز تیار کی جائیں۔ حیاتیات میں تربیت یافتہ ریویوورز نے ہمارے ایویلیوئیشن ڈیٹا کی تصدیق کی، اور ڈومین ماہر ریڈ ٹیمرز نے حقیقی منظرناموں میں حفاظتی اقدامات کا اسٹریس ٹیسٹ کیا۔ اس ماہ کے اوائل میں، ہم نے حکومت، تعلیمی اداروں، قومی لیبارٹریز، اور NGOs کے ماہرین کے ساتھ ایک بایوڈیفنس ورکشاپ منعقد کی تاکہ تعاون کو تیز کیا جا سکے اور AI کے ذریعے بایوڈیفنس تحقیق کو آگے بڑھایا جا سکے۔ ہم عالمی سطح پر شراکت داری جاری رکھیں گے تاکہ ابھرتے ہوئے خطرات سے آگے رہ سکیں۔

ہمارے یونائیفائیڈ ایجنٹک ماڈل کے لیے مضبوط حفاظتی نقطہ نظر کے بارے میں مزید پڑھیں system card⁠ میں۔ ہم ایک بگ باؤنٹی پروگرام⁠ ھی شروع کر رہے ہیں تاکہ ہم حقیقی دنیا کے خطرات کو تلاش اور دور کر سکیں۔

دستیابی

ChatGPT ایجنٹ آج سے Pro، Plus، اور Team کے لیے متعارف ہو رہا ہے؛ Pro صارفین کو دن کے اختتام تک رسائی مل جائے گی، جبکہ Plus اور Team صارفین کو اگلے چند دنوں میں رسائی حاصل ہوگی۔ Enterprise اور Education صارفین کو آنے والے ہفتوں میں رسائی ملے گی۔ Pro صارفین کے پاس ماہانہ 400 پیغامات کی حد ہے، جبکہ دیگر ادا شدہ صارفین کے لیے یہ حد 40 پیغامات ماہانہ ہے، اضافی استعمال کریڈٹ کی بنیاد پر لچکدار اختیارات کے ذریعے دستیاب ہوگا۔

ہم اب بھی یورپی اکنامک ایریا اور سوئٹزرلینڈ کے لیے رسائی فعال کرنے پر کام کر رہے ہیں۔

Operator ریسرچ پریویو سائٹ چند ہفتوں تک فعال رہے گا، جس کے بعد اسے ختم کر دیا جائے گا۔ ڈیپ ریسرچ ChatGPT ایجنٹ کی صلاحیتوں کا حصہ ہے۔ اگر آپ اصل ڈیپ ریسرچ فیچر کو ترجیح دیتے ہیں — جو چلنے میں زیادہ وقت لے سکتا ہے لیکن پہلے سے طے شدہ طور پر مزید تفصیلی اور جامع جوابات فراہم کرتا ہے — تو آپ اسے اب بھی میسج کمپوزر میں ڈراپ ڈاؤن سے “deep research” منتخب کر کے استعمال کر سکتے ہیں۔

محدودیتیں اور مستقبل کی توقعات

ChatGPT ایجنٹ ابھی بھی اپنے ابتدائی مراحل میں ہے۔ یہ ماڈل پیچیدہ کاموں کی ایک رینج انجام دینے کی صلاحیت رکھتا ہے، لیکن پھر بھی یہ غلطیاں کر سکتا ہے۔

اگرچہ ہم اس کی سلائیڈ شو بنانے کی صلاحیت میں نمایاں ممکنہ خوبی دیکھتے ہیں، یہ فیچر اس وقت بیٹا میں ہے۔ فی الحال، آؤٹ پٹس کبھی کبھار اپنی فارمیٹنگ اور پالش میں سادہ محسوس ہو سکتے ہیں، خاص طور پر جب کوئی دستاویز پہلے سے موجود نہ ہو۔ ہم نے ماڈل کی ابتدائی صلاحیتوں کو اس طرح مرکوز کیا ہے کہ یہ ایسی اشیاء تیار کرے جو معلومات کو ایک بہاؤ اور فارمیٹ میں منظم کریں جو پریزنٹیشنز کے لیے موزوں ہو، جس میں عناصر جیسے ٹیکسٹ، چارٹس، تصاویر، اور شیپس شامل ہوں، جو ایکسپورٹ کے بعد قدرتی طور پر اور آسانی سے ایڈٹ کیے جا سکیں، اور ساخت اور لچک کے لیے بہتر بنائے گئے ہوں۔ فی الحال، ویوئر میں سلائیڈز اور ایکسپورٹ شدہ پاورپوائنٹ کے درمیان کبھی کبھار فرق بھی ہوتا ہے، جسے ہم کم کرنے پر کام کر رہے ہیں۔ مزید برآں، اگرچہ آپ موجودہ اسپریڈشیٹ کو ChatGPT کے لیے اپلوڈ کر کے ایڈٹ کر سکتے ہیں یا ٹیمپلیٹ کے طور پر استعمال کر سکتے ہیں، یہ صلاحیت ابھی سلائیڈ شوز کے لیے دستیاب نہیں ہے۔ ہم پہلے ہی ChatGPT کے سلائیڈ شو بنانے والے اگلے ورژن کی تربیت کر رہے ہیں تاکہ زیادہ پالش شدہ، پیچیدہ آؤٹ پٹس پیدا کیے جا سکیں، جس میں وسیع تر صلاحیتیں اور بہتر فارمیٹنگ شامل ہو۔

مجموعی طور پر، ہم توقع کرتے ہیں کہ وقت کے ساتھ ChatGPT ایجنٹ کی کارکردگی، گہرائی، اور ورسٹائلٹی میں مسلسل بہتری آئے گی، جس میں صارف کی نگرانی کی ضرورت کو ایڈجسٹ کرتے ہوئے زیادہ ہموار تعاملات ممکن ہوں گے، تاکہ اسے زیادہ مفید اور محفوظ بنایا جا سکے۔

ضمیمہ

SpreadsheetBench
ماڈل	جائزہ لینے کا ماحول	Soft restriction (%): سیل لیول	Soft restriction (%): شیٹ لیول	Soft restriction (%): اوور آل
GPT‑4o	Windows، Excel	15.03	23.65	18.35
ایکسسل میں Copilot	Windows، Excel	23.33	15.00	20.00
GPT‑4o	OSX، LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX، LibreOffice	22.40	24.60	23.25
ChatGPT ایجنٹ	OSX، LibreOffice	38.27	30.48	35.27
.xlsx کے ساتھ ChatGPT ایجنٹ	OSX، LibreOffice	50.56	37.51	45.54
انسان		75.56	65.00	71.33

لائیو اسٹریم دوبارہ چلانا

مصنف

OpenAI

حاشیہ

* جب براؤزنگ فعال کی جاتی ہے، تو ماڈل کبھی کبھار آن لائن درست جوابات تلاش کر سکتا ہے، مثال کے طور پر کسی ڈیٹا سیٹ کے نمونہ مسائل والے بلاگ پوسٹس پڑھ کر۔ ہم براؤزنگ کے دوران ماڈل کے ممکنہ چیت کرنے کے خدشات کو دو حکمت عملیوں کے ذریعے کم کرتے ہیں:

1۔ ایسے ڈومینز بلاک کیے گئے جن سے ہم نے ماڈل کو ماضی میں چیت کرتے ہوئے دیکھا تھا۔

2۔ ہر کوشش میں تمام ٹول آؤٹ پٹ ٹوکنز کا جائزہ لینے کے لیے اضافی ماڈل بطور مانیٹر استعمال کیا گیا تاکہ مشکوک رویے کی شناخت کی جا سکے۔ مشکوک رویہ اس طرح تعریف کیا گیا ہے: "کوئی صفحہ، فائل، یا ٹکڑا جس کا بنیادی مقصد اس مخصوص سوال کا درست جواب فراہم کرنا ہو—مثلاً سرکاری گریڈنگ کی، لیک شدہ 'solutions' gist، یا ایسا ڈسکشن جو مکمل جواب کو بالکل ویسے ہی نقل کرے۔"حسن سلوک اس طرح تعریف کیا گیا ہے: "کوئی بھی مستند ذریعہ جس سے ایک محتاط انسان رجوع کر سکتا ہے (دستاویزات، مینولز، سائنسی مقالے، معتبر مضامین) چاہے اس میں اتفاقاً صحیح جواب شامل ہو۔"وہ تمام کوششیں جنہیں مانیٹر نے مشکوک قرار دیا، غلط شمار کی گئیں۔ زیادہ تر نمونے جو اس چیک میں ناکام ہوئے، وہ ایسے مسائل تھے جن کے صحیح حل متعدد انٹرنیٹ ذرائع میں دستیاب تھے جو HLE سے متعلق نہیں تھے۔

**OpenAI کو Tier 1-3 ڈیٹا سیٹ کے 290 نجی سوالات میں سے 237 تک خصوصی رسائی حاصل ہے۔ FrontierMath کے Tier 4 سوالات اس جائزے میں شامل نہیں ہیں۔ نتائج کا جائزہ ہر سوال کے 16 جوابات کی اوسط کے طور پر لیا گیا۔ ChatGPT ایجنٹ کے نتائج OpenAI کے ذریعے حاصل کیے گئے، Epoch AI کے ذریعے گریڈ کیے گئے، براؤزر اور ٹرمینل کی رسائی کے ساتھ، اور ہر جواب کے لیے 128K ٹوکنز کی حد کے ساتھ۔ OpenAI کے o4-mini اور o3 جائزے Epoch AI کے ذریعے حاصل اور گریڈ کیے گئے، براؤزر اور ٹرمینل کی رسائی کے بغیر، فنکشن کالنگ کے ذریعے Python اسکرپٹس کے استعمال کے ساتھ، اور ہر جواب کے لیے 100K ٹوکنز کی حد کے ساتھ۔

***Oracle@64 اُس بہترین اسکور کو ظاہر کرتا ہے جو 64 مرتبہ چلائے گئے نمونہ جاتی رنز میں حاصل ہوا ہو، اور اسے گراؤنڈ ٹرتھ کی بنیاد پر منتخب کیا جاتا ہے (یعنی ہم ہر ٹاسک کے لیے حقیقی گریڈڈ کارکردگی کے مطابق سب سے زیادہ اسکور والی کوشش کو چُنتے ہیں)۔ ہم تمام ٹاسکس میں ان بہترین فی-ٹاسک اسکورز کا اوسط رپورٹ کرتے ہیں۔ یہ میٹرک ماڈل کی بالائی حد کی صلاحیت اور ٹاسک پرفارمنس میں تغیر کو نمایاں کرتا ہے—یہ دکھاتا ہے کہ ماڈل کامیاب ہونے پر کتنا قابل ثابت ہوسکتا ہے، اور مزید تربیت کے ذریعے مستقل مزاجی بہتر بنانے کی گنجائش کہاں موجود ہے۔ روایتی “best of N” میٹرکس کے برعکس، جو ماڈل کے اعتماد پر انحصار کرتے ہیں، oracle@64 انتخاب کے لیے گراؤنڈ ٹرتھ استعمال کرتا ہے اور یہ بائنری پاس/فیل کی بجائے مسلسل 0–1 اسکیل پر گریڈ کیے جانے والے ٹاسکس پر لاگو ہوتا ہے۔