اب ChatGPT دیکھ، سن، اور بول سکتا ہے

ہم ChatGPT میں نئی آواز اور تصویر کی صلاحیتیں متعارف کروانا شروع کر رہے ہیں۔ وہ ایک نئی، زیادہ بدیہی قسم کا انٹرفیس پیش کرتے ہیں جو آپ کو صوتی بات چیت کرنے یا ChatGPT کو دکھانے کی اجازت دیتا ہے کہ آپ کس بارے میں بات کر رہے ہیں۔
آواز اور تصویر آپ کو اپنی زندگی میں ChatGPT استعمال کرنے کے مزید طریقے فراہم کرتی ہے۔ سفر کے دوران کسی مشہور مقام کی تصویر کھینچیں اور اس کے بارے میں دلچسپ امور پر براہ راست گفتگو کریں۔ جب آپ گھر ہوں تو اپنے فریج اور پینٹری کی تصاویر کھینچیں تاکہ معلوم ہو سکے کہ رات کے کھانے کے لیے کیا ہے (اور مرحلہ وار ترکیب کے لیے فالو اپ سوالات پوچھیں)۔ رات کے کھانے کے بعد، اپنے بچے کی ریاضی کے مسئلے میں ایک تصویر کھینچ کر، مسئلے کے سیٹ پر چکر لگا کر، اور آپ دونوں کے ساتھ اشارے بانٹ کر اس کی مدد کریں۔
ہم اگلے دو ہفتوں میں Plus اور Enterprise صارفین کے لیے ChatGPT میں آواز اور تصاویر متعارف کروا رہے ہیں۔ آواز iOS اور Android پر آ رہی ہے (اپنی سیٹنگز میں آپٹ ان کریں) اور تصاویر تمام پلیٹ فارمز پر دستیاب ہوں گی۔
اب آپ اپنے معاون کے ساتھ دو طرفہ گفتگو کرنے کے لیے آواز کا استعمال کر سکتے ہیں۔ چلتے پھرتے اس کے ساتھ بات کریں، اپنے خاندان کے لیے سونے کے وقت کی کہانی کی درخواست کریں، یا رات کے کھانے کی میز پر بحث طے کریں۔
آواز کا استعمال کرتے ہوئے اپنے معاون کے ساتھ دو طرفہ گفتگو میں مشغول ہوں۔
آواز کے ساتھ شروع کرنے کے لیے، موبائل ایپ پر سیٹنگز → نئی خصوصیات پر جائیں اور صوتی گفتگو کا انتخاب کریں۔ اس کے بعد، ہوم اسکرین کے اوپری دائیں کونے میں واقع ہیڈ فون بٹن کو تھپتھپائیں اور پانچ مختلف آوازوں میں سے اپنی پسندیدہ آواز کا انتخاب کریں۔
نئی آواز کی صلاحیت ایک نئے متن سے بات چیت ماڈل کے ذریعے تقویت یافتہ ہے، جو صرف ٹیکسٹ اور نمونہ تقریر کے چند سیکنڈز سے انسان جیسا آڈیو تیار کرنے کے قابل ہے۔ ہم نے ہر آواز کو بنانے کے لیے پیشہ ورانہ وائس ایکٹرز کے ساتھ تعاون کیا۔ آپ کے بولے گئے الفاظ کو متن میں نقل کرنے کے لیے ہم Whisper، ہمارا اوپن سورس اسپیچ ریکگنیشن سسٹم بھی استعمال کرتے ہیں۔
آپ اب ChatGPT کو ایک یا زیادہ تصاویر دکھا سکتے ہیں۔ مسئلہ حل کریں کہ آپ کی گرل کیوں شروع نہیں ہوگی، کھانے کی منصوبہ بندی کرنے کے لیے اپنے فرج کے مواد کو دریافت کریں، یا کام سے متعلق ڈیٹا کے لیے پیچیدہ گراف کا تجزیہ کریں۔ تصویر کے مخصوص حصے پر توجہ مرکوز کرنے کے لیے، آپ ہماری موبائل ایپ میں ڈرائنگ ٹول استعمال کر سکتے ہیں۔
ChatGPT کو ایک یا زیادہ تصاویر دکھائیں۔
شروع کرنے کے لیے، تصویر کو لینے یا منتخب کرنے کے لیے فوٹو بٹن پر ٹیپ کریں۔ اگر آپ iOS یا Android پر ہیں، تو پہلے plus بٹن پر ٹیپ کریں۔ آپ متعدد تصاویر پر بھی بات کر سکتے ہیں یا اپنے اسسٹنٹ کی رہنمائی کے لیے ہمارے ڈرائنگ ٹول کا استعمال کر سکتے ہیں۔
تصویری تفہیم کو ملٹی موڈل GPT‑3.5 اور GPT‑4 کے ذریعے تقویت دی گئی ہے۔ یہ ماڈل اپنی زبان کے استدلال کی مہارت کو تصویروں کے ایک وسیع سلسلہ پر لاگو کرتے ہیں، جیسے کہ تصاویر، اسکرین شاٹس، اور دستاویزات جن میں متن اور تصاویر دونوں شامل ہیں۔
OpenAI کا مقصد یہ ہے کہ وہ محفوظ اور فائدہ مند AGI بنائے۔ ہم اپنے ٹولز کو بتدریج دستیاب کرنے میں یقین رکھتے ہیں، جو ہمیں وقت کے ساتھ ساتھ بہتریاں کرنے اور خطرات کو کم کرنے کے ساتھ ساتھ مستقبل میں مزید طاقتور سسٹمز کے لیے سب کو تیار کرنے کی اجازت دیتا ہے۔ آواز اور وژن پر مشتمل جدید ماڈلز کے ساتھ یہ حکمت عملی اور بھی اہم ہو جاتی ہے۔
نئی آواز کی ٹیکنالوجی—جو صرف چند سیکنڈ کی حقیقی تقریر سے حقیقت پسندانہ مصنوعی آوازیں تیار کرنے کی صلاحیت رکھتی ہے—بہت سی تخلیقی اور رسائی پر مبنی ایپلیکیشنز کے لیے دروازے کھولتی ہے۔ تاہم، یہ صلاحیتیں نئے خطرات بھی پیش کرتی ہیں، جیسے کہ بدنیتی پر مبنی عناصر کا عوامی شخصیات کی نقالی کرنا یا دھوکہ دہی کرنا۔
یہی وجہ ہے کہ ہم ایک مخصوص استعمال کے معاملہ کے لیے اس ٹیکنالوجی کو استعمال کر رہے ہیں—وائس چیٹ۔ وائس چیٹ ان وائس ایکٹرز کے ساتھ بنائی گئی تھی جن کے ساتھ ہم نے براہ راست کام کیا ہے۔ ہم اسی طرح دوسروں کے ساتھ بھی تعاون کر رہے ہیں۔ مثال کے طور پر، Spotify اس ٹیکنالوجی کی طاقت کو اپنے وائس ترجمہ(نئی ونڈو میں کھلتا ہے) فیچر کے پائلٹ کے لیے استعمال کر رہا ہے، جو پوڈکاسٹس کو پوڈکاسٹرز کی اپنی آوازوں میں اضافی زبانوں میں ترجمہ کر کے، پوڈکاسٹرز کو اپنی کہانی سنانے کی رسائی کو بڑھانے میں مدد دیتا ہے۔
بصیرت پر مبنی ماڈلز بھی نئے چیلنجز پیش کرتے ہیں، جو لوگوں کے بارے میں ہیلوسینیشنز سے لے کر اعلیٰ اہمیت کے حامل شعبوں میں ماڈل کی تصاویر کی تشریح پر انحصار کرنے تک ہیں۔ وسیع پیمانے پر تعیناتی سے پہلے، ہم نے ماڈل کو انتہا پسندی اور سائنسی مہارت جیسے شعبہ جات میں خطرے کے لیے ریڈ ٹیمرز کے ساتھ جانچا، اور مختلف قسم کے الفا ٹیسٹرز کے ساتھ بھی۔ ہماری تحقیق نے ہمیں ذمہ دارانہ استعمال کے لیے چند اہم نکات پر متفق ہونے کو فعال کیا۔
دیگر ChatGPT خصوصیات کی طرح، وژن آپ کی روزمرہ زندگی میں آپ کی مدد کرنے کے بارے میں ہے۔ یہ اس وقت بہترین کام کرتا ہے جب یہ وہ سب دیکھ سکتا ہے جو آپ دیکھتے ہیں۔
یہ طریقہ کار براہ راست ہمارے "Be My Eyes" کے ساتھ کام سے متاثر ہوا ہے، جو نابینا اور کم نظر والے افراد کے لئے ایک مفت موبائل ایپ ہے، تاکہ استعمالات اور حدود کو سمجھا جا سکے۔ صارفین نے ہمیں بتایا ہے کہ وہ ان تصاویر کے بارے میں عمومی بات چیت کو قابل قدر سمجھتے ہیں جن میں پس منظر میں لوگ شامل ہوتے ہیں، جیسے کہ اگر کوئی TV پر اس وقت ظاہر ہوتا ہے جب آپ اپنی ریموٹ کنٹرول کی ترتیبات کا پتہ لگانے کی کوشش کر رہے ہوں۔
ہم نے تکنیکی اقدامات بھی کیے ہیں تاکہ ChatGPT کی صلاحیت کو لوگوں کے بارے میں تجزیہ کرنے اور براہ راست بیانات دینے کی حد تک محدود کیا جا سکے، کیونکہ ChatGPT ہمیشہ درست نہیں ہوتا اور ان نظاموں کو افراد کی پرائیویسی کا احترام کرنا چاہیے۔
حقیقی دنیا کے استعمال اور فیڈبیک سے ہمیں ان حفاظتی اقدامات کو مزید بہتر بنانے میں مدد ملے گی جبکہ ٹول کو مفید بھی رکھا جائے۔
صارفین مخصوص موضوعات، مثال کے طور پر تحقیق جیسے شعبوں میں، ChatGPT پر انحصار کر سکتے ہیں۔ ہم ماڈل کی حدود کے بارے میں شفاف ہیں اور مناسب تصدیق کے بغیر زیادہ خطرے والے استعمال کے معاملات کی حوصلہ افزائی نہیں کرتے۔ مزید برآں، ماڈل انگریزی متن کی نقل کرنے میں ماہر ہے لیکن کچھ دیگر زبانوں کے ساتھ، خاص طور پر وہ زبانیں جن کی رسم الخط رومن نہیں ہے، میں ناقص کارکردگی دکھاتا ہے۔ ہم اپنے غیر انگریزی صارفین کو اس مقصد کے لیے ChatGPT استعمال کرنے کے برعکس مشورہ دیتے ہیں۔
آپ ہمارے حفاظتی نقطہ نظر اور Be My Eyes کے ساتھ ہمارے کام کے بارے میں مزید پڑھ سکتے ہیں تصویری ان پٹ کے لیے سسٹم کارڈ میں۔
اگلے دو ہفتوں میں Plus اور Enterprise صارفین کو آواز اور تصاویر کا تجربہ کرنے کا موقع ملے گا۔ ہم ان صلاحیتوں کو جلد ہی دیگر صارف گروپوں، بشمول ڈویلپرز، کے لیے متعارف کرانے کے لیے پرجوش ہیں۔
مصنف
تسلیمات
وائس موڈ کور تحقیق
ایلیک ریڈفورڈ، تاؤ ژو، جونگ وک کم
وژن کی تعیناتی کے بنیادی تحقیق
راؤل پوری، جیمی کیروس، ہیون وو نوہ، لانگ اویانگ، سندھنی اگروال


