مصنوعی آوازوں کے چیلنجز اور مواقع کا سامنا کرنا
ہم Voice Engine کے ایک چھوٹے پیمانے کے پیش نظارہ سے حاصل ہونے والے اسباق شیئر کر رہے ہیں، جو حسبِ ضرورت آوازیں بنانے کے لیے ایک ماڈل ہے.
OpenAI محفوظ اور وسیع پیمانے پر فائدہ مند AI تیار کرنے کے لیے پُرعزم ہے. آج ہم Voice Engine نامی ایک ماڈل کے چھوٹے پیمانے کے پیش نظارہ سے ابتدائی بصیرتیں اور نتائج کا اشتراک کر رہے ہیں، جو ٹیکسٹ ان پٹ اور ایک واحد 15-سیکنڈ آڈیو نمونے کا استعمال کرتے ہوئے قدرتی لگنے والی بات چیت تیار کرتا ہے جو اصل مقرر سے بہت قریب مشابہت رکھتی ہے. یہ قابلِ ذکر ہے کہ ایک چھوٹا ماڈل ایک ہی 15-سیکنڈ نمونے کے ساتھ جذباتی اور حقیقت پسندانہ آوازیں بنا سکتا ہے.
ہم نے سب سے پہلے Voice Engine 2022 کے اواخر میں تیار کیا، اور اسے ٹیکسٹ-ٹو-اسپیچ API(نئی ونڈو میں کھلتا ہے) میں دستیاب پری سیٹ آوازوں کے ساتھ ساتھ ChatGPT وائس اور ریڈ الاؤڈ کو تقویت دینے کے لیے استعمال کیا ہے. اسی وقت، ہم مصنوعی آواز کے غلط استعمال کے امکان کی وجہ سے وسیع تر ریلیز کے لیے ایک محتاط اور باخبر نقطۂ نظر اپنا رہے ہیں. ہم امید کرتے ہیں کہ ہم مصنوعی آوازوں کی ذمہ دارانہ تعیناتی پر ایک مکالمہ شروع کریں، اور یہ کہ معاشرہ ان نئی صلاحیتوں کے مطابق کیسے ڈھل سکتا ہے. ان گفتگوؤں اور ان چھوٹے پیمانے کے ٹیسٹس کے نتائج کی بنیاد پر، ہم اس بارے میں زیادہ باخبر فیصلہ کریں گے کہ آیا اور کیسے اس ٹیکنالوجی کو وسیع پیمانے پر تعینات کیا جائے.
اس ٹیکنالوجی کے ممکنہ استعمالات کو بہتر طور پر سمجھنے کے لیے، گزشتہ سال کے آخر میں ہم نے قابل اعتماد شراکت داروں کے ایک چھوٹے سے گروپ کے ساتھ نجی طور پر اس کی جانچ شروع کی. ہم اس گروپ کی تیار کردہ ایپلیکیشنز سے متاثر ہوئے ہیں. یہ چھوٹے پیمانے کی تعیناتیاں مختلف صنعتوں میں Voice Engine کے اچھے مقاصد کے لیے استعمال کے بارے میں ہمارے نقطہ نظر، حفاظتی اقدامات، اور سوچ کو شکل دینے میں مدد کر رہی ہیں. چند ابتدائی مثالیں یہ ہیں:
- پڑھنے میں مدد فراہم کرنا غیر پڑھنے والوں اور بچوں کو قدرتی آواز والے، جذباتی لہجے کی آوازوں کے ذریعے، جو پری سیٹ آوازوں کے ساتھ ممکن حد سے زیادہ وسیع دائرے کے مقررین کی نمائندگی کرتی ہیں. Age of Learning(نئی ونڈو میں کھلتا ہے)، بچوں کی تعلیمی کامیابی کے لیے وقف ایک ایجوکیشن ٹیکنالوجی کمپنی، اس کا استعمال پہلے سے اسکرپٹ شدہ وائس اوور مواد تیار کرنے کے لیے کر رہی ہے. وہ طلبہ کے ساتھ تعامل کے لیے حقیقی وقت میں، ذاتی نوعیت کے جوابات تیار کرنے کے لیے Voice Engine اور GPT‑4 بھی استعمال کرتے ہیں. اس ٹیکنالوجی کے ساتھ، Age of Learning ایک وسیع تر سامعین کے لیے مزید مواد تخلیق کرنے کے قابل ہو گیا ہے.
- مواد کا ترجمہ، جیسے ویڈیوز اور پوڈکاسٹس، تاکہ تخلیق کار اور کاروبار دنیا بھر میں زیادہ لوگوں تک روانی سے اور اپنی ہی آوازوں میں پہنچ سکیں. اس کا ایک ابتدائی اپنانے والا HeyGen(نئی ونڈو میں کھلتا ہے) ہے، ایک AI بصری کہانی سنانے کا پلیٹ فارم جو اپنے انٹرپرائز صارفین کے ساتھ مل کر پروڈکٹ مارکیٹنگ سے لے کر سیلز ڈیمو تک مختلف قسم کے مواد کے لیے اپنی مرضی کے مطابق، انسان نما اوتار بنانے کے لیے کام کرتا ہے. وہ ویڈیو ترجمے کے لیے Voice Engine استعمال کرتے ہیں، تاکہ وہ ایک مقرر کی آواز کو متعدد زبانوں میں ترجمہ کر سکیں اور عالمی سامعین تک پہنچ سکیں. جب ترجمے کے لیے استعمال کیا جاتا ہے، Voice Engine اصل اسپیکر کے مقامی لہجے کو برقرار رکھتا ہے: مثال کے طور پر، کسی فرانسیسی اسپیکر کے آڈیو نمونے سے انگریزی تیار کرنے پر ایسی بات چیت پیدا ہوگی جس میں فرانسیسی لہجہ ہوگا.
- عالمی کمیونٹیز تک پہنچنا، دور دراز علاقوں میں ضروری خدمات کی فراہمی کو بہتر بنا کر. Dimagi(نئی ونڈو میں کھلتا ہے) کمیونٹی ہیلتھ ورکرز کے لیے ایسے ٹولز بنا رہا ہے تاکہ وہ ضروری خدمات کی ایک وسیع رینج فراہم کر سکیں، جیسے دودھ پلانے والی ماؤں کے لیے مشاورت. ان کارکنوں کی مہارتیں بڑھانے میں مدد کے لیے، Dimagi Voice Engine اور GPT‑4 کا استعمال کرتا ہے تاکہ ہر کارکن کی بنیادی زبان میں، بشمول سواحلی یا شینگ جیسی زیادہ غیر رسمی زبانوں میں، انٹرایکٹو فیڈبیک فراہم کیا جا سکے—شینگ ایک کوڈ-مکسڈ زبان ہے جو کینیا میں مقبول ہے.
- زبان سے بات نہ کر سکنے والے افراد کی مدد کرنا، جیسے ایسے افراد کے لیے علاجی ایپلیکیشنز جن کی حالتیں بولنے کی صلاحیت کو متاثر کرتی ہیں اور سیکھنے کی ضروریات رکھنے والوں کے لیے تعلیمی بہتریاں. Livox(نئی ونڈو میں کھلتا ہے), ایک AI متبادل مواصلاتی ایپ، اضافہ کار اور متبادل مواصلات (AAC) ڈیوائسز کو طاقت فراہم کرتی ہے جو معذوری کے حامل افراد کو بات چیت کرنے کے قابل بناتی ہیں. Voice Engine استعمال کر کے، وہ غیر-زبانی لوگوں کو کئی زبانوں میں منفرد اور غیر روبوٹک آوازیں پیش کرنے کے قابل ہوتے ہیں. ان کے صارفین ایسی بات چیت منتخب کر سکتے ہیں جو ان کی بہترین نمائندگی کرے اور کثیر لسانی صارفین کے لیے، ہر بولی جانے والی زبان میں ایک مستقل آواز برقرار رکھ سکتے ہیں.
- مریضوں کو اپنی آواز دوبارہ حاصل کرنے میں مدد کرنا، اُن لوگوں کے لیے جو اچانک یا تنزلی پذیر بات چیت کی حالتوں سے متاثر ہیں. لائف سپین(نئی ونڈو میں کھلتا ہے) میں نارمن پرنس نیورو سائنسز انسٹی ٹیوٹ، ایک غیر منافع بخش ہیلتھ سسٹم جو براؤن یونیورسٹی کے میڈیکل اسکول کا بنیادی تدریسی الحاق شدہ ادارہ ہے، کلینیکل سیاق و سباق میں AI کے استعمالات کی کھوج کر رہا ہے. وہ ایک پائلٹ پروگرام چلا رہے ہیں جس میں بولنے کی معذوری کے لیے آنکولوجک یا نیورولوجک اسباب رکھنے والے افراد کو Voice Engine پیش کیا جا رہا ہے. چونکہ Voice Engine کو اتنے مختصر آڈیو نمونے کی ضرورت ہوتی ہے، اس لیے ڈاکٹروں فاطمہ مرزا، روہیڈ علی اور کونسٹانٹینا سووکوس نے ایک کم عمر مریضہ کی آواز بحال کرنے میں کامیابی حاصل کی جس نے عروقی دماغی ٹیومر کی وجہ سے اپنی روانی سے بولنے کی صلاحیت کھو دی تھی اور اس کے لیے انہوں نے ایک اسکول پروجیکٹ کے لیے ریکارڈ کی گئی ویڈیو کی آڈیو استعمال کی.
ہم تسلیم کرتے ہیں کہ لوگوں کی آوازوں سے مشابہت رکھنے والی بات چیت پیدا کرنے میں سنگین خطرات ہیں، جو خاص طور پر انتخابی سال میں سب سے زیادہ پیشِ نظر رہتے ہیں. ہم حکومت، میڈیا، انٹرٹینمنٹ، تعلیم، سول سوسائٹی اور اس سے آگے کے شعبوں میں U.S. اور بین الاقوامی شراکت داروں کے ساتھ مشغول ہیں تاکہ یہ یقینی بنایا جا سکے کہ جب ہم تعمیر کر رہے ہوں تو ہم ان کی آراء (فیڈبیک) کو شامل کر رہے ہوں. آج Voice Engine کی جانچ کرنے والے شراکت داروں نے ہماری استعمال کی پالیسیوں سے اتفاق کیا ہے، جو رضامندی یا قانونی حق کے بغیر کسی دوسرے فرد یا تنظیم کی نقالی کرنے سے منع کرتی ہیں. مزید برآں، ان شراکت داروں کے ساتھ ہماری شرائط کے تحت اصل مقرر کی واضح اور باخبر رضامندی درکار ہوتی ہے اور ہم ڈویلپرز کو ایسے طریقے بنانے کی اجازت نہیں دیتے جن کے ذریعے انفرادی صارفین اپنی اپنی آوازیں بنا سکیں. شراکت داروں کو اپنے سامعین کے سامنے یہ بھی واضح طور پر ظاہر کرنا چاہیے کہ وہ جو آوازیں سن رہے ہیں وہ AI کے ذریعے پیدا کردہ ہیں. آخر میں، ہم نے حفاظتی اقدامات کا ایک مجموعہ نافذ کیا ہے، جس میں Voice Engine کے ذریعے تیار کردہ کسی بھی آڈیو کی اصل کا سراغ لگانے کے لیے واٹرمارکنگ، نیز اس کے استعمال کی نوعیت پر پیشگی نگرانی شامل ہے. ہم سمجھتے ہیں کہ مصنوعی آواز کی ٹیکنالوجی کی کسی بھی وسیع تعیناتی کے ساتھ آواز کی توثیق کے ایسے تجربات ہونے چاہییں جو اس بات کی تصدیق کریں کہ اصل مقرر جان بوجھ کر اپنی آواز کو سروس میں شامل کر رہا ہے اور ایک نو-گو آواز کی فہرست بھی ہونی چاہیے جو نمایاں شخصیات سے حد سے زیادہ ملتی جلتی آوازوں کی تخلیق کا پتہ لگائے اور انہیں روکے.
Voice Engine ہماری اس وابستگی کا تسلسل ہے کہ ہم تکنیکی جدید ترین کو سمجھیں اور کھلے عام یہ شیئر کریں کہ AI کے ساتھ کیا ممکن ہو رہا ہے. ہمارے AI سیفٹی کا نقطۂ نظر اور ہماری رضاکارانہ وعدوں کے مطابق، ہم اس وقت اس ٹیکنالوجی کا پیش نظارہ کرنے کا انتخاب کر رہے ہیں، لیکن اسے وسیع پیمانے پر جاری نہیں کر رہے ہیں. ہم امید کرتے ہیں کہ Voice Engine کا یہ پیش نظارہ اس کی صلاحیت کو واضح کرتا ہے اور پہلے سے زیادہ قابل اعتماد جنریٹو ماڈلز کے پیش کردہ چیلنجز کے خلاف سماجی لچک کو بڑھانے کی ضرورت کو بھی تحریک دیتا ہے. خاص طور پر، ہم درج ذیل اقدامات کی حوصلہ افزائی کرتے ہیں:
- بینک اکاؤنٹس اور دیگر حساس معلومات تک رسائی کے لیے حفاظتی اقدام کے طور پر آواز پر مبنی توثیق کو مرحلہ وار ختم کرنا.
- AI میں افراد کی آوازوں کے استعمال کے تحفظ کے لیے پالیسیوں کا جائزہ لینا.
- عوام کو AI ٹیکنالوجیز کی صلاحیتوں اور حدود کو سمجھنے کے بارے میں تعلیم دینا، جس میں دھوکہ دہی پر مبنی AI مواد کے امکان کو بھی شامل کیا گیا ہے.
- آڈیو ویژول مواد کی اصل کو ٹریک کرنے کی تکنیکوں کی ترقی اور اپنانے کی رفتار کو تیز کرنا، تاکہ یہ ہمیشہ یہ واضح ہو سکے کہ آپ کسی حقیقی شخص سے بات کر رہے ہیں یا AI سے.
یہ اہم ہے کہ دنیا بھر کے لوگ سمجھیں کہ یہ ٹیکنالوجی کس سمت جا رہی ہے، چاہے ہم بالآخر اسے خود بڑے پیمانے پر تعینات کریں یا نہ کریں. ہم پالیسی سازوں، محققین، ڈویلپرز اور تخلیق کاروں کے ساتھ مصنوعی آوازوں کے چیلنجز اور مواقع کے حوالے سے گفتگو میں مسلسل مشغول رہنے کے منتظر ہیں.


