Whisper کا تعارف
ہم نے Whisper نامی ایک ایسے نیورل نیٹ کو تربیت ہے اور اسے اوپن سورس بھی کر رہے ہیں جو انگریزی اسپیچ ریکگنیشن میں انسانی معیار کے قریب درستی اور تقویت حاصل کرتا ہے۔
Whisper ایک آٹومیٹک اسپیچ ریکگنیشن سیسٹم (ASR) ہے، جسے 680,000 گھنٹے کے ملٹی-لنگوئل اور ملٹی-ٹاسک کے زیرِ نگرانی ڈیٹا پر تربیت دی گئی ہے، جو ویب سے جمع کیا گیا۔ ہم یہ ظاہر کرتے ہیں کہ اتنے بڑے اور متنوع ڈیٹا سیٹ کا استعمال لہجوں، پس منظر کے شور اور تکنیکی زبان کے خلاف مضبوطی میں بہتری کا باعث بنتا ہے۔ مزید برآں، یہ متعدد زبانوں میں ٹرانسکرپشن کو فعال کرتا ہے، اور ان زبانوں سے انگریزی میں ترجمہ بھی کرتا ہے۔ ہم اپنے ماڈلز اور انفرینس کوڈ کو اوپن سورس کر رہے ہیں تاکہ مفید ایپلیکیشنز کی تیاری اور مضبوط اسپیچی پراسیسنگ (اسپیچProcessing) پر مزید تحقیق کے لیے ایک بنیاد فراہم کی جا سکے۔
Whisper فن تعمیر ایک سادہ اینڈ-ٹو-اینڈ نقطہ نظر ہے، جو انکوڈر-ڈیکوڈر ٹرانسفارمر کے طور پر نافذ کیا گیا ہے۔ ان-پٹ آڈیو کو 30 سیکنڈ کے حصوں میں تقسیم کیا جاتا ہے،پھر اسے لاگ-میل اسپیکٹروگرام میں تبدیل کیا جاتا ہےاور اینکوڈر کے ذریعے آگے بھیجا جاتا ہے۔ ایک ڈی کوڈر کو اس طرح تربیت دی گئی ہے کہ وہ متعلقہ متنی کیپشن کی پیش گوئی کرے، جن میں خصوصی ٹوکنز شامل کیے گئے ہیں جو ایک ہی ماڈل کو مختلف کام انجام دینے کی ہدایت دیتے ہیں، جیسے زبان کی شناخت، ملٹی-لنگوئل اسپیچ ریکگنیشن، فریز-لیول ٹائم اسٹیمپس، ملٹی-لنگوئل اسپیچ ٹرانسکرپشن، اور انگریزی میں اسپیچ کا ترجمہ۔
موجودہ دیگر طریقے اکثر چھوٹے اور محدود آڈیو ٹیکسٹ ڈیٹاسیٹس پر تربیت یافتہ ہوتے ہیں1 2، 3،یا پھر وسیع لیکن بغیر نگرانی کے آڈیو پری-ٹریننگ استعمال کرتے ہیں۔4، 5، 6 چونکہ Whisper کو ایک بڑے اور متنوع ڈیٹاسیٹ پر تربیتنگ دی گئی ہے،اور اسے کسی مخصوص ڈیٹاسیٹ پر فائن ٹیون نہیں کیا گیا،اس لیے یہ LibriSpeech جیسے معروف مقابلہ جاتی معیار پر خصوصی ماڈلز سے بہتر کارکردگی نہیں دکھاتا۔ تاہم، جب ہم Whisper کی "زیرو شاٹ" کارکردگی مختلف ڈیٹاسیٹس پر ناپتے ہیں،تو یہ زیادہ مضبوط ثابت ہوتا ہے اور ان ماڈلز کے مقابلے میں 50٪ کم غلطیاں کرتا ہے۔
Whisper کے آڈیو ڈیٹاسیٹ کا تقریباً ایک تہائی حصہ غیر انگریزی زبانوں پر مشتمل ہے،اور اسے باری باری یہ کام دیا جاتا ہے کہ یا تو وہ اصل زبان میں ٹرانسکرپشن کرے یا انگریزی میں ترجمہ کرے۔ ہمیں لگتا ہے کہ یہ طریقہ اسپیچ سے متن کے ترجمہ کو سیکھنے میں خاص طور پر موثر ہے اور CoVoST2 سے انگریزی ترجمہ زیرو-شاٹ پر زیر نگرانی SOTA سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔
ہمیں امید ہے کہ Whisper کی اعلیٰ درستی اور استعمال میں آسانی ڈویلپرز کو صوتی انٹرفیسز کوزیادہ وسیع ایپلی کیشنز میں شامل کرنے کے قابل بنائے گی۔ مزید جاننے اور Whisper کو آزمانے کے لیے تحقیقی مقالہ(نئی ونڈو میں کھلتا ہے)، ماڈل کارڈ(نئی ونڈو میں کھلتا ہے)،اور کوڈ(نئی ونڈو میں کھلتا ہے) دیکھیں۔
حوالہ جات
- 1
چان (Chan), ڈبلیو.، پارک (Park), ڈی.، لی (Lee), سی.، ژانگ (Zhang), وائی.، لی (Le), کیو.، اور نوروزی (Norouzi), ایم.۔ اسپِیچ سٹو (SpeechStew): دستیاب تمام اسپِیچ ریکگنیشن ڈیٹا کو ملا کر ایک بڑا نیورل نیٹ ورک تربیت دینے کا طریقہ۔ arXiv preprint arXiv:2104.02133, 2021(نئی ونڈو میں کھلتا ہے)۔
- 2
گیلویز (Galvez), ڈی.، ڈیاموس (Diamos), جی.، ٹورس (Torres), جے. ایم. سی.، اچورن (Achorn), کے.، گوپی (Gopi), اے.، کانٹر (Kanter), ڈی.، لیم (Lam), ایم.، مازمدر (Mazumder), ایم.، اور ریڈی (Reddi), وی. جے. The people’s speech: تجارتی استعمال کے لیے ایک وسیع اور متنوع اگریزی اسپیچ ریکگنیشن کا ڈیٹا سیٹ۔ arXiv preprint arXiv:2111.09344, 2021(نئی ونڈو میں کھلتا ہے)۔
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al.چین (Chen), جی.، چائی (Chai), ایس.، وانگ (Wang), جی.، ڈو (Du), جے.، ژانگ (Zhang), ڈبلیو-کیو.، وینگ (Weng), سی.، سو (Su), ڈی.، پووی (Povey), ڈی.، ترمال (Trmal), جے.، ژانگ (Zhang), جے.، وغیرہ Gigaspeech: ایک بڑھتا ہوا، کثیر شعبہ ASR کورپس جس میں 10,000 گھنٹے کی ٹرانسکرائب شدہ آڈیو شامل ہے۔ arXiv preprint arXiv:2106.06909, 2021(نئی ونڈو میں کھلتا ہے)۔
- 4
بایفسکی (Baevski), اے.، ژو (Zhou), ایچ.، محمد (Mohamed), اے.، اور اولی (Auli), ایم.۔ وِیو2وِیک 2.0 (wav2vec 2.0): اسپِیچ ریپریزنٹیشنز کی خود نگرانی (self-supervised) میں سیکھنے کے لیے ایک فریم ورک۔ arXiv preprint arXiv:2006.11477, 2020(نئی ونڈو میں کھلتا ہے)۔
- 5
بایفسکی (Baevski), اے.، ہو (Hsu), ڈبلیو. این.، کونو (Conneau), اے.، اور اولی (Auli), ایم.۔ بغیر نگرانی (Unsupervised) کے اسپِیچ ریکگنیشن۔ Advances in Neural Information Processing Systems, 34:27826–27839, 2021۔
- 6
ژانگ (Zhang), وائی.، پارک (Park), ڈی. ایس.، ہان (Han), ڈبلیو.، کِن (Qin), جے.، گولاتی (Gulati), اے.، شور (Shor), جے.، جانسن (Jansen), اے.، ژو (Xu), وائی.، ہوانگ (Huang), وائی.، وانگ (Wang), ایس.، وغیرہ BigSSL: آٹوماٹک اسپیچ ریکگنیشن کے لیے بڑے پیمانے پر نیم نگرانی شدہ سیکھنے کی حدود کی تلاش۔arXiv preprint arXiv:2109.13226, 2021(نئی ونڈو میں کھلتا ہے)۔


