مرکزی مواد پر جائیں
OpenAI

اس صفحے پر موجود تمام ویڈیوز Sora کے ذریعے بغیر کسی تبدیلی کے براہ راست پیدا کیے گئے تھے۔

لوڈ ہو رہا ہے…

ہم مصنوعی ذہانت کو یہ سکھا رہے ہیں کہ وہ حرکت کرتی ہوئی مادی دنیا کو سمجھ سکے اور اس کی نقل کر سکے، تاکہ ایسے ماڈلز تیار کیے جا سکیں جو حقیقی دنیا سے متعامل درکار مسائل کے حل میں انسانوں کی مدد کریں۔

Sora، ہمارے ٹیکسٹ ٹو ویڈیو ماڈل، کا تعارف۔ Sora بصری معیار کو برقرار رکھتے ہوئے اور صارف کے پرامپٹ پر عمل کرتے ہوئے ایک منٹ تک ویڈیوز پیدا کر سکتا ہے۔

آج، Sora ریڈ ٹیمرز کے لئے نقصانات یا خطرات کے اہم حصوں کا جائزہ لینے کے لئے دستیاب ہو رہا ہے۔ ہم تخلیقی پیشہ ور افراد کے لیے سب سے زیادہ مددگار ہونے کے لیے نمونہ کو کس طرح آگے بڑھایا جائے اس بارے میں فیڈبیک حاصل کرنے کے لیے متعدد بصری فنکاروں، ڈیزائنرز اور فلم سازوں کو بھی رسائی دے رہے ہیں۔

ہم OpenAI سے باہر کے لوگوں کے ساتھ کام شروع کرنے اور ان سے فیڈ بیک حاصل کرنے اور عوام کو یہ احساس دلانے کے لیے اپنی تحقیقی پیشرفت کا اشتراک کر رہے ہیں کہ افق پر کیا AI صلاحیتیں موجود ہیں۔

Sora متعدد علامتوں، حرکت کی مخصوص اقسام، اور موضوع اور پس منظر کی درست تفصیلات کے ساتھ پیچیدہ مناظر پیدا کرنے کے قابل ہے۔ نمونہ نہ صرف یہ سمجھتا ہے کہ صارف نے پرامپٹ میں کیا مانگا ہے، بلکہ یہ بھی کہ یہ چیزیں جسمانی دنیا میں کس طرح موجود ہیں۔

اس ماڈل کو زبان کی گہری سمجھ ہے، جو اسے پرامپٹس کی درست ترجمانی کرنے اور پرکشش علامات پیدا کرنے کے قابل بناتی ہے جو بھرپور جذبات کا اظہار کرتے ہیں۔ Sora ایک ہی پیدا کردہ ویڈیو کے اندر متعدد شاٹس بھی بنا سکتا ہے جو علامتوں اور بصری انداز کو درست طریقے سے برقرار رکھتے ہیں۔

موجودہ ماڈل میں ابھی بھی بہتری کی گنجائش موجود ہے۔ یہ کسی پیچیدہ منظر کی طبیعیات کی نقل کرنے میں مشکل محسوس کر سکتا ہے، اور وجہ اور اثر کی مخصوص مثالوں کو سمجھ نہیں سکتا (مثال کے طور پر: کسی علامت کے کاٹنے کے بعد کوکی پر کوئی نشان نہیں آ سکتا)۔ نمونہ پرامپٹ میں شامل مقامی تفصیلات کو بھی الجھا سکتا ہے، جیسے بائیں اور دائیں کی تمیز کرنا، یا وقت کے ساتھ پیش آنے والی سرگرمیوں کی عین مطابق وضاحت میں مشکل پیش آنا، جیسے مخصوص کیمرے کی حرکات۔

حفاظت

ہم Sora کو OpenAI کی مصنوعات میں فراہم کرنے سے پہلے کئی اہم حفاظتی اقدامات کریں بروئے کار لائیں گے۔ ہم ریڈ ٹیمرز کے ساتھ کام کر رہے ہیں — غلط معلومات، نفرت انگیز مواد، اور تعصب جیسے شعبوں میں شعبہ ماہرین — جو مخالفانہ طور پر نمونہ کی جانچ کریں گے۔

ہم گمراہ کن مواد کا پتہ لگانے میں مدد کے لیے بھی ٹولز تیار کر رہے ہیں، جیسے کہ ایک پتہ لگانے والی درجہ بندی جو یہ بتا سکتی ہے کہ Sora کے ذریعہ ویڈیو کب تخلیق کی گئی تھی۔ اگر ہم نمونہ کو OpenAI پروڈکٹ میں تعینات کرتے ہیں تو ہم مستقبل میں C2PA میٹا ڈیٹا(نئی ونڈو میں کھلتا ہے) کو شامل کرنے کا منصوبہ بناتے ہیں۔

تعیناتی کی تیاری کے لیے نئی تکنیکیں تیار کرنے کے علاوہ، ہم ان موجودہ حفاظتی طریقوں(نئی ونڈو میں کھلتا ہے) سے بھی فائدہ اٹھا رہے ہیں جو ہم نے اپنی مصنوعات کے لیے بنائے ہیں جو DALL·E 3 استعمال کرتی ہیں، اور ان کا اطلاق Sora پر بھی ہوتا ہے۔

مثال کے طور پر، OpenAI پروڈکٹ میں ایک بار، ہمارا ٹیکسٹ کلاسیفائر ٹیکسٹ ان پٹ اپن پرامپٹس کو جانچ پڑتال اور مسترد کرے گا جو ہمارے استعمال کی پالیسیوں کی خلاف ورزی کرتے ہیں، جیسے کہ وہ پرامپٹس جو انتہائی تشدد، جنسی مواد، نفرت انگیز تصاویر، مشہور شخصیت کی مشابہت، یا دوسروں کی IP کی درخواست کرتے ہیں۔ ہم نے مضبوط تصویری درجہ بندیاں بھی تیار کی ہیں جو تیار کردہ ہر ویڈیو کے فریموں کا جائزہ لینے کے لئے استعمال ہوتی ہیں تاکہ یہ یقینی بنایا جا سکے کہ یہ صارف کو دکھائے جانے سے پہلے ہماری استعمال کی پالیسیوں پر عمل پیرا ہیں۔

ہم دنیا بھر میں پالیسی سازوں، معلموں اور فنکاروں کو ان کے خدشات کو سمجھنے اور اس نئی ٹیکنالوجی کے مثبت استعمال کے معاملات کی نشاندہی کرنے کے لئے شامل کیا کریں گے۔ وسیع پیمانے پر تحقیق اور جانچ کے باوجود، ہم ان تمام فائدہ مند طریقوں کی پیش گوئی نہیں کرسکتے ہیں جن سے لوگ ہماری ٹیکنالوجی کا استعمال کریں گے، اور نہ ہی ان تمام طریقوں کی جن سے لوگ اس کا غلط استعمال کریں گے۔ یہی وجہ ہے کہ ہم یقین رکھتے ہیں کہ حقیقی دنیا کے استعمال سے سیکھنا وقت کے ساتھ زیادہ محفوظ AI سسٹم بنانے اور جاری کرنے کا ایک اہم جزو ہے۔

Research techniques

Sora ایک ڈِفیوژن ماڈل ہے، جو ایک ایسی ویڈیو سے آغاز کرتا ہے جو ابتدا میں جامد شور جیسی دکھائی دیتی ہے، اور پھر کئی مراحل میں شور کو بتدریج ختم کرتے ہوئے اسے ایک واضح ویڈیو میں تبدیل کر دیتا ہے۔

Sora مکمل ویڈیوز کو ایک ساتھ تیار کرنے یا تیار شدہ ویڈیوز کو لمبا کرنے کی صلاحیت رکھتا ہے۔ نمونہ کو ایک وقت میں کئی فریموں کی پیش بینی دے کر، ہم نے اس مشکل مسئلے کو حل کر لیا ہے کہ جب کوئی موضوع عارضی طور پر نظروں سے اوجھل ہو جائے تو بھی وہ یکساں رہے۔

GPT ماڈلز کی طرح، Sora ایک ٹرانسفارمر آرکیٹیکچر کا استعمال کرتا ہے، جو اعلیٰ اسکیلنگ کی کارکردگی کو فعال کرتا ہے۔

ہم ویڈیوز اور تصاویر کو ڈیٹا کی چھوٹی اکائیوں کے مجموعے کے طور پر پیش کرتے ہیں جنہیں پیچز کہا جاتا ہے، اور ان میں سے ہر ایک GPT میں ایک ٹوکن کی طرح ہوتا ہے۔ ہم ڈیٹا کی نمائندگی کیسے کرتے ہیں اس کو متحد کرکے، ہم مختلف مدت، قراردادوں اور پہلوؤں کے تناسب پر پھیلاؤ کے ٹرانسفارمرز کو پہلے سے کہیں زیادہ بصری ڈیٹا کی وسیع رینج پر تربیت دینا کر سکتے ہیں۔

Sora DALL·E اور GPT ماڈلز میں ماضی کی تحقیق پر مبنی ہے۔ یہ DALL·E 3 کی recaptioning تکنیک کا استعمال کرتا ہے، جس میں بصری تربیتی ڈیٹا کے لیے انتہائی وضاحتی کیپشنز پیدا کرنا شامل ہے۔ اس کے نتیجے میں، نمونہ پیدا کردہ ویڈیو میں صارف کی متن ہدایات پر زیادہ وفاداری سے عمل کرنے کے قابل ہے۔

مکمل طور پر متن کی ہدایات سے ویڈیو تیار کرنے کے قابل ہونے کے علاوہ، یہ مادل ایک موجودہ ساکن تصویر لے کر اس سے ویڈیو تیار کر سکتا ہے، تصویر کے مواد کو درستگی اور چھوٹی تفصیلات پر توجہ مرکوز رکھتے ہوئے اسے تحریک دیتا ہے۔ نمونہ موجودہ ویڈیو بھی لے سکتا ہے اور اسے بڑھا سکتا ہے یا غائب فریموں کو پُر کر سکتا ہے۔ ہماری تکنیکی رپورٹ میں مزید معلومات حاصل کریں۔

Sora ان ماڈلز کے لئے بنیاد کے طور پر کام کرتا ہے جو حقیقی دنیا کو سمجھ اور اس کی تقلید کرسکتے ہیں، ایک ایسی صلاحیت جس پر ہمیں یقین ہے کہ AGI کے حصول کے لئے ایک اہم سنگ میل ثابت ہوگی۔

لوڈنگ ہو رہی ہے...