تخطي إلى المحتوى الرئيسي
OpenAI

تم إنشاء جميع مقاطع الفيديو على هذه الصفحة مباشرة بواسطة Sora دون أي تعديل.

جاري التحميل...

نقوم بتعليم الذكاء الاصطناعي فهم ومحاكاة العالم المادي في حركته، بهدف تطوير نماذج تساعد الناس على حل المشكلات التي تتطلب تفاعلًا آنيًا.

نقدّم لكم Sora، نموذجنا الجديد لتحويل النصوص إلى فيديو. يستطيع Sora إنشاء مقاطع فيديو تصل مدتها إلى دقيقة واحدة، مع الحفاظ على جودة بصرية عالية والالتزام الدقيق بالموجّه النصي للمستخدم.

بدءًا من اليوم، يُتاح Sora لفِرق الاختبار الأمني (Red Teamers) لتقييم الجوانب الحرجة المتعلقة بالأضرار أو المخاطر المحتملة. كما نمنح الوصول لعدد من الفنانين البصريين والمصممين وصنّاع الأفلام بهدف الحصول على آرائهم وملاحظاتهم حول كيفية تطوير النموذج ليكون أكثر فائدة للمبدعين والمهنيين في المجالات الإبداعية.

نشارك نتائج أبحاثنا في مرحلة مبكرة لبدء التعاون وتلقّي الملاحظات من أشخاص خارج OpenAI، ولمنح الجمهور تصورًا عمّا ينتظرنا من قدرات الذكاء الاصطناعي في المستقبل القريب.

يستطيع Sora إنشاء مشاهد معقدة تحتوي على شخصيات متعددة، وأنماط حركة محددة، وتفاصيل دقيقة للعناصر في المقدمة والخلفية. ولا يقتصر فهم النموذج على ما يطلبه المستخدم في الموجّه النصي فحسب، بل يمتد ليشمل إدراكًا لكيفية وجود تلك العناصر وتفاعلها في العالم المادي الحقيقي.

يتمتّع النموذج بفهمٍ عميقٍ للغة، ما يمكّنه من تفسير الأوامر النصية بدقة وإنتاج شخصيات جذّابة تعبّر عن مشاعر نابضة بالحياة. كما يستطيع Sora إنشاء لقطات متعددة ضمن مقطع فيديو واحد مع الحفاظ على ثبات الشخصيات والأسلوب البصري بدقة.

لا يزال النموذج الحالي بحاجة إلى مزيد من التطوير، إذ قد يواجه صعوبة في محاكاة القوانين الفيزيائية للمشاهد المعقدة، وقد لا يستوعب بدقة بعض علاقات السبب والنتيجة (على سبيل المثال: قد لا تظهر على قطعة البسكويت علامة بعد أن يعضّها أحد الشخصيات). كما يمكن أن يخلط بين التفاصيل المكانية الواردة في الموجّه، مثل التمييز بين اليمين واليسار، أو يواجه تحديًا في الوصف الدقيق للأحداث المتتابعة زمنيًا، كمسارات حركة الكاميرا المحددة.

الحماية

سوف نتخذ عدة خطوات سلامة مهمة قبل أن نجعل Sora متاحًا في منتجات OpenAI. نحن نعمل مع فرق متخصصة في اختبار المخاطر (Red Teaming) - خبراء في مجالات مثل المعلومات المضللة والمحتوى البغيض والتحيز - الذين سيقومون باختبار النموذج بشكل عدائي.

نقوم أيضًا ببناء أدوات للمساعدة في اكتشاف المحتوى المضلل مثل مصنف الكشف الذي يمكنه تحديد متى تم إنشاء مقطع فيديو بواسطة Sora. ونخطط لتضمين بيانات التعريف C2PA(يفتح في نافذة جديدة) في المستقبل إذا قمنا بإطلاق النموذج في منتج من منتجات OpenAI.

بالإضافة إلى تطويرنا لتقنيات جديدة للتحضير للنشر، فإننا نستفيد من طرق السلامة الحالية(يفتح في نافذة جديدة) التي أنشأناها لمنتجاتنا التي تستخدم DALL·E 3، والتي يمكن تطبيقها أيضًا على Sora.

على سبيل المثال، بمجرد استخدامك لمنتج من منتجات OpenAI، سيقوم مصنف النصوص الخاص بنا بفحص ورفض طلبات الإدخال التي تنتهك سياسات الاستخدام الخاصة بنا، مثل تلك التي تطلب عنفًا شديدًا أو محتوى جنسيًا أو صورًا تحض على الكراهية أو تشابه مع المشاهير أو الملكية الفكرية للآخرين. لقد قمنا أيضًا بتطوير مصنفات صور قوية تُستخدم لمراجعة إطارات كل مقطع فيديو تم إنشاؤه لضمان التزامه بسياسات الاستخدام، قبل عرضه على المستخدم.

سوف نقوم بإشراك صانعي السياسات والمعلمين والفنانين في جميع أنحاء العالم لفهم مخاوفهم وتحديد حالات الاستخدام الإيجابي لهذه التكنولوجيا الجديدة. وعلى الرغم من الأبحاث والاختبارات المكثفة، لا يمكننا التنبؤ بجميع الطرق المفيدة التي سيستخدم بها الناس تقنيتنا، ولا جميع الطرق التي سيسيئون استخدامها. لهذا نؤمن أن التعلم من الاستخدام الواقعي يُعد عنصرًا حاسمًا في إنشاء وإطلاق أنظمة ذكاء اصطناعي آمنة بشكل متزايد مع مرور الوقت.

Research techniques

يُعد Sora نموذجًا توليديًا قائمًا على الانتشار (Diffusion Model)، حيث يُنشئ الفيديو من خلال البدء بمشهد يبدو كضجيج ساكن، ثم يقوم تدريجيًا بإزالة هذا الضجيج عبر مراحل متتالية ليحوّله إلى فيديو متكامل وواضح.

يستطيع Sora إنشاء مقاطع فيديو كاملة دفعة واحدة أو تمديد المقاطع المولدة لجعلها أطول. ومنحنا النموذج القدرة على توقّع عدد كبير من الإطارات في الوقت نفسه، مما أتاح لنا حلّ مشكلة معقدة تتمثّل في الحفاظ على ثبات مظهر العنصر حتى عندما يختفي مؤقتًا عن المشهد.

على غرار نماذج GPT، يستخدم Sora بنية المحوِّل (Transformer Architecture)، مما يتيح له تحقيق أداءٍ فائقٍ من حيث القدرة على التوسّع والمعالجة المتقدمة.

نُمثّل مقاطع الفيديو والصور على شكل مجموعات من الوحدات الصغيرة من البيانات تُسمّى الرقع (Patches)، تشبه كل واحدةٍ منها الرمز (Token) في نماذج GPT. ومن خلال توحيد طريقة تمثيل البيانات، أصبح بإمكاننا تدريب نماذج الانتشار القائمة على المحوِّلات (Diffusion Transformers) على نطاقٍ أوسع من البيانات البصرية مقارنةً بما كان ممكنًا سابقًا، بما يشمل اختلافات في المدة والدقة ونِسَب الأبعاد.

يعتمد Sora على الأبحاث السابقة في نماذج DALL·E وGPT، إذ يستخدم تقنية إعادة التسمية (Recaptioning) المستمدة من DALL·E 3، والتي تقوم على إنشاء أوصاف نصية غنية ودقيقة للبيانات البصرية المستخدمة في التدريب. ونتيجة لذلك، يتمكّن النموذج من اتباع تعليمات المستخدم النصية بدقة أكبر عند توليد مقاطع الفيديو.

إلى جانب قدرته على إنشاء مقاطع فيديو اعتمادًا على التعليمات النصية فقط، يستطيع النموذج أيضًا أخذ صورة ثابتة وتحويلها إلى فيديو متحرك، مع إضفاء الحركة على محتواها بدقة واهتمام بالتفاصيل الدقيقة. كما يمكنه معالجة مقطع فيديو قائم بالفعل لتمديده أو استكمال الإطارات المفقودة فيه. اطّلع على المزيد في تقريرنا التقني.

يُعد Sora أساسًا لنماذج قادرة على فهم العالم الواقعي ومحاكاته، وهي قدرة نعتقد أنها ستشكّل محطة مهمة في طريق الوصول إلى الذكاء العام الاصطناعي (AGI).

جاري التحميل...