پرش به محتوای اصلی
OpenAI

تمام ویدیوهای این صفحه مستقیماً توسط Sora و بدون تغییر تولید شده‌اند.

در حال بارگذاری…

ما به هوش مصنوعی یاد می‌دهیم تا دنیای فیزیکی در حال حرکت را درک و شبیه‌سازی کند، با هدف آموزش مدل‌هایی که به افراد کمک می‌کنند مشکلاتی را که نیاز به تعامل در دنیای واقعی دارند، حل کنند.

معرفی Sora، مدل تبدیل متن به ویدیو ما. Sora می‌تواند ویدیوهایی تا یک دقیقه تولید کند و در عین حال کیفیت بصری را حفظ کرده و به درخواست کاربر پایبند بماند.

امروز Sora برای تیم‌های قرمز در دسترس قرار می‌گیرد تا مناطق بحرانی را از نظر آسیب‌ها یا خطرات ارزیابی کنند. ما همچنین به تعدادی از هنرمندان تجسمی، طراحان و فیلمسازان دسترسی می‌دهیم تا بازخوردی درباره چگونگی ارتقای مدل به دست آورند تا برای حرفه‌ای‌های خلاق مفیدتر باشد.

ما پیشرفت تحقیقاتی خود را زودتر به اشتراک می‌گذاریم تا با افراد خارج از OpenAI کار کنیم و از آن‌ها بازخورد بگیریم و به مردم این حس را بدهیم که قابلیت‌های هوش مصنوعی در افق چه هستند.

Sora می‌تواند صحنه‌های پیچیده‌ای با شخصیت‌های متعدد، انواع خاصی از حرکت و جزئیات دقیق سوژه و پس‌زمینه تولید کند. مدل نه تنها آنچه کاربر در درخواست پرسیده است را درک می‌کند، بلکه می‌فهمد که این چیزها چگونه در دنیای فیزیکی وجود دارند.

این مدل درک عمیقی از زبان دارد که به آن امکان می‌دهد درخواست‌ها را به‌طور دقیق تفسیر کند و شخصیت‌های جذابی ایجاد کند که احساسات زنده‌ای را به نمایش می‌گذارند. Sora همچنین می‌تواند چندین شات در یک ویدیوی تولید شده ایجاد کند که به‌طور دقیق شخصیت‌ها و سبک بصری را حفظ کند.

مدل فعلی هنوز جای بهبود دارد. ممکن است در شبیه‌سازی فیزیک یک صحنه پیچیده دچار مشکل شود و نتواند موارد خاصی از علت و معلول را درک کند (برای مثال: ممکن است یک کوکی بعد از اینکه یک شخصیت آن را گاز می‌زند، علامتی نشان ندهد). مدل ممکن است جزئیات فضایی موجود در یک فرمان را اشتباه بگیرد، مانند تشخیص چپ از راست، یا در توصیف دقیق رویدادهایی که در طول زمان رخ می‌دهند، مانند مسیرهای خاص دوربین، دچار مشکل شود.

ایمنی

ما چندین گام ایمنی مهم را قبل از در دسترس قرار دادن Sora در محصولات OpenAI برخواهیم داشت. ما با تیم‌های قرمز - متخصصان حوزه در زمینه‌هایی مانند اطلاعات نادرست، محتوای نفرت‌انگیز و تعصب - کار می‌کنیم که به صورت خصمانه این مدل را آزمایش خواهند کرد.

ما همچنین در حال ساخت ابزارهایی هستیم که به تشخیص محتوای گمراه‌کننده کمک می‌کنند، مانند یک طبقه‌بندی‌کننده که می‌تواند تشخیص دهد چه زمانی یک ویدیو توسط Sora تولید شده است. اگر مدل را در یک محصول Open AI استقرار کنیم، قصد داریم فراداده C2PA(در یک پنجره جدید باز می‌شود) را در آینده گنجانده کنیم.

علاوه بر توسعه تکنیک‌های جدید برای آماده‌سازی جهت استقرار، ما از روش‌های ایمنی موجود(در یک پنجره جدید باز می‌شود) که برای محصولات خود که از DALL·E 3 استفاده می‌کنند، ساخته‌ایم و برای Sora نیز قابل استفاده هستند، بهره می‌بریم.

برای مثال، در یک محصول OpenAI، طبقه‌بندی‌کننده متن ما، درخواست‌های ورودی متنی را که ناقض سیاست‌های استفاده ما هستند، مانند مواردی که خشونت شدید، محتوای جنسی، تصاویر نفرت‌انگیز، تصویر افراد مشهور یا IP دیگران را درخواست می‌کنند، بررسی و رد می‌کند. ما همچنین طبقه‌بندی‌کننده‌های تصویر قدرتمندی توسعه داده‌ایم که برای بررسی فریم‌های هر ویدیوی تولید شده استفاده می‌شوند تا اطمینان حاصل شود که قبل از نمایش به کاربر، با سیاست‌های استفاده ما مطابقت دارد.

ما با سیاستگذاران، مربیان و هنرمندان در سراسر جهان تعامل خواهیم داشت تا نگرانی‌های آن‌ها را درک کرده و موارد مثبت استفاده از این فناوری جدید را شناسایی کنیم. با وجود تحقیقات و آزمایش‌های گسترده، نمی‌توانیم همه روش‌های مفیدی که مردم از فناوری ما استفاده می‌کنند و نه همه راه‌هایی که از آن سوءاستفاده می‌کنند را پیش‌بینی کنیم. به همین دلیل ما باور داریم که یادگیری از کاربردهای دنیای واقعی یک بخش اساسی در ایجاد و عرضه سیستم‌های هوش مصنوعی به طور فزاینده‌ای ایمن در طول زمان است.

Research techniques

سورا یک مدل انتشار است که با شروع از ویدیویی که شبیه نویز ایستا به نظر می‌رسد، ویدیو تولید می‌کند و به تدریج با حذف نویز در طول مراحل مختلف آن را تبدیل می‌کند.

Sora می‌تواند ویدیوهای کامل را به‌طور یکجا تولید کند یا ویدیوهای تولیدشده را برای طولانی‌تر شدن گسترش دهد. با دادن پیش‌بینی به مدل از چندین فریم به‌طور همزمان، ما یک مشکل چالش‌برانگیز را حل کرده‌ایم که اطمینان حاصل کنیم یک سوژه حتی زمانی که به‌طور موقت از دید خارج می‌شود، ثابت می‌ماند.

مشابه مدل‌های GPT، Sora از معماری ترانسفورماتور استفاده می‌کند و قفل‌گشایی عملکرد مقیاس‌پذیری برتر را ممکن می‌سازد.

ما ویدیوها و تصاویر را به‌عنوان مجموعه‌ای از واحدهای داده کوچکتر به نام وصله‌ها نشان می‌دهیم که هر کدام شبیه به یک توکن در GPT هستند. با یکپارچه‌سازی نحوه نمایش داده‌ها، می‌توانیم ترانسفورمرهای انتشار را بر روی دامنه وسیع‌تری از داده‌های بصری نسبت به قبل آموزش دهیم که شامل طول مدت‌ها، وضوح‌ها و نسبت‌های ابعاد مختلف می‌شود.

Sora بر پایه تحقیقات گذشته در مدل‌های DALL·E و GPT ساخته شده است. از تکنیک زیرنویسی مجدد DALL·E 3 استفاده می‌کند که شامل تولید زیرنویس‌های بسیار توصیفی برای داده‌های آموزشی بصری است. در نتیجه، مدل می‌تواند دستورالعمل‌های متنی کاربر را در ویدیوی تولید شده با دقت بیشتری دنبال کند.

این مدل علاوه بر اینکه می‌تواند صرفاً از دستورالعمل‌های متنی، ویدیو تولید کند، قادر است یک تصویر ثابت موجود را گرفته و از آن ویدیویی تولید کند و محتوای تصویر را با دقت و توجه به جزئیات کوچک، متحرک‌سازی کند. این مدل همچنین می‌تواند یک ویدیوی موجود را بگیرد و آن را گسترش دهد یا فریم‌های از دست رفته را پر کند. در گزارش فنی ما بیشتر یاد بگیر.

Sora به عنوان پایه‌ای برای مدل‌هایی عمل می‌کند که قادر به درک و شبیه‌سازی دنیای واقعی هستند، قابلیتی که ما معتقدیم نقطه عطف مهمی برای دستیابی به AGI خواهد بود.

در حال بارگذاری...