از تاریخ ۲۶ آوریل ۲۰۲۶، محصول Sora دیگر در دسترس نیست.
امروز ما Sora 2 را عرضه می کنیم، مدل پرچمدار تولید ویدئو و صوتی ما.
مدل اصلی Sora از فوریه 2024 از بسیاری جهات نقطه عطف GPT‑1 برای تولید ویدئو بود - اولین بار که تولید ویدئو شروع کرد به اینکه واقعاً کارآمد به نظر برسد و رفتارهای ساده مانند پایداری شیء از افزایش محاسبات پیشآموزشی به وجود آمد. از آن زمان، تیم Sora بر روی آموزش مدلهایی با قابلیتهای پیشرفتهتر شبیهسازی دنیا متمرکز شده است. باور داریم که این سیستمها برای آموزش مدلهای AI که بهطور عمیق دنیای فیزیکی را درک میکنند، بسیار مهم خواهند بود. یک نقطه عطف مهم در این زمینه، تسلط بر پیشتمرین و پسآموزش درباره دادههای ویدیویی در مقیاس بزرگ است که در مقایسه با زبان در مراحل ابتدایی هستند.
Prompt: figure skater performs a triple axle with a cat on her head
با Sora 2، ما مستقیماً به لحظهای میپریم که فکر میکنیم ممکن است لحظه GPT‑3.5 برای ویدئو باشد. Sora 2 میتواند کارهایی انجام دهد که برای مدلهای قبلی تولید ویدئو بسیار دشوار و در برخی موارد کاملاً غیرممکن است: حرکات ژیمناستیک المپیک، پشتک زدن روی تخته پارویی که بهطور دقیق دینامیک شناوری و سختی را مدلسازی میکند، و محورهای سهگانه در حالی که گربه برای نجات زندگیاش چنگ میزند.
Prompt: a guy does a backflip
مدلهای ویدئویی قبلی بیش از حد خوشبین هستند - آنها اشیاء را تغییر شکل میدهند و واقعیت را تحریف میکنند تا یک درخواست متنی را با موفقیت اجرا کنند. برای مثال، اگر یک بازیکن بسکتبال یک شوت را خراب کند، ممکن است توپ به طور خودکار وارد سبد شود. در Sora ۲، اگر بازیکن بسکتبال یک شوت را خراب کند، توپ از تخته پشتی برخواهد گشت. جالب اینجاست که «اشتباهاتی» که مدل مرتکب میشود، اغلب به نظر میرسد اشتباهات عامل داخلی باشند که Sora ۲ به طور ضمنی مدلسازی میکند؛ اگرچه هنوز ناقص است، در مقایسه با سیستمهای قبلی، قوانین فیزیک را بهتر رعایت میکند. این قابلیت بسیار مهمی برای هر شبیه ساز جهانی مفید است—شما باید نه فقط موفقیت، بلکه شکست را مدلسازی کنید.
این مدل همچنین یک جهش بزرگ به جلو در قابلیت کنترل است که میتواند دستورالعملهای پیچیدهای را دنبال کند که چندین مرحله را در بر میگیرد و در عین حال وضعیت جهانی را بهطور دقیق حفظ کند. در سبکهای واقعگرایانه، سینمایی و انیمه عالی عمل میکند.
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
به عنوان یک سیستم تولید ویدئویی-صوتی چندمنظوره، میتواند مناظر صوتی پسزمینه پیچیده، گفتار و جلوههای صوتی با درجه بالای واقعگرایی تولید کند.
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
همچنین می توانید به طور مستقیم عناصری از دنیای واقعی را به Sora 2 تزریق کنید. به عنوان مثال، با مشاهده ویدیویی از یکی از هم تیمی های ما، مدل می تواند آنها را در هر محیط تولید شده توسط Sora با تصویر دقیقی از ظاهر و دستیار صوتی وارد کند. این قابلیت بسیار عمومی است و برای هر انسان، حیوان یا شیئ کار میکند.
Prompt: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
این مدل کامل نیست و اشتباهات زیادی دارد، اما تأییدی بر این است که با گسترش بیشتر شبکههای عصبی بر روی دادههای ویدئویی، به شبیهسازی واقعیت نزدیکتر میشویم.
در مسیر توسعه شبیهسازیهای عمومی و سیستمهای هوش مصنوعی که قادر به عملکرد در دنیای فیزیکی هستند، فکر میکنیم افراد میتوانند با مدلهایی که در این مسیر میسازیم، حسابی سرگرم شوند.
چند ماه پیش برای اولین بار در تیم Sora شروع به استفاده از ویژگی «خودتان آپلود کنید» کردیم و همه از آن لذت بردیم. به نوعی مانند تکامل طبیعی ارتباطات به نظر میرسید - از پیامهای متنی گرفته تا ایموجیها تا دستیارهای صوتی به این.
بنابراین امروز، یک اپلیکیشن اجتماعی جدید iOS به نام «Sora» را که توسط Sora 2 پشتیبانی میشود، راهاندازی میکنیم. در این اپلیکیشن، میتوانید محتوا ایجاد کنید، خروجیهای تولیدی یکدیگر را بازترکیب کنید، ویدیوهای جدید را در فید قابل تنظیم Sora کشف کنید و خودتان یا دوستانتان را از طریق قابلیتی به نام «کاراکترها» اضافه کنید. با کاراکترها، میتوانید پس از یک ضبط کوتاه و یکبارهٔ ویدیویی و صوتی در برنامه برای تأیید هویت و ثبت شباهت ظاهریتان، خودتان را با دقتی چشمگیر مستقیماً وارد هر صحنهای از Sora کنید.
هفته گذشته، این اپلیکیشن را به صورت داخلی برای همهی اعضای OpenAI عرضه کردیم. قبلاً از همکارانمان شنیدهایم که به خاطر این ویژگی در شرکت دوستان جدیدی پیدا میکنند. ما فکر میکنیم یک اپلیکیشن اجتماعی که حول ویژگی «کاراکترها» ساخته شده باشد، بهترین راه برای تجربه جادوی Sora 2 است.
نگرانیها درباره پیمایش آخرالزمانی، اعتیاد، انزوا و فیدهای RL-sloptimized از اولویتهای اصلی ما هستند - در اینجا کاری که در مورد آن انجام میدهیم آمده است.
ما به کاربران ابزارها و اختیاراتی میدهیم تا بتوانند آنچه را که در فید میبینند، کنترل کنند. با استفاده از مدلهای زبانی بزرگ موجود OpenAI، یک کلاس جدید از الگوریتمهای توصیهگر ایجاد کردهایم که میتوانند از طریق زبان طبیعی هدایت شوند. همچنین مکانیسمهای داخلی داریم که به صورت دورهای از کاربران درباره سلامتیشان نظرسنجی میکند و بهطور فعال به آنها گزینهای برای تنظیم خوراکشان میدهد.
به طور پیش فرض، محتوایی را به شما نشان می دهیم که به شدت نسبت به افرادی که دنبال می کنید یا با آنها تعامل دارید مغرضانه است و ویدیوهایی را که مدل فکر می کند به احتمال زیاد به عنوان الهام بخش برای خلاقیت هایتان استفاده می کنید، اولویت بندی می کنیم. ما زمان صرف شده در فید را بهینه نمیکنیم و برنامه را بهطور صریح طوری طراحی کردهایم که تولید محتوا را به حداکثر برساند،نه مصرف آن را. جزئیات بیشتر را میتوانید در فلسفه فیدما مشاهده کنید
این برنامه برای استفاده همراه با دوستان شما ساخته شده است. بازخورد گسترده از آزمایشکنندگان این است که کاراکترها همان چیزی هستند که استفاده از آن را متفاوت و سرگرمکننده میکند—باید آن را امتحان کنید تا واقعاً متوجه شوید، ولی این روشی جدید و منحصربهفرد برای ارتباط با دیگران است. ما این برنامه را به عنوان یک برنامه مبتنی بر دعوت به بازار عرضه می کنیم تا اطمینان حاصل کنیم که شما با دوستانتان وارد می شوید. در زمانی که همهٔ پلتفرمهای اصلی از نمودار اجتماعی فاصله میگیرند، فکر میکنیم کاراکترها باعث تقویت جامعه خواهند شد.
محافظت از سلامت نوجوانان برای ما مهم است. ما محدودیتهای پیشفرضی را برای تعداد نسلهایی که نوجوانان میتوانند در روز در فید مشاهده کنند، اعمال میکنیم و همچنین مجوزهای سختگیرانهتری را برای کاراکترها در این گروه اعمال خواهیم کرد. علاوه بر پشته های ایمنی خودکار، در حال افزایش تیم های ناظران انسانی هستیم تا در صورت بروز موارد زورگویی به سرعت رسیدگی کنند. ما با Sora کنترلهای والدین را از طریق ChatGPT راهاندازی میکنیم تا والدین بتوانند محدودیتهای حرکت بینهایت را لغو کنند، شخصیسازی الگوریتم را خاموش کنند و نیز تنظیمات پیام مستقیم را مدیریت کنند.
با کاراکترها، شما کنترل ظاهر خود را از ابتدا تا انتها با Sora در دست دارید. فقط شما تصمیم میگیرید چه کسی میتواند از کاراکتر شما استفاده کند، و میتوانید در هر زمان دسترسی را لغو کنید یا هر ویدیویی را که شامل آن است حذف کنید. ویدیوهایی که حاوی کاراکتری از شما هستند، از جمله پیشنویسهایی که توسط افراد دیگر ایجاد شدهاند، در هر زمان برای شما قابل مشاهده خواهند بود.
موضوعات ایمنی زیادی وجود دارد که با این برنامه به آنها پرداخته ایم - رضایت در مورد استفاده از تصویر، زادگاه، جلوگیری از تولید محتوای مضر و موارد دیگر. برای جزئیات بیشتر به اسناد ایمنی Sora 2 ما مراجعه کنید.
بسیاری از مشکلات مربوط به سایر برنامه ها ناشی از مدل کسب درآمد است که تصمیماتی را توصیه می کند که با رفاه کاربر در تضاد هستند. به طور شفاف، تنها برنامه فعلی ما این است که در نهایت به کاربران این امکان را بدهیم که مبلغی را برای تولید یک ویدیوی اضافی پرداخت کنند، البته اگر تقاضا نسبت به محاسبات موجود بیش از حد باشد. همانطور که برنامه تکمیل میشود، ما آشکارا هرگونه تغییر در رویکردمان را در اینجا اعلام خواهیم کرد، در حالی که همچنان رفاه کاربر را به عنوان هدف اصلی خود نگه میداریم.
ما در ابتدای این سفر هستیم، اما با تمام روشهای قدرتمند برای ایجاد و بازترکیب محتوا با Sora 2، این را آغاز یک عصر کاملاً جدید برای تجربیات همآفرینی میبینیم. امیدواریم این پلتفرم سالمتری برای سرگرمی و خلاقیت نسبت به آنچه در حال حاضر موجود است، باشد. امیدواریم اوقات خوبی داشته باشید:)
برنامه iOS Sora(در یک پنجره جدید باز میشود) اکنون برای دانلود در دسترس است. هنگامی که دسترسی برای حساب شما باز می شود، می توانید در برنامه برای یک اعلان فشاری ثبت نام کنید. ما امروز عرضه اولیه را در ایالات متحده و کانادا شروع میکنیم و قصد داریم به سرعت آن را به کشورهای دیگر گسترش دهیم. بعد از دریافت دعوتنامه، میتوانید از طریق sora.com(در یک پنجره جدید باز میشود) به Sora 2 دسترسی پیدا کنید. Sora 2 در ابتدا به صورت رایگان در دسترس خواهد بود و محدودیت های سخاوتمندانه برای شروع به کار است تا افراد بتوانند آزادانه توانایی های آن را کشف کنند، اگرچه این قابلیت ها هنوز تحت محدودیت های محاسباتی قرار دارند. کاربران ChatGPT Pro همچنین میتوانند از مدل آزمایشی و با کیفیت بالاتر Sora 2 Pro ما در sora.com(در یک پنجره جدید باز میشود) (و به زودی در برنامه Sora نیز) استفاده کنند. ما همچنین قصد داریم Sora 2 را در API عرضه کنیم. Sora 1 Turbo همچنان در دسترس خواهد بود و هر چیزی که ایجاد کردهاید همچنان در کتابخانه sora.com(در یک پنجره جدید باز میشود) شما موجود خواهد بود.
مدلهای ویدئویی به سرعت در حال پیشرفت هستند. شبیهسازهای جهانی چندمنظوره و عاملهای رباتیک بهطور بنیادین جامعه را دگرگون کرده و روند پیشرفت انسان را تسریع خواهند کرد. Sora 2 نشاندهنده پیشرفت چشمگیر به سوی آن هدف است. در راستای مأموریت OpenAI، مهم است که بشریت از این مدلها در حالی که توسعه مییابند، بهرهمند گردد. ما فکر میکنیم Sora شادی، خلاقیت و ارتباط زیادی به دنیا ارائه خواهد کرد.
— نوشته شده توسط تیم Sora
هدف اصلی و تصاویر
خوانش اول: اژدهایی که از میان صخرههای یخی دندانهدار عبور میکند، گردابهای نوک بالها که برفکها را میروبند؛ خوانش دوم: ورقه شکسته یخچال طبیعی که به یک آبدره کبالتی فرو میریزد، با لبه کهربایی خورشید که برفکهای روی فلسها را میبوسد؛ حالت چهره، آرامش درنده / قدرت بیدردسر را میخواند.
قالب و نگاه
5.0 ثانیه؛ 4K; شاتر 180 درجه؛ شبیه سازی سنسور دیجیتال با فرمت بزرگ با میکرو کنتراست واضح؛ دانه بسیار ریز؛ هاله مهار شده در درخشش برف؛ بدون بافت دروازه.
لنزها و فیلتراسیون
قهرمان: 50 میلی متر کروی روی سکوی هوایی تثبیت شده ژیروسکوپ نصب شده روی بینی (ردیابی موازی با قوس کمی به سمت داخل). فیلتراسیون: Black Pro-Mist 1/8؛ پلاریزر دایره ای نور را برای خاموش کردن تابش برف در عین حفظ زرق و برق چشم انداز تنظیم می کند.
درجه/پالت
نکات برجسته: یخ سفید تمیز با رول آف خنک؛ میانها: یخچال آبی فولادی و هوای فیروزه ای کمرنگ؛ سایه ها: تخته سنگ/مرغابی با جزئیات شکاف حفظ شده؛ لبه کهربای گرم در لبه های اژدها برای جداسازی؛ اسپکولار تنگ در یخ زده/مقیاس.
نورپردازی و اتمسفر
اواخر بعد از ظهر آفتاب پایین متقاطع؛ باد کتاباتیک چرخش لافت. مه منجمد نازک برای عمق؛ گرد و غبار یخ متناوب در پی آن منفجر می شود؛ بخار نفس ضعیف اژدها در هنگام تلاش.
مکان و قاب بندی
میدان سراک برجسته و خط الراس لبه چاقو؛ دوربین همزمان سرعت را در کنار اژدها در ارتفاع میانی دنبال می کند، مورب های یخچال به سمت فیورد بازمی گردند؛ باله های یخی پیش زمینه برای اختلاف منظر از نزدیک عبور می کنند؛ هیچ ساختار انسانی وجود ندارد.
کمد لباس/لوازم جانبی/یادداشت های خودرو
شامل نمیشود (موجود). خوانش سطح: برجستگیهای شاخ مات، صفحات فلس نیمهرنگینکمانی با یخزدگی ریز در امتداد لبههای پیشرو.
صدا
برش باد شدید در ارتفاع بالا، رعد غشای بال در هر ضربه به پایین، تیک/ترک یخ کریستالی از سراکها، بوم دوردست یخچال در حال زایش؛ بازدم سریع/غرش از اژدها: «Rrhh—» (sub-1s). بدون موسیقی—شگفتی ناب درونداستانی.
لیست شاتهای بهینهشده (1 شات / 5.0 ثانیه)
0.0–5.0 — «Parallel Ridge Carve» (50 میلیمتر، نصب هوایی در نوک با قوس کوچک به داخل و میکرو فشار)
ما اژدها را دنبال میکنیم در حالی که از میان راهرویی از برجهای یخی عبور میکند؛ گردابهای نوک بال، برفپراکنی را به روبانهایی تبدیل میکنند؛ یک قطعه جدا شده به پایین میافتد و ابری از پودر ایجاد میکند؛ دوربین نزدیکتر میشود—فلسها خوانده میشوند، لبه کهربا میدرخشد—سپس اژدها به سمت فیورد میچرخد، دمش را قیچیوار حرکت میدهد و سایهای گسترده بر روی یخچال میاندازد.
هدف: ارائه مقیاس اساطیری با واقعگرایی لمسی در یک گذر قاطع—سرعت، جرم و سرمای عنصری.
یادداشتهای دوربین (چرا خوانده میشود)
لنز ۵۰ میلیمتری حضور موجودات و مقیاس منظره را بدون کوچکنمایی متعادل میکند؛ مسیر موازی + قوس داخلی سرعت و فرم را به نمایش میگذارد؛ زمانبندی فشارهای کوچک با قویترین ضربه به پایین برای تأکید قدرت؛ پلاریزر نور درخشش را کنترل میکند و در عین حال زرق و برق را حفظ میکند؛ نور پشت/حاشیه خورشید نیمرخ را شکل میدهد؛ بالههای یخی نزدیک به برخورد نشانههای سرعت اختلاف منظر را فراهم میکنند.
اتمام
دانهبندی بسیار ریز (~۱۵٪)؛ هاله حداقلی در اسپکولارهای برف؛ شبیهسازی ملایم چاپ برای حفظ رنگهای آبی معتبر و سیاههای غنی؛ دینامیک چندبانده برای حفظ صدای ضربه بال بدون پوشاندن صدای برخورد یخ؛ قاب پوستر: اژدها در حال پرواز بر فراز سراک آفتابزده، با جریان برف نرم، و فیوردی که در پسزمینه به رنگ آبی عمیق میدرخشد.
Sora 2
Debbie Mesloh
Caroline Zhao
منتشر شده در ۳۰ سپتامبر MMXXV


