Перейти до основного вмісту
OpenAI

Усі відео на цій сторінці були безпосередньо згенеровані Sora: до них не було внесено жодних змін.

Завантаження…

Ми навчаємо штучний інтелект розуміти та моделювати фізичний світ у русі, з метою навчання моделей, які допомагають людям вирішувати проблеми, що вимагають взаємодії з реальним світом.

Представляємо Sora, нашу модель перетворення тексту на відео. Sora може створювати відео тривалістю до хвилини, зберігаючи візуальну якість та дотримуючись запиту користувача.

Сьогодні ми робимо Sora доступною для «червоних команд», які здатні оцінити критичні області на предмет шкоди чи ризиків. Ми також надаємо доступ низці художників, дизайнерів та режисерів, щоб отримати відгуки про те, як удосконалити модель, щоб вона була найбільш корисною для творчих професіоналів.

Ми ділимося нашим прогресом у дослідженнях на ранніх етапах, щоб почати співпрацювати з людьми поза OpenAI та отримувати відгуки від них, а також дати громадськості уявлення про те, які можливості штучного інтелекту з'являться в майбутньому.

Sora здатна створити складні сцени з кількома персонажами, певними типами рухів та точними деталями об'єкта й фону. Модель розуміє не лише те, про що користувач попросив у запиті, але й те, як ці речі існують у реальному світі.

Модель має глибоке розуміння мови, що дозволяє їй точно інтерпретувати запити та створювати переконливих персонажів, які виражають яскраві емоції. Sora також може створити кілька кадрів в одному створеному відео, які точно зберігають персонажів та візуальний стиль.

Поточна модель все ще має потенціал для вдосконалення. Можливо, їй буде важко імітувати фізику складної сцени, і вона може не розуміти конкретних випадків причинно-наслідкових зв'язків (наприклад: на печиві може не лишатися сліду після того, як персонаж його вкусить). Модель також може плутати просторові деталі, включені в запит — наприклад, не розрізняти ліво й право, або мати труднощі з точними описами подій, що розгортаються з часом — наприклад, конкретні траєкторії камери.

Безпека

Перед тим, як зробити Sora доступною в продуктах OpenAI, ми плануємо вжити кілька важливих заходів безпеки. Ми працюємо з «червоними командами» — фахівцями з кібербезпеки, експертами в таких сферах, як дезінформація, контент, направлений на розпалювання ворожнечі та упередженість, — які будуть у змагальному режимі проводити тестування моделі.

Крім того, ми створюємо інструменти для виявлення вмісту, що вводить в оману — наприклад, класифікатор, який може визначити, коли відео було згенеровано Sora. Ми плануємо включити метадані C2PA(відкривається у новому вікні) в майбутньому, якщо ми розгорнемо модель у продукті OpenAI.

На додачу до розробки нових методів підготовки до розгортання, ми використовуємо існуючі методи безпеки(відкривається у новому вікні), які ми створили для наших продуктів, що використовують DALL·E 3, і які також застосовуються до Sora.

Наприклад, у продукті OpenAI наш класифікатор тексту перевірятиме та відхилятиме запити, які порушують наші правила використання: наприклад, ті, що містять заклики до надмірного насильства, натяки на сексуальний контент, образи ненависті, схожість із знаменитостями або інтелектуальну власність інших. Ми також розробили надійні класифікатори зображень, які використовуються для перегляду кадрів кожного створеного відео, щоб переконатися, що воно відповідає нашим правилам використання, перш ніж його буде показано користувачеві.

Ми будемо залучати політиків, педагогів та митців у всьому світі, щоб зрозуміти їхнє занепокоєння та визначити позитивні приклади використання цієї нової технології. Незважаючи на масштабні дослідження та тестування, ми не можемо передбачити всі корисні способи використання нашої технології, як і способи, якими люди зловживатимуть нею. Саме тому ми вважаємо, що навчання в умовах реального використання є критично важливим компонентом створення й випуску дедалі безпечніших систем ШІ з часом.

Research techniques

Sora — це дифузійна модель, яка генерує відео, починаючи з того, що виглядає як статичний шум, і поступово трансформує його, вилучаючи шум протягом багатьох етапів.

Sora здатна створювати цілі відео одразу або подовжувати вже створені відео, щоб вони були довшими. Надавши моделі можливість передбачати багато кадрів одночасно, ми вирішили складну проблему, яка полягає в тому, щоб об'єкт залишався незмінним, навіть коли він тимчасово виходить з поля зору.

Подібно до моделей GPT, Sora використовує архітектуру трансформерів, що забезпечує чудову продуктивність масштабування.

Ми представляємо відео та зображення як колекції менших одиниць даних, які називаються патчами, кожен з яких подібний до токенів у GPT. Об'єднуючи спосіб представлення даних, ми можемо навчати дифузійні трансформатори на ширшому діапазоні візуальних даних, ніж це було можливо раніше, охоплюючи різні тривалості, роздільні здатності та співвідношення сторін.

Sora базується на попередніх дослідженнях моделей DALL·E та GPT. Вона використовує техніку повторної генерації з DALL·E 3, яка передбачає створення максимально деталізованих описів для візуальних навчальних даних. У результаті модель здатна більш точно слідувати текстовим інструкціям користувача у створеному відео.

Окрім можливості створити відео виключно за текстовими інструкціями, модель здатна взяти існуюче нерухоме зображення та створити з нього відео, анімуючи вміст зображення з точністю та увагою до дрібних деталей. Модель також може взяти існуюче відео та розширити його або додати відсутні кадри. Докладніше див. у нашому технічному звіті.

Sora служить основою для моделей, які здатні розуміти та імітувати реальний світ, що, на нашу думку, стане важливим етапом для досягнення AGI.

Завантаження...