Переход к основному контенту
OpenAI

Все видео на этой странице были сформированы непосредственно Sora без изменений.

Загрузка…

Мы обучаем ИИ понимать и моделировать физический мир в движении, чтобы создавать модели, которые помогают людям решать задачи, требующие взаимодействия с реальностью.

Представляем Sora, нашу модель преобразования текста в видео. Sora может формировать видео продолжительностью до одной минуты, сохраняя при этом визуальное качество и следуя промпту пользователя.

Сегодня Sora становится доступной для сотрудников «красных команд» для оценки критических зон на предмет ущерба или рисков. Мы также предоставляем доступ ряду визуальных художников, дизайнеров и кинематографистов, чтобы получить отзывы о том, как усовершенствовать модель, чтобы она была наиболее полезной для творческих специалистов.

Мы заранее делимся результатами наших исследований, чтобы начать сотрудничество и получить отзывы от людей за пределами OpenAI, а также дать общественности представление о том, какие возможности ИИ ожидаются в будущем.

Sora способна формировать сложные сцены с несколькими символами, определенными типами движения и точными деталями объекта и фона. Модель понимает не только то, что пользователь запросил в промпте, но и как эти вещи существуют в физическом мире.

Модель обладает глубоким пониманием языка, что позволяет ей точно интерпретировать промпт и создавать выразительных персонажей, передающих яркие эмоции. Sora также может создать несколько кадров в рамках одного сгенерированного видео, в которых точно сохраняются символы и визуальный стиль.

Текущая модель еще требует усовершенствования. Ей может быть трудно смоделировать физику сложной сцены, и она может не понять конкретные случаи причинно-следственных связей (например: на печенье может не остаться следа после того, как персонаж надкусит его). Модель также может путать пространственные детали, включенные в промпт, такие как различение левого и правого, или испытывать трудности с точными описаниями событий, которые разворачиваются во времени, например, с конкретными траекториями движения камеры.

Безопасность

Мы предпримем несколько важных шагов по обеспечению безопасности, прежде чем сделать Sora доступной в продуктах OpenAI. Мы работаем с «красными командами» — экспертами в таких доменах, как дезинформация, разжигающий ненависть контент и предвзятость, — которые будут тестировать модель в неблагоприятных условиях.

Мы также разрабатываем инструменты для обнаружения вводящего в заблуждение контента, такие как классификатор, который может определить, когда видео было сформировано с помощью Sora. Мы планируем включить метаданные C2PA(открывается в новом окне) в будущем, если развернем модель в продукте OpenAI.

Помимо разработки новых методов подготовки к развертыванию, мы используем существующие методы обеспечения безопасности(открывается в новом окне), которые мы создали для наших продуктов, использующих DALL·E 3, и которые применимы также к Sora.

Например, когда модель используется в продукте OpenAI, наш текстовый классификатор будет проверять и отклонять вводимые текстовые промпты, которые нарушают наши политики использования — например, промпты с запросами на экстремальное насилие, сексуальный контент, контент разжигающего ненависть характера, использование внешности знаменитостей или объектов интеллектуальной собственности других лиц. Мы также разработали надежные классификаторы изображений, которые используются для проверки кадров каждого сформированного видео, чтобы убедиться, что оно соответствует нашей политике использования, прежде чем его покажут пользователю.

Мы будем взаимодействовать с политиками, педагогами и художниками по всему миру, чтобы понять их проблемы и выявить положительные примеры использования этой новой технологии. Несмотря на обширные исследования и испытания, мы не можем предсказать все полезные способы, которыми люди будут использовать нашу технологию, равно как и все способы, которыми они будут злоупотреблять ею. Именно поэтому мы считаем, что обучение на реальных примерах использования является критически важным компонентом создания и выпуска все более безопасных ИИ-систем со временем.

Research techniques

Sora — это диффузионная модель, которая формирует видео, начиная с того, которое похоже на статический шум, и постепенно преобразует его, удаляя шум на протяжении многих шагов.

Sora может формировать сразу целые видеоролики или удлинять уже готовые, чтобы сделать их длиннее. Предоставив модели возможность предвидеть множество кадров одновременно, мы решили сложную задачу: обеспечение того, чтобы объект оставался неизменным, даже если он временно выходит из поля зрения.

Подобно моделям GPT, Sora использует архитектуру трансформера, обеспечивая превосходную производительность при масштабировании.

Мы представляем видео и изображения как наборы меньших единиц данных, называемых патчами, каждая из которых подобна токену в GPT Унифицировав способ представления данных, мы можем обучать диффузионные трансформеры на гораздо более широком диапазоне визуальных данных, чем раньше — охватывающем разные длительности, разрешения и соотношения сторон.

Sora опирается на предыдущие исследования в моделях DALL·E и GPT. В ней используется техника перегенерации подписей из DALL·E 3 — подход, при котором для визуальных обучающих данных создаются очень детализированные подписи. В результате модель может более точно следовать текстовым инструкциям пользователя в сгенерированном видео.

Помимо возможности формировать видео исключительно по текстовым инструкциям, модель может взять существующее статичное изображение и создать на его основе видео, анимируя содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео, расширить его или заполнить отсутствующие кадры. Узнайте больше в нашем техническом отчёте.

Sora служит основой для моделей, которые могут понимать и моделировать реальный мир, что, по нашему мнению, станет важной вехой на пути к достижению AGI.

Загрузка...