Преминаване към основното съдържание
OpenAI

Всички видеоклипове на тази страница са генерирани директно от Sora без промени.

Зареждане…

Ние провеждаме обучение на изкуствения интелект да разбира и симулира физическия свят в движение, с цел обучение на модели, които помагат на хората да решават проблеми, изискващи взаимодействие в реалния свят.

Представяме Ви Sora, нашия модел за преобразуване на текст във видео. Sora може да генерира видеоклипове с продължителност до минута, като същевременно поддържа визуалното качество и спазва подкана на потребителя.

Днес Sora става достъпна за екипите по сигурността, за да оценят критичните области за вреди или рискове. Ние също така предоставяме достъп на редица визуални артисти, дизайнери и режисьори, за да получим обратна връзка относно това как да подобрим модела, за да бъде най-полезен за творческите професионалисти.

Споделяме напредъка си в научните изследвания рано, за да започнем да работим и да получаваме обратна връзка от хора извън OpenAI и да дадем на обществеността представа какви възможности на изкуствения интелект се очакват.

Sora е в състояние да осъществява генериране на сложни сцени с множество герои, специфични видове движение и точни детайли на обекта и фона. Моделът разбира не само какво е поискал потребителят в подканата, но и как тези неща съществуват във физическия свят.

Моделът има дълбоко разбиране на езика, което му позволява точно да интерпретира подкани и да генерира завладяващи герои, които изразяват ярки емоции. Sora може също да създаде множество кадри в рамките на едно генерирано видео, които точно запазват героите и визуалния стил.

Настоящият модел все още има възможност за подобрение. Той може да се затруднява да симулира физиката на сложна сцена и може да не разбира конкретни случаи на причина и следствие (например: бисквитка може да няма следа, след като герой я отхапе). Моделът може също така да обърка пространствени детайли, включени в подкана, като например разграничаване на ляво от дясно, или да има затруднения с точни описания на събития, които се развиват с течение на времето, като специфични траектории на камерата.

Безопасност

Ще предприемем няколко важни стъпки за безопасност, преди да направим Sora достъпна в продуктите на OpenAI. Работим с експерти по сигурността — експерти в области като дезинформация, съдържание, изпълнено с омраза, и предразсъдъци— които ще тестват модела по противоречив начин.

Също така изграждаме инструменти, които да помагат за откриването на подвеждащо съдържание, като класификатор, който може да определи кога видеоклип е генериран от Sora. Планираме да включим C2PA метаданни(отваря се в нов прозорец) в бъдеще, ако внедрим модела в продукт на OpenAI.

В допълнение към разработването на нови техники за подготовка за внедряване, ние използваме съществуващите методи за безопасност(отваря се в нов прозорец), които създадохме за нашите продукти, използващи DALL·E 3, които са приложими и за Sora.

Например, когато е вграден в продукт на OpenAI, нашият текстов класификатор ще проверява и отхвърля текстови подкани за въвеждане, които нарушават нашите политики за използване, като тези, които изискват екстремно насилие, сексуално съдържание, изображения, подбуждащи омраза, подобие на знаменитости или интелектуална собственост на други лица. Също така разработихме надеждни класификатори на изображения, които се използват за преглед на кадрите на всеки генериран видеоклип, за да се гарантира, че той отговаря на нашите политики за използване, преди да бъде показан на потребителя.

Ще ангажираме политици, преподаватели и творци по целия свят, за да разберем техните притеснения и да идентифицираме положителни случаи на употреба на тази нова технология. Въпреки обширните изследвания и тестове, не можем да предвидим всички полезни начини, по които хората ще използват нашата технология, нито всички начини, по които хората ще злоупотребяват с нея. Затова вярваме, че обучението от реалната употреба е важен компонент за създаването и въвеждането на все по-безопасни системи с изкуствен интелект с течение на времето.

Research techniques

Sora е дифузионен модел, който генерира видео, като започва с такова, което изглежда като статичен шум и постепенно го трансформира, премахвайки шума в много стъпки.

Sora е способна на генериране на цели видеоклипове наведнъж или да удължава вече генерирани видеоклипове, за да ги направи по-дълги. Като предоставихме на модела възможност да предвижда много кадри наведнъж, решихме предизвикателния проблем да гарантираме, че обектът остава същият, дори когато временно излиза от полезрението.

Подобно на моделите GPT, Sora използва трансформираща архитектура, която осигурява превъзходна производителност при мащабиране.

Представяме видеоклиповете и изображенията като колекции от по-малки единици данни, наречени пачове, всеки от които е подобен на токен в GPT. Чрез унифициране на начина, по който представяме данните, можем да обучаваме дифузионни трансформатори на по-широк спектър от визуални данни, отколкото беше възможно преди, обхващайки различни продължителности, резолюции и съотношения на страните.

Sora надгражда върху предишни изследвания в моделите DALL·E и GPT. Той използва техниката за повторно надписване от DALL·E 3, която включва генериране на силно описателни надписи за визуалните данни за обучение. В резултат на това моделът е в състояние да следва текстовите инструкции на потребителя в генерираното видео по-вярно.

Освен че може да генерира видео единствено от текстови инструкции, моделът е в състояние да вземе съществуващо неподвижно изображение и да генерира видео от него, анимирайки съдържанието на изображението с точност и внимание към малките детайли. Моделът може също така да вземе съществуващо видео и да го удължи или да попълни липсващи кадри. Научете повече в нашия технически доклад.

Sora служи като основа за модели, които могат да разбират и симулират реалния свят, способност, която вярваме, че ще бъде важен етап за постигане на изкуствения общ интелект (AGI).

Зареждане...