Прескокни до главната содржина
OpenAI

Сите видеа на оваа страница беа генерирани директно од Sora без измени.

Се вчитува...

Ние ја учиме вештачката интелигенција да го разбере и симулира физичкиот свет во движење, со цел да извршиме обука на модели кои им помагаат на луѓето да решаваат проблеми што бараат интеракција во реалниот свет.

Ја претставуваме Sora, нашиот модел за претворање текст во видео. Sora може да генерира видеа до една минута, додека го одржува визуелниот квалитет и се придржува до промптот на корисникот.

Денес, Sora станува достапна за red teamers за да ги проценат критичните области за штети или ризици. Исто така, даваме пристап до голем број визуелни уметници, дизајнери и режисери за да добијат повратни информации за тоа како да го унапредат моделот за да биде најкорисен за креативните професионалци.

Го споделуваме рано нашиот напредок во истражувањето за да започнеме соработка и да добиеме повратни информации од луѓе надвор од OpenAI и да ѝ дадеме на јавноста чувство за тоа какви се способности на вештачката интелигенција на хоризонтот.

Sora може да генерира сложени сцени со повеќе знаци, специфични типови на движење и прецизни детали за субјектот и задината. Моделот не го разбира само тоа што корисникот го побарал во промптот, туку и како тие работи постојат во физичкиот свет.

Моделот има длабоко разбирање на јазикот, овозможувајќи му прецизно да ги интерпретира промптите и да генерира убедливи знаци кои изразуваат живи емоции. Sora, исто така, може да креира повеќе снимки во рамките на едно генерирано видео кои точно ги задржуваат знаците и визуелниот стил.

Сегашниот модел сè уште има простор за подобрување. Може да има потешкотии да ја симулира физиката на сложена сцена и можеби нема да разбере специфични случаи на причина и последица (на пример: на колачето можеби нема да покаже трага откако ликот ќе го касне). Моделот може да ги збуни просторните детали вклучени во промптот, како што е разликување на лево од десно, или да има потешкотии со прецизни описи на настани што се одвиваат со текот на времето, како специфични траектории на камерата.

Безбедност

Ќе преземеме неколку важни безбедносни чекори пред да го направиме Sora достапен во производите на OpenAI. Ние работиме со red teamers – доменски експерти во области како дезинформации, содржини полни со омраза и пристрасност – кои ќе го тестираат моделот на контрадикторен начин.

Исто така, развиваме алатки за откривање на погрешна содржина, како што е класификатор што може да препознае кога е генерирано некое видео од Sora. Планираме да вклучиме C2PA метаподатоци(се отвора во нов прозорец) во иднина ако го воведеме моделот во производ на OpenAI.

Покрај тоа што развиваме нови техники за подготовка за воведување, ги користиме постојните безбедносни методи(се отвора во нов прозорец) што ги изградивме за нашите производи кои користат DALL·E 3, кои се применливи и за Sora.

На пример, еднаш во производ на OpenAI, нашиот класификатор на текст ќе ги провери и отфрли промптите за внесување што ги прекршуваат нашите политики на користење, како оние што бараат екстремно насилство, сексуална содржина, омразни слики, сличности на познати личности или интелектуална сопственост на други. Исто така, развивме робусни класификатори на слики кои се користат за преглед на кадрите од секое генерирано видео за да се осигури дека се придржува до нашите политики на користење, пред да му се прикаже на корисникот.

Ќе ги ангажираме креаторите на политики, едукаторите и уметниците ширум светот за да ги разбереме нивните грижи и да идентификуваме позитивни примери за употреба на оваа нова технологија. И покрај обемните истражувања и тестирања, не можеме да ги предвидиме сите корисни начини на кои луѓето ќе ја користат нашата технологија, ниту сите начини на кои луѓето ќе ја злоупотребат. Затоа веруваме дека учењето од користењето во реалниот свет е критична компонента за креирање и ослободување на сѐ побезбедни системи за вештачка интелигенција со текот на времето.

Research techniques

Sora е дифузиски модел кој генерира видео започнувајќи со едно што изгледа како статичен шум и постепено го трансформира со отстранување на шумот во многу чекори.

Sora може да генерира цели видеа одеднаш или да ги продолжи генерираните видеа за да бидат подолги. Со тоа што му дадовме на моделот можност да предвиди многу рамки одеднаш, решивме тежок проблем да се осигураме дека предметот останува ист дури и кога привремено излегува од вид.

Слично на GPT моделите, Sora користи трансформаторска архитектура, овозможувајќи супериорни перформанси при скалирање.

Ги претставуваме видеата и сликите како збирки од помали единици на податоци наречени patches, од кои секоја е слична на token во GPT. Со обединување на начинот на кој ги претставуваме податоците, можеме да обучиме дифузиски трансформатори на поширок опсег на визуелни податоци отколку што беше можно порано, опфаќајќи различни времетраења, резолуции и соодноси на аспект.

Sora се базира на претходни истражувања во моделите DALL·E и GPT. Ја користи техниката на повторно натпишување од DALL·E 3, која вклучува генерирање на високо описни натписи за визуелните податоци за обука. Како резултат, моделот може да ги следи текстуалните инструкции на корисникот во генерираното видео со поголема точност.

Покрај тоа што може да генерира видео само од текстуални инструкции, моделот може да земе постоечка слика и да генерира видео од неа, анимирајќи ја содржината на сликата со прецизност и внимание на мали детали. Моделот може исто така да земе постоечко видео и да го прошири или да ги пополни недостасувачките рамки. Дознај повеќе во нашиот технички извештај.

Sora служи како основа за модели што можат да го разберат и симулираат реалниот свет, способност за која веруваме дека ќе биде важна пресвртница за постигнување на вештачка општа интелигенција (AGI).

Се вчитува...