Saltar para o conteúdo principal
OpenAI

A criar vídeo a partir de texto

Todos os vídeos nesta página foram gerados diretamente pelo Sora sem modificação.

A carregar…

Estamos a ensinar a IA a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação com o mundo real.

Apresentamos o Sora, o nosso modelo de conversão de texto para vídeo. O Sora consegue gerar vídeos até um minuto de duração, mantendo a qualidade visual e seguindo o prompt do utilizador.

Hoje, o Sora está disponível para as equipas de red teamers avaliarem áreas críticas em termos de danos ou riscos. Estamos também a conceder acesso a diversos artistas visuais, designers e cineastas para obter feedback sobre como melhorar o modelo, para que seja mais útil para profissionais criativos.

Estamos a partilhar o nosso progresso de investigação antecipadamente para começar a trabalhar e obter feedback de pessoas fora da OpenAI, bem como dar ao público uma ideia das capacidades de IA que estão por vir.

O Sora é capaz de gerar cenas complexas com múltiplas personagens, tipos de movimento específicos e detalhes precisos do objeto e do cenário. O modelo compreende não só o que o utilizador pediu no prompt, mas também como essas coisas existem no mundo físico.

O modelo possui um conhecimento profundo da linguagem, o que lhe permite interpretar os prompts com precisão e gerar personagens cativantes que exprimem emoções vibrantes. O Sora pode também criar várias cenas dentro de um único vídeo gerado, que preservam com precisão as personagens e o estilo visual.

O modelo atual ainda tem margem para melhorias. Pode ter dificuldades em simular a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito (por exemplo: uma bolacha pode não apresentar uma dentada depois de uma personagem a morder). O modelo pode também confundir detalhes espaciais incluídos num prompt, como discernir esquerda e direita, ou ter dificuldades com descrições precisas de eventos que se desenrolam ao longo do tempo, como trajetórias específicas da câmara.

Segurança

Vamos tomar várias medidas de segurança importantes antes de disponibilizar o Sora nos produtos da OpenAI. Estamos a trabalhar com equipas vermelhas — especialistas em domínios como desinformação, conteúdo de ódio e preconceito — que vão testar o modelo com antagonismo.

Estamos também a desenvolver ferramentas para ajudar a detetar conteúdo enganador, como um classificador de deteção que consegue identificar quando um vídeo foi gerado pelo Sora. O nosso plano é incluir metadados C2PA(abre numa nova janela) no futuro se implementarmos o modelo num produto da OpenAI.

Além de desenvolvermos novas técnicas para preparar a implementação, estamos a potenciar os métodos de segurança existentes(abre numa nova janela) que criámos para os nossos produtos que utilizam o DALL·E 3, que também são aplicáveis ao Sora.

Por exemplo, num produto da OpenAI, o nosso classificador de texto verificará e rejeitará prompts de entrada que violem as nossas políticas de utilização, como aqueles que solicitam violência extrema, conteúdo sexual, imagens de ódio, semelhança de celebridades ou a propriedade intelectual de outros. Também desenvolvemos classificadores de imagens robustos que são usados para rever os fotogramas de cada vídeo gerado, para ajudar a garantir que este cumpre as nossas políticas de utilização, antes de ser apresentado ao utilizador.

Vamos envolver decisores políticos, educadores e artistas de todo o mundo para compreender as suas preocupações e identificar casos de utilização positivos para esta nova tecnologia. Apesar de uma extensa investigação e testes, não podemos prever todas as formas benéficas como as pessoas utilizarão a nossa tecnologia, nem todas as formas como abusarão dela. Por isso, acreditamos que aprender com a utilização no mundo real é uma componente essencial para criar e lançar sistemas de IA cada vez mais seguros ao longo do tempo.

Research techniques

O Sora é um modelo de difusão que gera um vídeo a partir de um vídeo que se parece com ruído estático e transforma-o gradualmente, removendo o ruído ao longo de várias etapas.

O Sora é capaz de gerar vídeos inteiros de uma só vez ou prolongar vídeos já gerados para os tornar mais longos. Ao dar ao modelo a previsão de vários fotogramas em simultâneo, resolvemos um problema complexo: garantir que um objeto permanece o mesmo, ainda que saia temporariamente do campo de visão.

Semelhante aos modelos GPT, a Sora utiliza uma arquitetura de transformador, o que permite um desempenho de escalabilidade superior.

Representamos vídeos e imagens como coleções de unidades de dados mais pequenas chamadas patches, cada uma das quais semelhante a um token no GPT. Ao unificar a forma como representamos os dados, podemos treinar transformadores de difusão numa gama mais ampla de dados visuais do que era possível anteriormente, abrangendo diferentes durações, resoluções e proporções.

O Sora baseia-se em pesquisas anteriores nos modelos DALL·E e GPT. Utiliza a técnica de recaptioning do DALL·E 3, que envolve a geração de legendas altamente descritivas para o treino de dados visuais. Como resultado, o modelo consegue seguir mais fielmente as instruções de texto do utilizador no vídeo gerado.

Para além de ser capaz de gerar um vídeo apenas a partir de instruções de texto, o modelo consegue pegar numa imagem estática existente e gerar um vídeo a partir da mesma, animando o conteúdo da imagem com precisão e atenção aos mais pequenos detalhes. O modelo também pode pegar num vídeo existente e prolongá-lo ou preencher os fotogramas em falta. Sabe mais no nosso relatório técnico.

Sora serve de base para modelos capazes de compreender e simular o mundo real, uma capacidade que acreditamos ser um marco importante para atingirmos a Inteligência Artificial Geral (AGI).

A carregar...