Pular para o conteúdo principal
OpenAI

Criação de vídeo a partir de texto

Todos os vídeos desta página foram gerados diretamente pelo Sora sem modificação.

Carregando…

Estamos ensinando a IA a entender e simular o mundo físico em movimento, para treinar modelos que ajudem a resolver problemas que exigem interação com o mundo real.

Apresentamos o Sora, nosso modelo de conversão de texto em vídeo. O Sora gera vídeos de até um minuto, mantendo a qualidade visual e a aderência ao prompt do usuário.

Hoje o Sora está sendo disponibilizado para red teams para avaliar danos ou riscos. Também estamos disponibilizando o acesso a diversos artistas visuais, designers e cineastas, para receber feedback com o objetivo de melhorar o modelo de forma que seja mais útil para profissionais criativos.

Compartilhamos o andamento de nossas investigações desde o início para começar a colaborar e receber feedback de pessoas de fora da OpenAI e permitir que o público saiba quais serão os próximos recursos de IA.

O Sora consegue gerar cenas complexas com diversos personagens, tipos de movimento específicos e detalhes precisos do sujeito e do entorno. O modelo entende o que o usuário pediu no prompt e também como essas coisas existem no mundo real.

O modelo entende a linguagem com profundidade, interpretando os prompts e gerando personagens interessantes que expressam emoções vibrantes. O Sora também pode criar várias tomadas dentro do mesmo vídeo, mantendo os mesmos personagens e estilo visual.

O modelo ainda pode ser melhorado. Ele pode ter dificuldades com a física em cenas complexas e não entender situações específicas de causa e efeito (um biscoito pode não ficar marcado depois que o personagem dá uma mordida, por exemplo). O modelo também pode confundir detalhes espaciais solicitados no prompt, como confusão entre esquerda e direita ou descrições precisas de eventos em sequências temporais, como uma trajetória da câmera.

Safety

Vamos aplicar diversas medidas de segurança antes de disponibilizar o Sora como um produto da OpenAI. Nossos red teams com especialistas em áreas como desinformação, conteúdo de ódio e vieses vão testar o modelo de forma adversária.

Também estamos criando ferramentas para detectar conteúdo enganoso como um classificador de detecção que pode dizer quando o vídeo foi gerado pelo Sora. Planejamos inserir metadados C2PA(abre em uma nova janela) no futuro, se o modelo for implementado em um produto da OpenAI.

Além de desenvolver novas técnicas para preparar a implementação, estamos aplicando os sistemas de segurança(abre em uma nova janela) que já criamos para nossos produtos que usam o DALL·E 3, que já se aplicam também ao Sora.

Por exemplo, quando estiver em um produto da OpenAI, nosso classificador de texto vai conferir e recusar prompts de texto que violem nossas políticas de uso, como aqueles que solicitem violência extrema, conteúdo sexual, imagens de ódio, imagens que se pareçam com celebridades ou os IPs de outras pessoas. Também desenvolvemos poderosos classificadores de imagens, usados para analisar os quadros de cada vídeo gerado, para garantir que sigam nossas políticas de uso antes que sejam apresentados ao usuário.

Legisladores, educadores e artistas do mundo inteiro participarão para expressar seus questionamentos e identificar casos de uso positivos desta nova tecnologia. Apesar dos testes e pesquisas amplos, não podemos prever todas as possibilidades benéficas de uso de nossas tecnologias, nem todas as formas com as quais as pessoas abusarão dela. É por isso que acreditamos que é fundamental aprendermos a partir do uso real para criar e lançar sistemas de IA cada vez mais seguros.

Técnicas de pesquisa

O Sora é um modelo de difusão, que gera as imagens a partir de um vídeo que parece ruído estático e se transforma gradualmente, removendo o ruído em várias etapas.

Ele consegue gerar vídeos inteiros de uma vez ou expandir vídeos já gerados para que fiquem mais longos. Oferecendo ao modelo uma prévia de vários quadros por vez, resolvemos um problema complexo: garantir que o sujeito continuasse sendo sempre o mesmo, ainda que não estivesse enquadrado em alguns momentos.

Assim como os modelos do GPT, o Sora usa uma arquitetura de transformador, permitindo um desempenho em escala superior.

Representamos vídeos e imagens como coleções de unidades menores de dados, chamadas patches. Cada uma delas é como um token no GPT. Ao unificar nossa representação dos dados, conseguimos treinar transformadores de difusão com uma gama de dados visuais mais ampla do que era possível antes, usando durações, resoluções e proporções diferentes.

O Sora expande pesquisas anteriores nos modelos DALL·E e GPT. Ele usa a técnica de relegendagem do DALL·E 3, que usa legendas altamente descritivas para os dados de treinamento visual. O resultado é um modelo que consegue seguir com mais precisão as instruções em texto do usuário no vídeo gerado.

Além de gerar vídeo somente a partir de instruções de texto, o modelo consegue usar uma imagem estática para gerar um vídeo, animando os elementos da imagem com precisão e atenção aos menores detalhes. O modelo também consegue expandir um vídeo existente ou preencher quadros que estejam ausentes dele. Veja mais no nosso relatório técnico.

O Sora será a base para modelos que possam entender e simular o mundo real, uma habilidade que, em nossa opinião, será um passo importante para conquistarmos a AGI.

Carregando…