Sora: o novo e surpreendente modelo de vídeo generativo da OpenAI

Leo Saldanha
15 de fev. de 2024
5 min de leitura

A empresa revela Sora, um modelo capaz de transformar texto em vídeo de alta qualidade, mas mantém o projeto em segredo por enquanto. Vídeos de amostra impressionam

A OpenAI anunciou hoje um novo e incrível modelo de vídeo generativo chamado Sora, que pode criar um clipe de filme detalhado e de alta definição a partir de uma simples descrição de texto. Os vídeos gerados por Sora podem ter até um minuto de duração e apresentam uma variedade de estilos e cenários.

A OpenAI compartilhou com o MIT Technology Review quatro vídeos de amostra que mostram o potencial de Sora. Um deles é uma cena animada que apresenta um close-up de um monstro fofo curto ajoelhado ao lado de uma vela vermelha derretendo. O estilo de arte é 3D e realista, com foco em iluminação e textura. O clima da pintura é de espanto e curiosidade, enquanto o monstro olha para a chama com olhos arregalados e boca aberta. Sua pose e expressão transmitem uma sensação de inocência e brincadeira, como se estivesse explorando o mundo ao seu redor pela primeira vez. O uso de cores quentes e iluminação dramática realça ainda mais a atmosfera acolhedora da imagem.

Outro vídeo mostra um mundo de papelaria lindamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas. O vídeo tem um aspecto artesanal e charmoso, com texturas de papel e recortes visíveis. Sora adicionou o que parecem cortes entre diferentes pedaços de filmagem, e o modelo manteve um estilo consistente entre eles.

Um terceiro vídeo é uma cena de rua de Tóquio, que mostra que Sora aprendeu como os objetos se encaixam em 3D: a câmera entra em cena para seguir um casal enquanto eles passam por uma fileira de lojas. O vídeo é rico em detalhes e movimento, com pessoas, carros, bicicletas e sinais luminosos preenchendo a tela.

Para ter uma ideia da qualidade da ferramenta assista ao vídeo abaixo.

O último vídeo é uma cena pré-histórica, onde vários mamutes lanudos gigantes se aproximam pisando através de um prado nevado, sua longa pele lanuda sopra levemente no vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve dramáticas ao longe, luz no meio da tarde. O vídeo tem um aspecto cinematográfico e épico, com uma trilha sonora orquestral e efeitos de som realistas.

Para assistir aos vídeos e ver a matéria da MIT clique aqui >>> OpenAI lança um novo e incrível modelo de vídeo generativo chamado Sora | MIT Revisão de Tecnologia (technologyreview.com )

Esses exemplos demonstram que Sora é capaz de gerar vídeos de alta qualidade a partir de uma variedade de gêneros e estilos, desde animação até documentário. Sora também pode lidar com diferentes tipos de vídeo, como resolução, duração, proporção e orientação.

Não é perfeito. No vídeo de Tóquio, os carros à esquerda parecem menores do que as pessoas que caminham ao seu lado. Eles também entram e saem entre os galhos das árvores. “Há definitivamente algum trabalho a ser feito em termos de coerência de longo prazo”, diz Tim Brooks, cientista da OpenAI.

Esse outro vídeo mostra a corrida do ouro no velho oeste norte-americano

Provocação técnica Por mais impressionantes que sejam, os vídeos de amostra mostrados aqui foram, sem dúvida, escolhidos a dedo para mostrar Sora em seu melhor. Sem mais informações, é difícil saber o quão representativos eles são da saída típica do modelo.

Pode levar algum tempo até descobrirmos. O anúncio de Sora pela OpenAI hoje é uma provocação tecnológica, e a empresa diz que não tem planos atuais de lançá-lo ao público. Em vez disso, a OpenAI começará hoje a compartilhar o modelo com testadores de segurança de terceiros pela primeira vez.

Em particular, a empresa está preocupada com os potenciais usos indevidos de vídeos falsos, mas fotorrealistas. “Estamos sendo cuidadosos com a implantação aqui e nos certificando de que temos todas as nossas bases cobertas antes de colocar isso nas mãos do público em geral”, diz Aditya Ramesh, cientista da OpenAI, que criou o modelo de texto para imagem DALL-E da empresa.

Mas a OpenAI está de olho em um lançamento de produto em algum momento no futuro. Além dos testadores de segurança, a empresa também está compartilhando o modelo com um grupo seleto de criadores de vídeo e artistas para obter feedback sobre como tornar Sora o mais útil possível para profissionais criativos. “O outro objetivo é mostrar a todos o que está no horizonte, dar uma prévia do que esses modelos serão capazes”, diz Ramesh.

Para construir o Sora, a equipe adaptou a tecnologia por trás do DALL-E 3, a versão mais recente do principal modelo de texto para imagem da OpenAI. Como a maioria dos modelos de texto para imagem, o DALL-E 3 usa o que é conhecido como um modelo de difusão. Estes são treinados para transformar um fuzz de pixels aleatórios em uma imagem.

Sora adota essa abordagem e a aplica a vídeos em vez de imagens estáticas. Mas os pesquisadores também adicionaram outra técnica à mistura. Ao contrário do DALL-E ou da maioria dos outros modelos de vídeo generativo, Sora combina seu modelo de difusão com um tipo de rede neural chamada transformador.

Os transformadores são ótimos para processar longas sequências de dados, como palavras. Isso os tornou o molho especial dentro de grandes modelos de linguagem como o GPT-4 da OpenAI e o Gemini do Google DeepMind. Mas os vídeos não são feitos de palavras. Em vez disso, os pesquisadores tiveram que encontrar uma maneira de cortar vídeos em pedaços que pudessem ser tratados como se fossem. A abordagem que eles criaram foi a de fazer vídeos no espaço e no tempo. “É como se você tivesse uma pilha de todos os quadros de vídeo e cortasse pequenos cubos dela”, diz Brooks.

O transformador dentro do Sora pode então processar esses pedaços de dados de vídeo da mesma forma que o transformador dentro de um grande modelo de linguagem processa palavras em um bloco de texto. Os pesquisadores dizem que isso permite que eles treinem Sora em muito mais tipos de vídeo do que outros modelos de texto para vídeo, incluindo diferentes resoluções, durações, proporção e orientação. “Isso realmente ajuda o modelo”, diz Brooks. “Isso é algo sobre o qual não temos conhecimento de nenhum trabalho existente.”

Em tempo: vídeo é a nova fronteira para a IA no mundo da imagem. Midjoruney já anunciou um gerador de IA para vídeos e o Leonardo AI já conta com a função. O fato é que o SORA é um salto em qualidade que em algum momento deve chegar para todos e provavelmente integrado ao DALL-E. É esperar para ver.

Faça parte do Fotograf.IA. Mais do que um ebook com grupo Vip, uma comunidade voltada para a revolução e o avanço da IA na fotografia. São mais de 15 horas de conteúdo em vídeo, ebook com quase 300 páginas e dois grupos com mais de 150 membros para acompanhar e interagir com IA na fotografia. Participe clicando aqui >>> Faça parte da iniciativa Fotograf.IA e turbine seu negócio e sua arte na fotografia

Quer se conectar com inovação na fotografia? Participe do grupo NFoTo >>> NFoTo: fotograf.IA, NFT e inovação

Precisando de ajuda com seu marketing na fotografia? Conheça o Novo Plano de Marketing 2024 >>> Plano de Marketing 2024

Sora: o novo e surpreendente modelo de vídeo generativo da OpenAI

Posts recentes

Comentários