A empresa de inteligência artificial aposta no Stable Video Diffusion para competir com modelos fechados como Emu Video, da Meta
A Stability AI, que já havia lançado modelos de geração de imagem, música e texto, acaba de anunciar o lançamento doStable Video Diffusion, uma ferramenta de geração de vídeo a partir de texto e imagem que pretende conquistar um espaço no mercado emergente de vídeo generativo.
“Stable Video Diffusion é um modelo de difusão de vídeo latente para geração de vídeo a partir de texto e imagem em alta resolução, de última geração”, explica a Stability AI no artigo de pesquisa do modelo, e acrescenta no anúncio oficial: “Abrangendo modalidades como imagem, linguagem, áudio, 3D e código, nosso portfólio é um testemunho da dedicação da Stability AI em ampliar a inteligência humana”.
Essa adaptabilidade, aliada à tecnologia de código aberto, abre caminho para diversas aplicações em publicidade, educação e entretenimento. A Difusão de Vídeo Estável, que está disponível em uma prévia de pesquisa, é capaz de “superar os métodos baseados em imagem com uma fração do seu orçamento de computação”, segundo os pesquisadores.
O vídeo abaixo já foi criado com a ferramenta:
Stable Video Diffusion tem capacidades técnicas impressionantes. “Estudos de preferência humana revelam que o modelo resultante supera os modelos de geração de vídeo a partir de imagem de ponta”, revela o artigo de pesquisa. A Stability se mostra confiante na superioridade do modelo em transformar imagens estáticas em conteúdo de vídeo dinâmico, dizendo que seu modelo vence modelos fechados em estudos de preferência do usuário.
A Stability AI desenvolveu dois modelos sob o guarda-chuva da Difusão de Vídeo Estável: SVD e SVD-XT. O modelo SVD transforma imagens estáticas em vídeos de 576×1024 pixels em 14 quadros, enquanto o SVD-XT usa a mesma arquitetura, mas se estende a 24 quadros. Ambos os modelos oferecem geração de vídeo em taxas de quadros que variam de três a 30 quadros por segundo, situando-se na vanguarda da tecnologia de geração de vídeo a partir de texto de código aberto.
No campo em rápida evolução da geração de vídeo por IA, Stable Video Diffusion compete com modelos inovadores como os desenvolvidos pela Pika Labs, Runway e Meta. Esta última anunciou recentemente o Emu Video, semelhante em sua capacidade de geração de vídeo a partir de texto, que mostra um potencial significativo com sua abordagem única para edição de imagem e criação de vídeo, embora com uma limitação atual para vídeos de resolução de 512x512 pixels.
Apesar de suas conquistas tecnológicas, a Stability AI enfrenta desafios, incluindo considerações éticas sobre o uso de dados protegidos por direitos autorais no treinamento de IA. A empresa enfatiza que o modelo “não se destina a aplicações reais ou comerciais nesta fase”, concentrando-se em aprimorá-lo com base no feedback da comunidade e nas preocupações de segurança.
A julgar pelo sucesso do SD 1.5 e do SDX - os modelos de código aberto mais poderosos para geração de imagem - esta nova empreitada na cena de geração de vídeo sugere um futuro em que as linhas entre o imaginado e o real não são apenas borradas, mas belamente redesenhadas.
O fato é que a IA generativa vai avançar muito não só na fotografia, mas também nos vídeos com impactos em arte, publicidade, cinema e afins.
Entenda e aprenda sobre IA na fotografia com o Guia Fotograf.IA >>> Fotograf.IA | NFoTo (enfbyleosaldanha.com)
Comments