Microsoft Desenvolve Modelo de IA que Gera Vídeos Realistas a Partir de Uma Única Foto e Trecho de Áudio

22 de abr. de 2024
2 min de leitura

A Microsoft revelou um novo e impressionante modelo de IA chamado VASA-1, que ultrapassa os limites da geração de vídeo, criando rostos falantes hiper-realistas a partir de apenas uma fotografia e um trecho de áudio.

Patrocínio: Alboom + Fotto

O VASA-1, que significa “Visual Affective Skills with Audio” (Habilidades Visuais Afetivas com Áudio), vai além da simples sincronização labial, animando todo o rosto com expressões naturais e movimentos de cabeça que correspondem ao áudio fornecido, criando uma ilusão notavelmente convincente de uma pessoa real falando. Embora a imagem subjacente possa ser estática ou até mesmo gerada por IA (a empresa usou StyleGAN2 e DALL-E-3 para seus inputs), o VASA-1 confere uma incrível verossimilhança a ela.

A ferramenta utiliza um modelo de “espaço latente facial” para gerar dinâmicas faciais e movimentos de cabeça de forma holística. Isso se traduz na separação da aparência da imagem, da posição tridimensional da cabeça e das expressões faciais. Essa separação permite o controle independente e a personalização do conteúdo gerado, abrindo portas para mais possibilidades criativas. Além disso, o VASA-1 demonstra notável flexibilidade, podendo lidar com entradas de foto e áudio que estão fora dos parâmetros de seus dados de treinamento.

Embora tecnologias semelhantes existam em empresas como Runway e Nvidia, o VASA-1 parece alcançar um novo nível de realismo, minimizando deformações na boca e incorporando uma ampla gama de sutilezas faciais. Essa pesquisa está alinhada com o recente VLOGGER AI do Google, demonstrando uma tendência crescente na criação de personagens expressivos e realistas por meio do poder da IA.

Veja como funciona neste vídeo abaixo:

https://www.youtube.com/watch?v=fTAuzFzMt5Y

E veja a Mona Lisa fazendo um rap com a tecnologia clicando aqui >>> Mona Lisa

As aplicações potenciais incluem a criação de avatares personalizados para fins educacionais, a geração de porta-vozes realistas para assistentes virtuais, personagens de videogame não-jogáveis (NPCs) incrivelmente realistas ou até mesmo a ressurreição de figuras históricas em exposições interativas.

No entanto, preocupações éticas também surgem. A capacidade de manipular fala e movimento em qualquer imagem levanta questões sobre o uso indevido para deepfakes ou desinformação. Como tal, a gigante da tecnologia mantém a tecnologia por trás de portas fechadas e ainda não anunciou a disponibilidade pública do VASA-1, pois ele permanece um projeto de pesquisa. Por enquanto, você terá que participar de suas próprias reuniões virtuais - ainda não há substitutos digitais.

Faça parte da iniciativa Fotograf.IA e conecte-se com a tecnologia que está mudando a fotografia mais uma vez. São mais de 25 horas de conteúdo exclusivo sobre inteligência artificial na fotografia. Além disso, você também recebe a versão 9.0 do Guia Fotograf.IA para aprender e entender como a IA pode potencializar sua fotografia >>> Fotograf.IA

Microsoft Desenvolve Modelo de IA que Gera Vídeos Realistas a Partir de Uma Única Foto e Trecho de Áudio

Posts recentes

Comentários