top of page

Google leva geração musical por IA ao Gemini e amplia criação multimodal

  • 19 de fev.
  • 2 min de leitura

Novo Lyria 3 cria músicas de 30 segundos a partir de texto, foto ou vídeo e reforça a convergência entre imagem, som e IA generativa. Ou como o próprio Google definiu: A trilha sonora da sua galeria de fotos


O Google integrou ao Gemini o Lyria 3, novo modelo de geração musical por inteligência artificial capaz de criar faixas de até 30 segundos a partir de prompts de texto, imagens ou vídeos. A atualização amplia o ecossistema multimodal da empresa, que já inclui geração de imagem e vídeo, e aproxima a criação sonora do mesmo paradigma algorítmico que vem transformando a produção visual.


Segundo o Google DeepMind, o Lyria 3 permite descrever estilo, clima, instrumentos ou tema para gerar automaticamente música, vocais e letra. O sistema também pode interpretar elementos visuais (como uma fotografia) e convertê-los em trilhas sonoras coerentes com a atmosfera da cena. Cada faixa pode ainda receber arte de capa gerada por IA.



A proposta mira principalmente formatos curtos e digitais, como vídeos para redes sociais e storytelling visual. O modelo também passa a alimentar o Dream Track do YouTube, ferramenta voltada a trilhas rápidas para conteúdos curtos.


A evolução reforça um movimento mais amplo: a convergência entre imagem, som e linguagem dentro de modelos generativos únicos. O mesmo fluxo criativo que hoje permite gerar fotografias sintéticas ou vídeos por texto passa a incluir trilhas sonoras no mesmo processo. Ou na própria definição do vídeo abaixo:


A trilha sonora da sua galeria de fotos




O Google afirma que o Lyria 3 foi treinado com atenção a direitos autorais e busca evitar imitação direta de artistas, ainda que permita prompts de estilo. O sistema inclui filtros para prevenir similaridade excessiva com músicas existentes.

As possibilidades de uso são ilimitadas. O próprio Google sugere em um dos vídeos: crie trilhas para suas memórias. Para uma viagem ou momento marcante.


O recurso começa a ser disponibilizado globalmente para usuários do Gemini em desktop e mobile, com suporte inicial a múltiplos idiomas, incluindo português.


Por que importa?

A incorporação da música ao mesmo ambiente generativo de imagem e vídeo consolida a criação multimodal como tendência central da IA criativa. Na prática, texto, imagem, vídeo e som passam a ser variações de um mesmo processo sintético.


A criação por IA (da imagem ao som) é um dos temas centrais das discussões atuais sobre fotografia e linguagem visual. Esse movimento vem sendo analisado de forma contínua na comunidade Fotograf.IA + C.E.Foto e será abordado na próxima mentoria coletiva.


Comentários


CONTATO

São Paulo, SP

  • Canal de Notícias no Insta
  • Telegram
  • logo-whatsapp-fundo-transparente-icon
  • Youtube
  • Preto Ícone Instagram
  • Preto Ícone Spotify
  • Preto Ícone Facebook

© 2026 - Leo Saldanha. 

Vamos conversar? Obrigado pelo envio

bottom of page