Google leva geração musical por IA ao Gemini e amplia criação multimodal
- 19 de fev.
- 2 min de leitura
Novo Lyria 3 cria músicas de 30 segundos a partir de texto, foto ou vídeo e reforça a convergência entre imagem, som e IA generativa. Ou como o próprio Google definiu: A trilha sonora da sua galeria de fotos

O Google integrou ao Gemini o Lyria 3, novo modelo de geração musical por inteligência artificial capaz de criar faixas de até 30 segundos a partir de prompts de texto, imagens ou vídeos. A atualização amplia o ecossistema multimodal da empresa, que já inclui geração de imagem e vídeo, e aproxima a criação sonora do mesmo paradigma algorítmico que vem transformando a produção visual.
Segundo o Google DeepMind, o Lyria 3 permite descrever estilo, clima, instrumentos ou tema para gerar automaticamente música, vocais e letra. O sistema também pode interpretar elementos visuais (como uma fotografia) e convertê-los em trilhas sonoras coerentes com a atmosfera da cena. Cada faixa pode ainda receber arte de capa gerada por IA.

A proposta mira principalmente formatos curtos e digitais, como vídeos para redes sociais e storytelling visual. O modelo também passa a alimentar o Dream Track do YouTube, ferramenta voltada a trilhas rápidas para conteúdos curtos.
A evolução reforça um movimento mais amplo: a convergência entre imagem, som e linguagem dentro de modelos generativos únicos. O mesmo fluxo criativo que hoje permite gerar fotografias sintéticas ou vídeos por texto passa a incluir trilhas sonoras no mesmo processo. Ou na própria definição do vídeo abaixo:
A trilha sonora da sua galeria de fotos
O Google afirma que o Lyria 3 foi treinado com atenção a direitos autorais e busca evitar imitação direta de artistas, ainda que permita prompts de estilo. O sistema inclui filtros para prevenir similaridade excessiva com músicas existentes.
As possibilidades de uso são ilimitadas. O próprio Google sugere em um dos vídeos: crie trilhas para suas memórias. Para uma viagem ou momento marcante.
O recurso começa a ser disponibilizado globalmente para usuários do Gemini em desktop e mobile, com suporte inicial a múltiplos idiomas, incluindo português.
Por que importa?
A incorporação da música ao mesmo ambiente generativo de imagem e vídeo consolida a criação multimodal como tendência central da IA criativa. Na prática, texto, imagem, vídeo e som passam a ser variações de um mesmo processo sintético.
A criação por IA (da imagem ao som) é um dos temas centrais das discussões atuais sobre fotografia e linguagem visual. Esse movimento vem sendo analisado de forma contínua na comunidade Fotograf.IA + C.E.Foto e será abordado na próxima mentoria coletiva.
Saiba mais sobre a comunidade: Comunidade Fotograf.IA + C.E.Foto | IA, estratégia e futuro da fotografia com Leo Saldanha
Saiba mais sobre a mentoria coletiva: Mentoria coletiva 25/2: o Radar 2026 e os perfis reais do fotógrafo brasileiro



Comentários