top of page

Método de personalização de imagem Nvidia AI cabe em um disquete e leva 4 minutos para treinar

Foto do escritor: Leo SaldanhaLeo Saldanha

A Nvidia, líder em tecnologia de inteligência artificial, apresentou recentemente um novo método inovador de personalização de imagem chamado Perfusion



O método é capaz de reproduzir conceitos personalizados com flexibilidade criativa significativa e mantendo sua identidade. O Perfusion ocupa apenas 100 KB de espaço e precisa de apenas 4 minutos de treinamento para ser reproduzido.


Essa tecnologia também permite que vários conceitos personalizados sejam combinados em uma única imagem com interações naturais, ao contrário das ferramentas existentes que aprendem conceitos isoladamente. Os usuários podem guiar o processo de criação de imagens através de prompts de texto, mesclando conceitos como um gato e uma cadeira específicos.







O Perfusion oferece um recurso notável que permite aos usuários controlar o equilíbrio entre a fidelidade visual (a imagem) e o alinhamento textual (o prompt) durante a inferência, ajustando um único modelo de 100 KB. Esse recurso permite que os usuários explorem facilmente a frente de Pareto (semelhança de texto versus semelhança de imagem) e selecionem a compensação ideal que atenda às suas necessidades específicas, tudo sem a necessidade de reciclagem.


Em comparação com outros geradores de imagens de IA, o Perfusion produz qualidade visual superior e alinhamento aos prompts em relação às principais técnicas de IA mencionadas anteriormente. O tamanho ultra-eficiente torna possível apenas atualizar as peças que ele precisa quando ajusta como está produzindo uma imagem, em comparação com a pegada de vários GB de métodos que ajustam todo o modelo. Outros geradores de imagens de IA têm maneiras de os usuários ajustarem a saída, mas são volumosos. Como referência, um LoRA é um método popular de ajuste fino usado do Stable Difusion. Ele pode adicionar de dezenas de megabytes a mais de um gigabyte (GB) ao aplicativo. Outro método, as incorporações de inversão textual, são mais leves, mas menos precisas. Um modelo treinado usando Dreambooth, a técnica mais precisa no momento, pesa mais de 2GB.




É importante notar que treinar um modelo requer ajustes sofisticados. Focar em reproduzir o modelo demais leva a que o modelo produza a mesma saída repetidas vezes e fazê-lo seguir o prompt muito de perto, sem liberdade, geralmente produz um resultado ruim. A flexibilidade para ajustar o quão perto o gerador chega do prompt é uma peça importante de personalização.


Esta pesquisa se alinha com o foco crescente da Nvidia em IA. As ações da empresa subiram mais de 230% em 2023, à medida que suas GPUs continuam a dominar os modelos de IA de treinamento. Com entidades como Anthropic, Google, Microsoft e Baidu despejando bilhões em IA generativa, o modelo inovador da Nvidia pode lhe dar uma vantagem. Por hora, a Nvidia apresentou apenas o artigo de pesquisa prometendo lançar o código em breve.


Se você quiser explorar, entender e dar os primeiros passos com inteligência artificial na fotografia sugiro conhecer o Guia Fotograf.IA clicando aqui>>> Fotograf.IA


Se você quiser estudar e fazer um curso para entender sobre as possibilidades e oportunidades com IA na Fotografia clique aqui >>> Evento IA na Fotografia: dia 15/08 em São Paulo e também online


Se você quiser entrar para uma comunidade com 100 membros e fazer parte da nova fase de valor da fotografia clique aqui >>> NFoTo: fotograf.IA, NFT e inovação


Com informações de Decrypt



0 comentário

Kommentare


bottom of page