Logotipo-500-x-400-px.png

Wan 2.1: Geração de Vídeo Local e Open Source

Imagine ter o poder de gerar vídeos a partir de texto ou imagens diretamente no seu computador. Isso se torna realidade com o Wan 2.1, um modelo de inteligência artificial de código aberto desenvolvido pelo Alibaba Group. Este modelo inovador permite a geração de vídeos tanto a partir de imagens (image-to-video) quanto de texto (text-to-video), possibilitando a criação de conteúdo audiovisual sem a necessidade de plataformas em nuvem e com a flexibilidade da licença Apache 2.

M9qCWX2ldVs

Testando o Wan 2.1 em um Rig Quadro 3090

Para avaliar o desempenho do Wan 2.1, realizei testes em uma máquina equipada com quatro placas de vídeo Quadro 3090. Utilizei o modelo t2v 1.3 bilhões de parâmetros, gerando vídeos com resolução de 480p. Embora exista uma versão maior, o modelo de 14 bilhões de parâmetros, a limitação de VRAM me impediu de utilizá-lo eficientemente sem sobrecarregar a CPU. Um dos objetivos futuros é expandir a capacidade de processamento gráfico do sistema para explorar o potencial do modelo maior e gerar vídeos com resolução de 720p.

O processo de geração de vídeo envolve a criação de um pipeline, carregamento de checkpoints e, em seguida, a geração propriamente dita. Com o modelo t2v 1.3b, a geração de um vídeo de curta duração (cerca de 5 segundos) levou aproximadamente 8 minutos, com uma velocidade de 9.5 segundos por iteração. Apesar da resolução limitada a 480p e da taxa de quadros de 16 FPS, os resultados foram promissores.

Os prompts utilizados nos testes incluíram: "Dois gatos anamorfos com roupas de boxe confortáveis e luvas brilhantes lutando intensamente em um palco iluminado", "Um gatinho fofo brincando com um novelo de lã no tapete. É um gatinho calico" e "Um monstro gigante. Havia um Apache. Era para estar explodindo e disparando armas".

Embora o modelo tenha interpretado os prompts, a qualidade dos vídeos gerados, principalmente em relação à coerência da ação e à física dos objetos, apresentou algumas inconsistências. Por exemplo, o novelo de lã no vídeo do gatinho apresentou movimentos erráticos, e a interação entre o monstro gigante e a cidade no terceiro prompt não correspondeu totalmente à expectativa. A utilização do recurso “prompt extend” com o modelo Quinn melhorou a qualidade da geração no caso do gatinho, mas não resolveu completamente as inconsistências.

CopyofIAGenerativanoDireito40

R$ 59,90

O Futuro do Wan 2.1 e a Geração de Vídeo Local

O Wan 2.1, com sua licença Apache 2, representa um avanço significativo no campo da geração de vídeo open source. A possibilidade de executar o modelo localmente, em hardwares de nível consumidor, democratiza o acesso a essa tecnologia, abrindo portas para inovações e aprimoramentos por parte da comunidade. Adicionalmente, plataformas como o ModelScope, uma espécie de "Hugging Face chinês", oferecem alternativas para experimentação e desenvolvimento com o Wan 2.1, incluindo o DiffIn Studio, com recursos de otimização de VRAM e treinamento.

Apesar dos desafios encontrados durante os testes, como a limitação de VRAM e a necessidade de aprimorar a documentação e a interface de usuário, o Wan 2.1 demonstra um potencial promissor. Com o desenvolvimento de novas técnicas de otimização e o aprimoramento dos modelos, a geração de vídeo local de alta qualidade em tempo hábil poderá se tornar uma realidade acessível a todos. A expectativa é de que a comunidade open source contribua para o aprimoramento do modelo, explorando todo o seu potencial e expandindo suas aplicações em diversas áreas.

Gostou do conteúdo? Compartilhe

Facebook
LinkedIn
WhatsApp
Twitter
Telegram
Email

Referência

Wan 2.1: Geração de Vídeo Local e Open Source

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Este site utiliza cookies. Ao continuar a navegar neste site, você aceita o uso de cookies e nossa política de privacidade.