Genmo é um novo modelo de vídeo com IA de código aberto que está gerando alguns dos vídeos mais realistas e cinematográficos já vistos. Em comparações cegas com usuários, ele se destaca entre os melhores modelos de vídeo com IA, representando um avanço significativo em vídeos de IA de baixo custo e baixa censura, acessíveis a todos. Este modelo, chamado Mochi One, é o primeiro lançamento público de código aberto da Genmo e possui licença Apache 2, permitindo uso individual e comercial, com a liberdade de modificar, distribuir e comercializar as criações.

Genmo Mochi One foi treinado com foco no realismo. Embora seja capaz de lidar com animação, sua especialidade reside na criação de vídeos realistas. A qualidade dos vídeos gerados é impressionante, com destaque para a renderização da luz e texturas. Um exemplo disso é um vídeo de demonstração em que um personagem veste um traje com brilho realista e a luz refratada em seus olhos, criando uma atmosfera cinematográfica de alta qualidade.
Outro exemplo notável é a cena de um cavaleiro olhando pela janela, onde a fonte de luz vinda da janela projeta sombras cinematográficas no rosto do personagem, demonstrando a capacidade do modelo de compreender e reproduzir a interação da luz com os objetos. A IA também se destaca em cenas complexas com muito movimento. Apesar de algumas transformações, o modelo consegue transmitir uma sensação de urgência e dinamismo, especialmente perceptível no vídeo de um personagem em movimento cercado por outros indivíduos no fundo.
A capacidade do Genmo de lidar com movimentos complexos, como ciclismo e a interação de uma pessoa lavando um copo, é outro ponto forte. A IA consegue reproduzir a velocidade da bicicleta de forma coerente com o movimento do solo, evitando a sensação de deslizamento ou flutuação. Na cena da lavagem do copo, as diferentes camadas da imagem – fundo, plano médio e primeiro plano – trabalham em conjunto, criando uma composição realista.
A atenção aos detalhes também se estende ao reino animal. A renderização dos pelos de um gato, o movimento das orelhas de um cachorro na praia e a atmosfera criada pelas luzes de velas em uma cena com um felino demonstram a versatilidade do modelo em diferentes contextos e a sua busca por realismo tanto em humanos quanto em animais.
Apesar dos seus pontos fortes, Genmo, como qualquer modelo de vídeo com IA, apresenta suas limitações. Reproduzir ações humanas cotidianas de forma realista ainda é um desafio. Cenas com múltiplos personagens realizando movimentos complexos, como a caminhada de um grupo de pessoas em um parque, resultam em transformações e movimentos pouco naturais. A interação com objetos, como desenhar ou escrever, também apresenta dificuldades, com a IA ainda não conseguindo reproduzir com precisão a relação entre a força aplicada e a marca deixada no papel. A representação de texto ainda é um problema, com a IA falhando em exibir informações solicitadas, como os 10 vídeos virais de 2021.
Em alguns casos, o modelo gera resultados pouco estéticos ou até mesmo perturbadores, como uma figura religiosa com aparência estranha. Movimentos corporais, como o de braços, também podem apresentar inconsistências e transformações indesejadas. Apesar dessas limitações, é importante lembrar que se trata da primeira versão do Genmo e que melhorias são esperadas com o tempo.
Genmo representa um passo importante na democratização da criação de vídeos com IA. Sua natureza open source, combinada com a licença Apache 2, permite que usuários experimentem, modifiquem e comercializem seus trabalhos com liberdade. Embora ainda existam desafios a serem superados, a qualidade dos vídeos gerados, especialmente em termos de realismo e cinematografia, é impressionante.
O baixo custo de utilização do Genmo, comparado a outros modelos de vídeo com IA, o torna ainda mais atrativo, especialmente para criadores de conteúdo independentes. A possibilidade de execução local em máquinas potentes e a futura integração com serviços de computação em nuvem prometem reduzir ainda mais os custos e ampliar o acesso a essa tecnologia.
A comparação com outros modelos, como Minimax e Runway, demonstra que o Genmo, mesmo sendo open source, consegue competir em qualidade e, em alguns casos, até superá-los. A constante evolução da IA e o desenvolvimento contínuo do Genmo sugerem um futuro promissor para a criação de vídeos com IA, com a expectativa de que as limitações atuais sejam superadas em versões futuras.