Um novo competidor no cenário da geração de imagens por IA está causando alvoroço: o Flux. Desenvolvido pela equipe por trás do Stable Diffusion, agora sob a bandeira da Black Forest Labs, o Flux se destaca não apenas pela qualidade impressionante de suas imagens, mas também pelo robusto investimento recebido, ultrapassando 31 milhões de dólares, e pelo apoio de figuras influentes da indústria, como Michael Ovitz, fundador da CAA.

O Flux oferece três versões distintas: Schnell, Dev e Pro. Schnell, a versão de código aberto, permite downloads e execução local, semelhante ao Stable Diffusion. Apesar da boa qualidade, Schnell não representa o ápice do potencial do Flux. A versão Dev, voltada para desenvolvedores, oferece um salto na qualidade. Por fim, a versão Pro, acessível em plataformas online específicas, entrega os melhores resultados. Para ilustrar as diferenças, utilizei o prompt "uma imagem cinematográfica de uma mulher em um filme de ficção científica segurando um machado de batalha futurista". A versão Schnell gerou uma imagem interessante, mas o machado lembrava mais uma pá. A Dev apresentou uma qualidade significativamente superior, com destaque para a naturalidade das mãos. A versão Pro, por sua vez, impressionou pela precisão das proporções, pelo excelente efeito bokeh de fundo e pelo design do machado, que transmitia uma atmosfera distópica e futurista.
Um dos grandes diferenciais do Flux reside na menor censura em relação a gêneros, permitindo a criação de imagens de horror ou com elementos mais gráficos, como sangue, sem as restrições encontradas em ferramentas como Midjourney ou DALL-E. Além disso, o Flux demonstra notável precisão na interpretação de prompts complexos, gerando resultados fiéis às instruções fornecidas.
Testei o Flux com diferentes prompts. O primeiro, "uma imagem cinematográfica de uma mulher vestindo uma camisa amarela", gerou um resultado satisfatório em cerca de 15 segundos. Em seguida, o prompt "uma mulher vestindo uma camisa amarela com a inscrição 'Refúgio Curioso' no centro de Los Angeles" também foi bem interpretado, embora a inscrição tenha aparecido nas costas da camisa, e não na frente como imaginei. Por fim, um prompt mais complexo: "uma imagem cinematográfica de uma mulher com olhos azuis, óculos de armação cinza, camisa amarela com a inscrição 'Refúgio Curioso' no centro de Los Angeles, filmada com uma câmera IMAX, com granulação realista e fundo repleto de pessoas vestindo roupas de cores suaves". O Flux entregou uma imagem impressionante, correspondendo a quase todos os detalhes do prompt. Comparativamente, o Midjourney, apesar de gerar resultados interessantes com o mesmo prompt, apresentou inconsistências na renderização do texto, com níveis de branco e preto excessivamente contrastados.
Embora o Flux se apresente como um forte concorrente, realizei um comparativo com o Midjourney em diferentes categorias para avaliar seus pontos fortes e fracos.
Interpretação de Prompt: Em um prompt complexo descrevendo um homem em um café dinamarquês, ambas as ferramentas se saíram excepcionalmente bem, reproduzindo a maioria dos detalhes.
Tamanho e Formato: O Midjourney oferece maior flexibilidade na escolha do formato e gera imagens em maior resolução. O Flux, na versão online Pro, limita as imagens a 2MB, restringindo as possibilidades de resolução.
Qualidade Visual: Em um prompt sobre um homem com um chapéu azul segurando uma tigela de cereal, o Midjourney apresentou uma qualidade visual ligeiramente superior, com aspecto mais cinematográfico, embora com algumas distorções nas proporções.
Diversidade: Em um teste com o prompt genérico "CEO", ambas as ferramentas inicialmente apresentaram pouca diversidade. No entanto, ao ajustar os parâmetros de variabilidade (guidance scale no Flux e variety slider no Midjourney), ambos geraram resultados mais diversificados, tanto em termos de composição quanto de estética.
Tipografia: No prompt "um anúncio de tênis Air Force 1 branco com uma placa ao fundo com a inscrição 'Verão', em Los Angeles", o Flux se destacou, gerando imagens que correspondiam precisamente ao prompt. O Midjourney, por outro lado, apresentou inconsistências na composição e na tipografia.
Conclusão: O Flux se mostra uma ferramenta promissora, com potencial para se tornar um dos líderes no mercado de geração de imagens por IA. Sua capacidade de interpretar prompts complexos e a menor censura a gêneros são grandes vantagens. No entanto, as limitações de resolução na versão online e a impossibilidade de gerar múltiplas imagens simultaneamente são desvantagens em comparação com concorrentes como o Midjourney. Apesar disso, o Flux representa uma alternativa robusta e merece atenção de artistas e entusiastas da IA. A expectativa é de que, com futuras atualizações, o Flux supere essas limitações e se consolide como uma ferramenta essencial para a criação de imagens.