O Google tem estado em uma verdadeira maratona de lançamentos recentemente, e sua mais nova inovação, o Gemini 2.0, promete revolucionar a geração e edição de imagens com inteligência artificial. Disponibilizado gratuitamente no AI Studio, o Gemini 2.0 é multimodal, compreendendo não apenas texto, mas também imagens, áudio e vídeo, com capacidade de gerar e editar imagens. Alguns entusiastas já o chamam de "assassino do Photoshop", embora uma análise mais cautelosa seja necessária para avaliar seu real impacto. No entanto, seu poder e suas funcionalidades impressionam, abrindo um universo de possibilidades criativas.

Para experimentar o Gemini 2.0, é preciso acessar o AI Studio do Google (o link estaria aqui, mas removemos os CTAs). Um login com conta Google é suficiente. O AI Studio é uma plataforma voltada para prototipagem e experimentação, portanto, sua interface é menos intuitiva que a de plataformas dedicadas. Contudo, não é difícil de usar, e com algumas dicas, é possível navegar e aproveitar seus recursos. Lembre-se de selecionar “Gemini 2.0 flat image generation” no menu “model”. Os limites de uso são generosos: 10 requisições por minuto e um máximo de 1500 por dia.
O Gemini 2.0 utiliza o Imagen 3 como gerador de imagens, demonstrando excelente coerência na interpretação dos prompts, especialmente em cenários cinematográficos. Em testes, a IA conseguiu criar uma sequência de imagens com um homem de terno azul em uma estação abandonada no deserto. Comandos simples como "criar um ângulo reverso" ou "close-up do homem de terno azul parecendo preocupado" geraram resultados impressionantes, mantendo a coerência estética e contextual. Essa sequência de imagens pode ser facilmente utilizada em geradores de vídeo como o Luma Labs, para criar curtas-metragens.
A compatibilidade do AI Studio com imagens de outras plataformas, como o Midjourney, é um ponto positivo. Ao inserir uma imagem do Capitão Renfield, um personagem fictício, e solicitar um ângulo cinematográfico alternativo, o Gemini 2.0 gerou uma nova perspectiva impressionante, mantendo os elementos principais e adicionando detalhes contextuais. Entretanto, a resolução da imagem inicial pode ser baixa, necessitando de upscaling posterior.
Ao realizar múltiplas iterações (três ou quatro gerações), a fidelidade da imagem pode decair. Reprompts com a imagem original ajudam a recuperar a qualidade. A IA possui uma memória peculiar, por vezes, incluindo elementos de prompts anteriores mesmo quando não solicitados. Testes com a adição de uma espada à imagem de um personagem mostraram a necessidade de reprompts para ajustar a posição do objeto. A funcionalidade "branch" permite criar novos fluxos de edição, preservando as iterações anteriores.
O Gemini 2.0 funciona bem com fotos reais. Em um exemplo, a IA conseguiu alterar a cor da pelagem de um gato com um prompt simples. A plataforma também se mostrou promissora na criação de keyframes para vídeos, especialmente para sequências de luta, que costumam ser problemáticas em IAs de vídeo. Testes com três keyframes de uma luta de kung fu geraram resultados interessantes no Runway, apesar das limitações. Experimentos com a coreografia baseada na primeira imagem gerada podem aprimorar a coerência.
A criação de personagens 3D para plataformas como o Luma é outra aplicação promissora. Testes com uma guerreira viking mostraram a capacidade da IA de gerar diferentes ângulos e poses da personagem a partir de uma única imagem. Apesar de não ser uma ferramenta 3D completa, o Gemini 2.0 demonstra excelente compreensão de separação de objetos, cenário e profundidade. A combinação de imagens ainda precisa de aprimoramentos, mas o potencial é evidente.
Experimentos da comunidade revelaram outras possibilidades, como a geração de wireframes 3D a partir de imagens 2D, criação de níveis de jogos a partir de sprites, substituição de produtos em imagens e manutenção da consistência estilística em edições. A gratuidade do Gemini 2.0 para essas funções o torna ainda mais atrativo.
O futuro do Gemini 2.0 é promissor. Recursos como geração de vídeo e uma ferramenta do tipo "canvas" estão em desenvolvimento. A geração de vídeo, em particular, gera grande expectativa. Resta saber se será o modelo "turbo" visto no YouTube Shorts ou a versão completa V2. Independentemente disso, o Gemini 2.0 já se apresenta como uma ferramenta poderosa e versátil para geração e edição de imagens com IA, com potencial para impactar significativamente o cenário criativo. Acompanharemos de perto seus próximos desenvolvimentos e novas funcionalidades.