O universo da inteligência artificial nunca mais será o mesmo. Com a chegada do Chat GPT-4, a OpenAI eleva a criação e edição de imagens a um novo patamar, superando significativamente as capacidades de concorrentes como Gemini e Gro. Este novo modelo de IA não apenas gera imagens realistas impressionantes, mas também demonstra uma capacidade sem precedentes de manipular e editar imagens com texto, logos e detalhes complexos, abrindo um mundo de possibilidades para criadores de conteúdo, designers e profissionais de marketing.

Um dos maiores desafios na edição de imagens com IA sempre foi a colocação de produtos com logotipos e textos pequenos. Ferramentas anteriores, como Gemini e Gro, falhavam em manter a integridade desses elementos, resultando em distorções, textos ilegíveis e logos inconsistentes. Ao testarmos essas ferramentas com a tarefa de inserir uma lata de energético com detalhes complexos nas mãos de uma modelo, os resultados foram decepcionantes. O Gemini produziu uma imagem pixelada e com a lata praticamente irreconhecível. O Gro, embora apresentasse uma leve melhora na qualidade da imagem, ainda não conseguiu reproduzir o produto com fidelidade, alterando o texto e distorcendo as informações.
O Chat GPT-4, por sua vez, demonstrou uma proeza impressionante ao lidar com esse desafio. Utilizando o mesmo prompt e a imagem da lata de energético, o GPT-4 gerou uma imagem fotorrealista da modelo segurando a lata com todos os detalhes intactos: o logo, o texto, até mesmo a informação de volume, com uma pequena discrepância. A nitidez e a resolução da imagem gerada pelo GPT-4 também se destacaram, dispensando a necessidade de upscaling, algo frequentemente necessário com outras ferramentas.
Além da precisão na reprodução de detalhes, o GPT-4 demonstrou uma capacidade notável de integrar a iluminação da cena com o objeto inserido. A lata de energético apresentava reflexos de luz coerentes com a iluminação da modelo, criando uma composição natural e convincente, como se a foto fosse real.
A interação com o Chat GPT-4 se dá por meio de prompts, permitindo edições e ajustes de forma intuitiva. Ao solicitarmos, por exemplo, que a lata fosse reduzida, o modelo prontamente gerou uma nova imagem com a alteração desejada, mantendo a consistência dos demais elementos. Experimentamos também com prompts para alterar a composição da imagem, como transformá-la em um retrato de corpo inteiro ou alterar o formato para horizontal. Embora a consistência da modelo entre as diferentes gerações ainda precise de aprimoramentos, a capacidade de manipular a imagem com simples comandos de texto é revolucionária.
Testamos ainda a capacidade do GPT-4 de corrigir pequenas falhas geradas em imagens anteriores. Ao apontarmos um erro na grafia do texto da lata, o modelo o corrigiu prontamente em uma nova geração. Essa capacidade de interação e refinamento iterativo abre portas para um fluxo de trabalho muito mais eficiente e criativo.
O Chat GPT-4 representa um salto gigantesco na tecnologia de geração e edição de imagens com IA. Sua capacidade de lidar com detalhes complexos, como textos e logotipos, combinada com a facilidade de uso e a alta qualidade das imagens geradas, o coloca à frente da concorrência. Apesar de ainda estar em seus estágios iniciais, o GPT-4 já demonstra um potencial disruptivo para áreas como fotografia, design gráfico e marketing, prometendo um futuro onde a criação de imagens será mais acessível, eficiente e criativa.
Embora a ferramenta atualmente esteja disponível apenas para assinantes do Chat GPT Plus, a OpenAI planeja disponibilizá-la para usuários gratuitos em breve. Com a democratização do acesso a essa tecnologia, podemos esperar uma explosão de criatividade e inovação no campo da criação de imagens com IA.