Há apenas sete anos, a geração automática de legendas para imagens era uma grande conquista da pesquisa em IA. Algoritmos conseguiam rotular objetos, e a novidade era transformá-los em descrições em linguagem natural. O que parecia ficção científica na época, a criação de imagens a partir de texto, era um desafio ainda maior. Não se tratava de buscar imagens existentes, como um mecanismo de busca, mas sim de gerar cenas totalmente novas, inéditas. Os primeiros resultados, em 2016, eram imagens minúsculas de 32x32 pixels, blobs indistintos que, apesar da baixa resolução, demonstravam o potencial da tecnologia. Pedidos como "um ônibus escolar vermelho ou verde", "uma manada de elefantes voando em céus azuis" ou "um assento de vaso sanitário aberto em um campo de grama" geravam resultados rudimentares, mas abriam caminho para um futuro que, em pouco tempo, se tornaria realidade.

O avanço da tecnologia nos últimos anos foi exponencial. Em 2018, um retrato gerado por IA foi leiloado por mais de US$ 400.000. Em 2019, uma instalação de retratos em transformação foi vendida pela Sotheby's. Essas obras, criadas por artistas como Mario Klingemann, utilizavam modelos de IA treinados com conjuntos de dados específicos, como paisagens ou retratos. No entanto, esses modelos eram limitados à sua área de treinamento. Um modelo treinado em retratos não conseguiria gerar paisagens. A virada de jogo ocorreu com o surgimento de modelos gigantescos, capazes de assimilar um volume imenso de dados e gerar imagens a partir de qualquer combinação de palavras. A partir de 2021, com o anúncio do DALL-E pela OpenAI, a capacidade de criar imagens realistas a partir de texto deu um salto significativo. O DALL-E 2 promete resultados ainda melhores, mas o acesso a essas tecnologias ainda é restrito. Paralelamente, desenvolvedores independentes criaram geradores de imagem a partir de texto de código aberto, permitindo a experimentação e o surgimento de comunidades como a do Midjourney, no Discord, onde usuários podem interagir com bots que transformam texto em imagens em segundos.
A arte de se comunicar com esses modelos de aprendizado profundo é chamada de "prompt engineering". A escolha das palavras certas é crucial para obter o resultado desejado. Adicionar detalhes como "renderização em Octane", "Blender 3D", "Unreal Engine", tipos de lentes e câmeras, datas, estilos artísticos como "linogravura" ou "xilogravura", e até mesmo combinações inusitadas como "um McMuffin em forma de ovo Fabergé" ou "um pôster infográfico monocromático sobre tipografia representando caracteres chineses", permite explorar as possibilidades criativas da IA. Essa interação com a máquina se assemelha a um diálogo com um colaborador imprevisível, capaz de gerar resultados surpreendentes.
Para gerar imagens a partir de texto, esses modelos utilizam conjuntos de dados massivos, com centenas de milhões de imagens e suas respectivas descrições, extraídas da internet, incluindo o texto alternativo (alt text) das imagens em sites. Ao receber um prompt, o modelo não busca imagens semelhantes no conjunto de dados, mas navega por um "espaço latente" multidimensional. Imagine um espaço com mais de 500 dimensões, onde cada eixo representa uma variável aprendida pelo modelo durante o treinamento. Essas variáveis não são compreensíveis para humanos, mas criam agrupamentos significativos no espaço latente, como regiões que representam a "banana-ness", fotos dos anos 1960, neve, globos de neve e assim por diante. O prompt de texto guia o modelo para um ponto específico nesse espaço, que representa a "receita" para a imagem desejada.
A transformação desse ponto em uma imagem real ocorre por meio de um processo generativo chamado "difusão". Partindo de um ruído aleatório, o modelo gradualmente organiza os pixels até formar uma composição coerente. A aleatoriedade do processo garante que a mesma entrada nunca gere exatamente a mesma imagem. Além disso, diferentes modelos, treinados com dados diferentes, produzirão resultados distintos para o mesmo prompt, pois operam em espaços latentes diferentes. A capacidade de imitar estilos artísticos, simplesmente adicionando o nome do artista ao prompt, demonstra o poder de extração de padrões desses modelos. No entanto, essa capacidade levanta questões éticas e de direitos autorais, especialmente em relação aos artistas cujas obras foram utilizadas no treinamento dos modelos. A necessidade de transparência sobre o prompt utilizado e o software de geração de imagens, bem como a possibilidade dos artistas optarem por incluir ou não suas obras nos conjuntos de dados de treinamento, são pontos importantes a serem discutidos.
As implicações dessa tecnologia são profundas e abrangentes. Além das questões de direitos autorais, os vieses presentes nos dados de treinamento podem se refletir nas imagens geradas, perpetuando estereótipos e preconceitos. A facilidade de criar imagens realistas também levanta preocupações sobre a disseminação de deepfakes e outras formas de manipulação de imagens. No entanto, o potencial criativo é inegável. A geração de imagens a partir de texto remove as barreiras entre ideias e imagens, abrindo caminho para novas formas de expressão artística e comunicação visual, com implicações que ainda estamos apenas começando a compreender.