Em março de 2024, Jensen Huang, CEO da Nvidia, previu a chegada de jogos gerados por IA em menos de 10 anos. Sua visão era de redes neurais criando o jogo em tempo real, pixel por pixel, enquanto o jogador interage. Mal sabia ele que, apenas quatro meses depois, o Google DeepMind revelaria algo que sugere que este futuro já é possível: o Game Engine Neural Model. Este modelo consegue simular o clássico jogo Doom em tempo real, permitindo que jogadores experimentem o jogo de uma forma totalmente nova, gerada por inteligência artificial.

Para entender a magnitude dessa inovação, é preciso revisitar a história do Doom. Lançado em 1993, Doom foi revolucionário por seu motor gráfico 3D, criado por John Carmack. Carmack, à frente de seu tempo, desenvolveu uma maneira de simular gráficos 3D em uma época em que placas gráficas dedicadas eram um sonho distante. Ele escreveu o código-fonte à mão, um feito impressionante considerando as limitações tecnológicas da época. O código do Doom, com suas peculiaridades e até um erro no valor de pi, tornou-se um ícone, inspirando a comunidade tech a explorar seus limites, portando-o para as mais inusitadas plataformas: telefones antigos, caixas de estacionamento, microondas e até testes de gravidez. A versatilidade do Doom solidificou seu lugar na cultura geek, exemplificando a busca incessante por “Será que roda Doom?”.
A relação do Doom com a IA vai além de sua capacidade de rodar em qualquer lugar. Experimentos recentes utilizaram neurônios humanos em placas de Petri para jogar Doom, demonstrando o potencial da interface cérebro-computador. Agora, o Game Engine Neural Model do Google DeepMind leva essa interação a um novo patamar, eliminando a necessidade de código escrito por humanos. O jogo, em vez de seguir instruções pré-programadas, é gerado dinamicamente pela IA, abrindo um universo de possibilidades para o desenvolvimento de jogos.
O Game Engine Neural Model, baseado no modelo de difusão estável 1.4, funciona de maneira peculiar. Ele "aprende" a gerar imagens (e, por extensão, vídeos, que são sequências de imagens) através de um processo de adição e remoção de ruído. Imagens de Doom são alimentadas ao modelo, que gradualmente adiciona ruído até que a imagem original se perca em estática. O modelo então aprende a reverter esse processo, reconstruindo imagens a partir do ruído. O resultado é a capacidade de gerar novas imagens de Doom, não vistas anteriormente, mas coerentes com o estilo e as regras do jogo. Este processo, embora complexo e pouco intuitivo, demonstra o poder dos modelos de difusão na geração de conteúdo.
O treinamento do Game Engine Neural Model exigiu uma abordagem inovadora. Para alimentar o modelo com dados de Doom, os pesquisadores do Google usaram agentes de IA para jogar o jogo, coletando dados rotulados de suas ações. Utilizando o VizDoom, uma plataforma que permite a agentes de IA jogar Doom, os pesquisadores criaram um sistema de recompensas para incentivar comportamentos desejáveis. Ações como derrotar inimigos, coletar itens e explorar novas áreas recebiam recompensas positivas, enquanto ser atingido ou morto resultava em penalidades. Esse sistema de reforço permitiu que os agentes de IA aprendessem a jogar Doom de forma eficaz, gerando um vasto conjunto de dados para treinar o Game Engine Neural Model. Esse processo de aprendizado por reforço, com suas nuances e desafios, como o potencial para “traumatizar” a IA com recompensas mal definidas, demonstra a complexidade do desenvolvimento de agentes inteligentes.
O resultado final é impressionante. Testes com jogadores humanos mostraram que eles têm dificuldade em distinguir entre o Doom real e o Doom simulado pelo Game Engine Neural Model. A IA consegue gerar imagens e sequências de jogo com uma fidelidade surpreendente, aproximando-se da experiência do jogo original. Embora ainda haja desafios a serem superados, como a coerência temporal em sequências mais longas, o Game Engine Neural Model representa um avanço significativo na geração de conteúdo por IA e abre caminho para um futuro onde jogos são criados e adaptados dinamicamente, oferecendo experiências personalizadas e imersivas para cada jogador.