A recente revelação do Sora, o modelo de geração de vídeo da OpenAI, gerou grande entusiasmo na comunidade de Inteligência Artificial. Sua capacidade de criar vídeos realistas a partir de prompts de texto é impressionante, levando muitos a especular sobre seu potencial para simular o mundo físico e, consequentemente, contribuir para o desenvolvimento da Inteligência Artificial Geral (AGI). No entanto, uma pesquisa recente da ByteDance lança luz sobre as limitações atuais dessa tecnologia e questiona se modelos como o Sora realmente compreendem as leis da física ou se apenas reproduzem padrões aprendidos.

A OpenAI apresentou o Sora como um possível caminho para a construção de simuladores de propósito geral do mundo físico. Essa afirmação, bastante ambiciosa, sugere que o modelo seria capaz de gerar vídeos não apenas visualmente impressionantes, mas também coerentes com as leis da física. A pesquisa da ByteDance, contudo, contesta essa premissa. Através de experimentos com cenas sintéticas geradas por um motor de física 2D, os pesquisadores treinaram um modelo de geração de vídeo para prever frames futuros, uma abordagem comum nesse campo. Os resultados mostraram que, embora o modelo apresente excelente desempenho em cenários "dentro da distribuição" (ou seja, semelhantes aos dados de treinamento), ele falha em generalizar para situações "fora da distribuição".
Essa discrepância de desempenho sugere que o modelo, em vez de simular a dinâmica física, se baseia em um mecanismo de recuperação de casos. Em outras palavras, ele identifica no conjunto de dados de treinamento exemplos semelhantes à solicitação e os reproduz, adaptando-os superficialmente. Isso explica por que o modelo consegue gerar vídeos realistas em cenários já vistos, mas falha em prever o comportamento de objetos em situações novas, mesmo que essas situações obedeçam às mesmas leis da física presentes nos dados de treinamento.
Um exemplo particularmente ilustrativo apresentado pela pesquisa demonstra a priorização de atributos visuais em detrimento da física. O modelo foi treinado com cenas onde círculos eram sempre vermelhos e quadrados sempre azuis. Ao receber um prompt para gerar um vídeo com um quadrado vermelho, o modelo simplesmente o transformou em um círculo vermelho, mantendo a cor, mas ignorando completamente a forma e o comportamento físico esperado. Essa "alucinação" demonstra que o modelo se concentra em recuperar padrões visuais, mesmo que isso viole as leis da física que regem o movimento dos objetos.
Essa tendência à memorização e recuperação, em vez da compreensão e simulação, tem implicações significativas para o desenvolvimento da AGI. Se os modelos de geração de vídeo atuais se baseiam em recuperação, a simples ampliação da escala dos dados de treinamento não garante a capacidade de generalizar para novas situações e, portanto, não representa um caminho viável para a AGI. A pesquisa da ByteDance destaca a necessidade de novas arquiteturas que permitam aos modelos compreender e simular a dinâmica do mundo físico, em vez de apenas memorizar padrões.
A pesquisa da ByteDance serve como um alerta para a comunidade de IA. Enquanto modelos como o Sora impressionam com sua capacidade de gerar vídeos realistas, a sua capacidade de simular o mundo físico ainda é limitada. A priorização de atributos visuais sobre a física e a dependência da recuperação de casos demonstram que esses modelos não compreendem verdadeiramente as leis que regem o mundo real.
A busca pela AGI requer modelos que possam generalizar para situações novas e imprevisíveis. Para isso, é necessário ir além da simples recuperação de padrões e desenvolver arquiteturas que permitam aos modelos aprender e aplicar as leis da física. A pesquisa da ByteDance aponta para a necessidade de uma mudança de paradigma na forma como abordamos a simulação física em IA, abrindo caminho para novas pesquisas e desenvolvimentos nessa área crucial para o futuro da inteligência artificial.