O campo da inteligência artificial está em constante evolução, com novos modelos de linguagem e avanços tecnológicos surgindo a um ritmo acelerado. Recentemente, um modelo em particular, o Reflexão 70B, chamou a atenção da comunidade de IA, gerando uma onda de entusiasmo e, posteriormente, uma série de questionamentos e acusações. Neste post, vamos mergulhar na história do Reflexão 70B, explorando sua ascensão meteórica, as controvérsias que o cercam e o que podemos aprender com esse caso intrigante.

No dia 5 de setembro, Matt Schumer, CEO da Otherside AI, anunciou o lançamento do Reflexão 70B, proclamando-o como o melhor modelo de código aberto do mundo, superando até mesmo modelos privados em alguns benchmarks. O anúncio foi recebido com entusiasmo pela comunidade de IA, principalmente pela promessa de um modelo de código aberto com desempenho comparável aos gigantes do mercado.
Schumer atribuiu o sucesso do modelo a uma técnica chamada "reflexão ajustada", que permite ao modelo analisar sua própria saída durante o processo de geração de texto, levando a resultados mais precisos e coerentes. Ele compartilhou exemplos impressionantes do modelo em ação, respondendo a perguntas complexas com uma linha de raciocínio clara e convincente.
No entanto, a euforia inicial logo se transformou em ceticismo quando especialistas começaram a analisar o modelo mais a fundo. Tentativas independentes de reproduzir os resultados divulgados por Schumer falharam, com o Reflexão 70B apresentando um desempenho significativamente inferior ao esperado e até mesmo pior do que modelos menos sofisticados.
À medida que a comunidade de IA investigava o Reflexão 70B, uma série de sinais vermelhos surgiram, lançando dúvidas sobre a legitimidade do modelo e as alegações de Schumer. Um dos primeiros indícios de problema foi a incapacidade de outros pesquisadores replicarem os resultados excepcionais do modelo utilizando os pesos e códigos disponibilizados publicamente.
Além disso, análises mais aprofundadas revelaram que o modelo disponibilizado como Reflexão 70B era, na verdade, uma versão modificada do modelo Llama 3, e não um modelo inteiramente novo como inicialmente afirmado. Essa revelação levantou suspeitas de que Schumer e sua equipe teriam utilizado técnicas desonestas para inflar artificialmente o desempenho do modelo nos benchmarks.
As suspeitas se intensificaram quando Schumer, em resposta às críticas, alegou problemas com a API e o processo de upload do modelo, prometendo correções em breve. No entanto, as versões subsequentes do modelo, mesmo com as supostas correções, continuaram a apresentar um desempenho muito abaixo do esperado, alimentando ainda mais as suspeitas de fraude.
A comunidade de IA, agora cética e desconfiada, começou a investigar as alegações de Schumer com ainda mais afinco. A descoberta de que a API privada utilizada para demonstrar o modelo era, na verdade, uma interface para o modelo Claude, da Anthropic, disfarçada para se assemelhar ao Reflexão 70B, corroborou a tese de fraude.