Logotipo-500-x-400-px.png

Construindo um Cluster de IA com Mac Studios: Um Experimento Inusitado

A Inteligência Artificial (IA) tem se tornado cada vez mais presente em nossas vidas, e com ela, a demanda por modelos de linguagem mais poderosos e complexos também cresce. Executar esses modelos, como o Llama 3.1405B, normalmente requer clusters de IA na nuvem, com servidores de alto custo. Neste experimento, exploramos a possibilidade de utilizar cinco Mac Studios para criar um cluster local de IA, visando executar modelos robustos sem depender da nuvem.

Ju0ndy2kwlw

Configurando o Cluster e Lidando com os Desafios

O primeiro passo foi conectar os cinco Mac Studios. Optamos pela conexão Ethernet de 10 gigabits integrada em cada máquina, utilizando um switch XG6 PoE. Embora 10 gigabits pareça muito, sabíamos que essa seria a principal limitação do nosso cluster, especialmente ao comparar com as conexões de 400 ou até 800 gigabits por segundo utilizadas em redes de IA empresariais. Além disso, a comunicação entre os Macs, por meio da pilha TCP/IP, adiciona uma sobrecarga considerável, impactando o desempenho.

Utilizamos o software XO Labs, que facilita a criação de clusters de IA com diferentes tipos de hardware. Após instalar o Python 3.12 e o MLX (Machine Learning Acceleration) em todos os Macs, clonamos o repositório do XO Labs e instalamos o software com o PIP. O XO Labs oferece uma interface web intuitiva para gerenciar o cluster e interagir com os modelos de linguagem. Um ponto interessante é a capacidade do XO Labs de dividir o modelo entre os nós do cluster, otimizando o uso dos recursos. No entanto, o download inicial do modelo, especialmente para modelos grandes, pode ser demorado, mesmo com a divisão da tarefa.

Testamos inicialmente modelos menores, como o Llama 3.2 1B, em um único Mac Studio e obtivemos um bom desempenho, com cerca de 117 tokens por segundo. Ao adicionar os outros Macs ao cluster, a velocidade caiu drasticamente para 29 tokens por segundo, evidenciando o gargalo da rede. Experimentamos também a conexão Thunderbolt, que oferece até 40 gigabits por segundo e acesso direto ao barramento PCIe, resultando em uma melhora no desempenho, mas ainda limitada pela arquitetura da nossa configuração com um Mac atuando como hub.

CopyofIAGenerativanoDireito40

R$ 59,90

Testando Modelos Maiores e Integrando com Fabric

O objetivo principal era executar o Llama 3.1405B. Com a quantização de 4 bits, reduzindo o tamanho do modelo e permitindo sua execução em GPUs menores, tentamos executá-lo em um único Mac Studio. O resultado foi o uso intenso de RAM, chegando ao ponto de utilizar a memória swap do disco rígido, tornando o processo extremamente lento. Ao distribuir o modelo entre os cinco Macs, conseguimos executá-lo sem usar a memória swap, alcançando uma velocidade de 0.8 tokens por segundo na rede de 10 gigabits e 0.6 tokens por segundo com Thunderbolt.

Apesar da lentidão, a capacidade de executar um modelo tão grande em hardware local é impressionante. Testamos também o Llama 3.3 70B, que teve um desempenho significativamente melhor em um único Mac Studio, demonstrando a eficiência do Llama em comparação com outros modelos.

Finalmente, integramos o XO Labs com o Fabric, um projeto que facilita a interação com modelos de linguagem. Graças à compatibilidade da API do XO Labs com a API do ChatGPT, a integração foi simples e permitiu utilizar o Fabric para enviar prompts ao cluster e receber respostas de forma eficiente. Isso demonstra o potencial do XO Labs para ser integrado a diversas ferramentas que utilizam a API do ChatGPT.

Este experimento demonstrou a viabilidade de criar um cluster de IA local com Mac Studios, apesar das limitações de rede. A capacidade de executar modelos grandes como o Llama 3.1405B localmente abre portas para novas possibilidades em IA, especialmente para quem busca privacidade e independência da nuvem. O XO Labs se mostra uma ferramenta promissora para facilitar a criação e o gerenciamento desses clusters, e a integração com o Fabric amplia ainda mais suas possibilidades de uso.

Gostou do conteúdo? Compartilhe

Facebook
LinkedIn
WhatsApp
Twitter
Telegram
Email

Referência

Construindo um Cluster de IA com Mac Studios: Um Experimento Inusitado

Uma resposta

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Este site utiliza cookies. Ao continuar a navegar neste site, você aceita o uso de cookies e nossa política de privacidade.