A Inteligência Artificial (IA) tem se tornado cada vez mais presente em nossas vidas, e com ela, a demanda por modelos de linguagem mais poderosos e complexos também cresce. Executar esses modelos, como o Llama 3.1405B, normalmente requer clusters de IA na nuvem, com servidores de alto custo. Neste experimento, exploramos a possibilidade de utilizar cinco Mac Studios para criar um cluster local de IA, visando executar modelos robustos sem depender da nuvem.

O primeiro passo foi conectar os cinco Mac Studios. Optamos pela conexão Ethernet de 10 gigabits integrada em cada máquina, utilizando um switch XG6 PoE. Embora 10 gigabits pareça muito, sabíamos que essa seria a principal limitação do nosso cluster, especialmente ao comparar com as conexões de 400 ou até 800 gigabits por segundo utilizadas em redes de IA empresariais. Além disso, a comunicação entre os Macs, por meio da pilha TCP/IP, adiciona uma sobrecarga considerável, impactando o desempenho.
Utilizamos o software XO Labs, que facilita a criação de clusters de IA com diferentes tipos de hardware. Após instalar o Python 3.12 e o MLX (Machine Learning Acceleration) em todos os Macs, clonamos o repositório do XO Labs e instalamos o software com o PIP. O XO Labs oferece uma interface web intuitiva para gerenciar o cluster e interagir com os modelos de linguagem. Um ponto interessante é a capacidade do XO Labs de dividir o modelo entre os nós do cluster, otimizando o uso dos recursos. No entanto, o download inicial do modelo, especialmente para modelos grandes, pode ser demorado, mesmo com a divisão da tarefa.
Testamos inicialmente modelos menores, como o Llama 3.2 1B, em um único Mac Studio e obtivemos um bom desempenho, com cerca de 117 tokens por segundo. Ao adicionar os outros Macs ao cluster, a velocidade caiu drasticamente para 29 tokens por segundo, evidenciando o gargalo da rede. Experimentamos também a conexão Thunderbolt, que oferece até 40 gigabits por segundo e acesso direto ao barramento PCIe, resultando em uma melhora no desempenho, mas ainda limitada pela arquitetura da nossa configuração com um Mac atuando como hub.
O objetivo principal era executar o Llama 3.1405B. Com a quantização de 4 bits, reduzindo o tamanho do modelo e permitindo sua execução em GPUs menores, tentamos executá-lo em um único Mac Studio. O resultado foi o uso intenso de RAM, chegando ao ponto de utilizar a memória swap do disco rígido, tornando o processo extremamente lento. Ao distribuir o modelo entre os cinco Macs, conseguimos executá-lo sem usar a memória swap, alcançando uma velocidade de 0.8 tokens por segundo na rede de 10 gigabits e 0.6 tokens por segundo com Thunderbolt.
Apesar da lentidão, a capacidade de executar um modelo tão grande em hardware local é impressionante. Testamos também o Llama 3.3 70B, que teve um desempenho significativamente melhor em um único Mac Studio, demonstrando a eficiência do Llama em comparação com outros modelos.
Finalmente, integramos o XO Labs com o Fabric, um projeto que facilita a interação com modelos de linguagem. Graças à compatibilidade da API do XO Labs com a API do ChatGPT, a integração foi simples e permitiu utilizar o Fabric para enviar prompts ao cluster e receber respostas de forma eficiente. Isso demonstra o potencial do XO Labs para ser integrado a diversas ferramentas que utilizam a API do ChatGPT.
Este experimento demonstrou a viabilidade de criar um cluster de IA local com Mac Studios, apesar das limitações de rede. A capacidade de executar modelos grandes como o Llama 3.1405B localmente abre portas para novas possibilidades em IA, especialmente para quem busca privacidade e independência da nuvem. O XO Labs se mostra uma ferramenta promissora para facilitar a criação e o gerenciamento desses clusters, e a integração com o Fabric amplia ainda mais suas possibilidades de uso.
Uma resposta
顶级成人网站 提供高质量的成人娱乐内容。选择 有保障的平台 以获得安全且愉快的观看体验。
my web site: buy xanax without prescrition