LocalAI: Agora é possível rodar grandes modelos localmente.

Imagine poder rodar os modelos de Inteligência Artificial mais poderosos do mundo, não em um datacenter da Califórnia, mas dividido entre o seu notebook antigo, o desktop de jogos e até aquele mini-PC encostado no canto. Sem enviar seus dados para ninguém. Sem assinaturas mensais.

Isso não é ficção científica. É a nova funcionalidade de Inferência Distribuída do LocalAI .

Neste artigo, vamos explorar como o LocalAI — uma ferramenta fantástica que transforma qualquer computador em uma API compatível com a OpenAI — agora permite criar um "enxame" (Swarm) de computadores para rodar IA de forma descentralizada.


O Problema: "O Modelo é Pesado Demais"

Quem já tentou rodar modelos locais (como Llama-3-70b ou Mixtral) sabe que o gargalo é sempre a memória (VRAM/RAM). Um modelo de alta qualidade pode exigir 48GB ou mais de memória, o que custa milhares de dólares em uma única placa de vídeo.

Até hoje, a solução era alugar servidores caros ou contentar-se com modelos "burros" e pequenos.

A Solução: Dividir para Conquistar (P2P)

O LocalAI introduziu um sistema de Cluster P2P (Peer-to-Peer). Ele usa a mesma tecnologia por trás do IPFS (go-libp2p) para conectar seus computadores sem configurações complexas de rede. Não precisa abrir portas no roteador, nem configurar VPNs manuais. Eles se encontram "magicamente" usando um Token compartilhado .

O LocalAI oferece dois modos principais de fazer isso:

1. Modo Federado (Federated Mode)

Ideal para: Escritórios ou quem precisa atender muitos usuários.

Imagine um call center. Quando uma ligação chega, ela é passada para o atendente que estiver livre.
No Modo Federado, vários computadores rodam o LocalAI de forma independente. Um "líder" recebe os pedidos e os distribui para quem estiver ocioso. Isso não deixa o modelo mais rápido nem permite rodar modelos maiores, mas permite atender muitas pessoas ao mesmo tempo.

2. Modo Worker / Sharding (O "Voltron" da IA)

Ideal para: Usuários domésticos e entusiastas.

É aqui que a mágica acontece. Se você quer rodar um modelo gigante que não cabe na memória de um só computador, o LocalAI pode fatiar o modelo.
Ele coloca um pedaço do cérebro da IA no PC #1, outro pedaço no PC #2, e assim por diante. Quando você faz uma pergunta, todos trabalham juntos para gerar a resposta.
Nota: Atualmente, isso funciona exclusivamente com modelos compatíveis com llama-cpp (formato GGUF) .


Guia Prático: Criando seu Cluster de IA

Vamos focar no método mais simples usando a interface web (WebUI), mas também cobriremos o terminal.

Pré-requisitos

  • Dois ou mais computadores (podem ser Linux, Mac, Windows com WSL2 ou Docker).
  • LocalAI instalado em todos eles.
  • Eles devem conseguir se "ver" na rede (se estiver usando Docker, use --net host).

Passo 1: O Líder (Master)

Escolha seu computador principal. Vamos iniciar o LocalAI ativando o modo P2P.

No Terminal:

local-ai run --p2p

Se estiver usando Docker, lembre-se de passar a flag de rede:

docker run -ti --net host localai/localai:latest-aio-cpu --p2p

Assim que iniciar, vá até o navegador e acesse o painel do LocalAI (geralmente http://localhost:8080). Procure pela seção "Swarm" (Enxame). Lá você verá um Token P2P. Copie esse código; ele é a chave do seu clube secreto.

Passo 2: Os Trabalhadores (Workers)

Agora, vá para os outros computadores. Você não precisa baixar modelos neles; o sistema gerencia a distribuição.

Para adicionar um computador como um trabalhador puro (que apenas doa processamento), use o comando abaixo substituindo SEU_TOKEN_AQUI pelo código que você copiou:

TOKEN=SEU_TOKEN_AQUI local-ai worker p2p-llama-cpp-rpc

(Você pode adicionar argumentos extras de memória se necessário, como --llama-cpp-args="-m 4096" para limitar o uso de RAM).

Passo 3: Rodando o Modelo

Volte ao computador Líder. No painel "Swarm", você deverá ver os novos trabalhadores aparecerem na lista.
Agora, ao carregar um modelo compatível (GGUF/llama-cpp), o LocalAI detectará os recursos disponíveis no cluster e dividirá o peso do modelo proporcionalmente à memória de cada máquina .


Detalhes Técnicos Importantes

Para os leitores mais técnicos, aqui estão algumas "pegadinhas" e detalhes que a documentação oficial ressalta:

  1. Docker e Rede: O sistema P2P depende de descobrir outros nós. Se você rodar o Docker no modo padrão (bridge), ele ficará isolado. Sempre use --net host para que o container tenha acesso direto à interface de rede do host .
  2. Ordem das Coisas: Garanta que o servidor (Líder) detecte os trabalhadores antes de iniciar a inferência (fazer a pergunta). Atualmente, não é possível adicionar novos trabalhadores no meio de uma geração de texto.
  3. A Latência Importa: No modo Worker, os dados trafegam entre os computadores a cada "token" (palavra) gerada. Se você conectar um PC via Wi-Fi lento e outro via cabo, a velocidade será nivelada pelo mais lento. Use rede cabeada (Gigabit ou superior) para melhor performance.
  4. Segurança: O tráfego é gerido via EdgeVPN e é privado entre os nós que possuem o Token. Não há um servidor mestre central na internet controlando seu cluster; a arquitetura é verdadeiramente descentralizada.

Conclusão

O LocalAI está democratizando não apenas o uso de IA, mas a infraestrutura de IA. A capacidade de rodar modelos maiores que a sua placa de vídeo permite, usando hardware que você já tem em casa, é um divisor de águas.

Seja para privacidade total dos seus dados ou apenas pelo prazer "hacker" de ver três laptops velhos rodando um modelo de 70 bilhões de parâmetros, o modo Cluster do LocalAI é uma ferramenta que você precisa testar hoje.


*Fonte base: Documentação Oficial LocalAI - Distributed Inference *