LocalAI: Agora é possível rodar grandes modelos localmente.

Open Source

Author: R0ot-GT | Published at 5 Novembro 2025

Imagine poder rodar os modelos de Inteligência Artificial mais poderosos do mundo, não em um datacenter da Califórnia, mas dividido entre o seu notebook antigo, o desktop de jogos e até aquele mini-PC encostado no canto. Sem enviar seus dados para ninguém. Sem assinaturas mensais.

Isso não é ficção científica. É a nova funcionalidade de Inferência Distribuída do LocalAI .

Neste artigo, vamos explorar como o LocalAI — uma ferramenta fantástica que transforma qualquer computador em uma API compatível com a OpenAI — agora permite criar um "enxame" (Swarm) de computadores para rodar IA de forma descentralizada.

O Problema: "O Modelo é Pesado Demais"

Quem já tentou rodar modelos locais (como Llama-3-70b ou Mixtral) sabe que o gargalo é sempre a memória (VRAM/RAM). Um modelo de alta qualidade pode exigir 48GB ou mais de memória, o que custa milhares de dólares em uma única placa de vídeo.

Até hoje, a solução era alugar servidores caros ou contentar-se com modelos "burros" e pequenos.

A Solução: Dividir para Conquistar (P2P)

O LocalAI introduziu um sistema de Cluster P2P (Peer-to-Peer). Ele usa a mesma tecnologia por trás do IPFS (go-libp2p) para conectar seus computadores sem configurações complexas de rede. Não precisa abrir portas no roteador, nem configurar VPNs manuais. Eles se encontram "magicamente" usando um Token compartilhado .

O LocalAI oferece dois modos principais de fazer isso:

1. Modo Federado (Federated Mode)

Ideal para: Escritórios ou quem precisa atender muitos usuários.

Imagine um call center. Quando uma ligação chega, ela é passada para o atendente que estiver livre.
No Modo Federado, vários computadores rodam o LocalAI de forma independente. Um "líder" recebe os pedidos e os distribui para quem estiver ocioso. Isso não deixa o modelo mais rápido nem permite rodar modelos maiores, mas permite atender muitas pessoas ao mesmo tempo.

2. Modo Worker / Sharding (O "Voltron" da IA)

Ideal para: Usuários domésticos e entusiastas.

É aqui que a mágica acontece. Se você quer rodar um modelo gigante que não cabe na memória de um só computador, o LocalAI pode fatiar o modelo.
Ele coloca um pedaço do cérebro da IA no PC #1, outro pedaço no PC #2, e assim por diante. Quando você faz uma pergunta, todos trabalham juntos para gerar a resposta.
Nota: Atualmente, isso funciona exclusivamente com modelos compatíveis com llama-cpp (formato GGUF) .

Guia Prático: Criando seu Cluster de IA

Vamos focar no método mais simples usando a interface web (WebUI), mas também cobriremos o terminal.

Pré-requisitos

Dois ou mais computadores (podem ser Linux, Mac, Windows com WSL2 ou Docker).
LocalAI instalado em todos eles.
Eles devem conseguir se "ver" na rede (se estiver usando Docker, use --net host).

Passo 1: O Líder (Master)

Escolha seu computador principal. Vamos iniciar o LocalAI ativando o modo P2P.

No Terminal:

local-ai run --p2p

Se estiver usando Docker, lembre-se de passar a flag de rede:

docker run -ti --net host localai/localai:latest-aio-cpu --p2p

Assim que iniciar, vá até o navegador e acesse o painel do LocalAI (geralmente http://localhost:8080). Procure pela seção "Swarm" (Enxame). Lá você verá um Token P2P. Copie esse código; ele é a chave do seu clube secreto.

Passo 2: Os Trabalhadores (Workers)

Agora, vá para os outros computadores. Você não precisa baixar modelos neles; o sistema gerencia a distribuição.

Para adicionar um computador como um trabalhador puro (que apenas doa processamento), use o comando abaixo substituindo SEU_TOKEN_AQUI pelo código que você copiou:

TOKEN=SEU_TOKEN_AQUI local-ai worker p2p-llama-cpp-rpc

(Você pode adicionar argumentos extras de memória se necessário, como --llama-cpp-args="-m 4096" para limitar o uso de RAM).

Passo 3: Rodando o Modelo

Volte ao computador Líder. No painel "Swarm", você deverá ver os novos trabalhadores aparecerem na lista.
Agora, ao carregar um modelo compatível (GGUF/llama-cpp), o LocalAI detectará os recursos disponíveis no cluster e dividirá o peso do modelo proporcionalmente à memória de cada máquina .

Detalhes Técnicos Importantes

Para os leitores mais técnicos, aqui estão algumas "pegadinhas" e detalhes que a documentação oficial ressalta:

Docker e Rede: O sistema P2P depende de descobrir outros nós. Se você rodar o Docker no modo padrão (bridge), ele ficará isolado. Sempre use --net host para que o container tenha acesso direto à interface de rede do host .
Ordem das Coisas: Garanta que o servidor (Líder) detecte os trabalhadores antes de iniciar a inferência (fazer a pergunta). Atualmente, não é possível adicionar novos trabalhadores no meio de uma geração de texto.
A Latência Importa: No modo Worker, os dados trafegam entre os computadores a cada "token" (palavra) gerada. Se você conectar um PC via Wi-Fi lento e outro via cabo, a velocidade será nivelada pelo mais lento. Use rede cabeada (Gigabit ou superior) para melhor performance.
Segurança: O tráfego é gerido via EdgeVPN e é privado entre os nós que possuem o Token. Não há um servidor mestre central na internet controlando seu cluster; a arquitetura é verdadeiramente descentralizada.

Conclusão

O LocalAI está democratizando não apenas o uso de IA, mas a infraestrutura de IA. A capacidade de rodar modelos maiores que a sua placa de vídeo permite, usando hardware que você já tem em casa, é um divisor de águas.

Seja para privacidade total dos seus dados ou apenas pelo prazer "hacker" de ver três laptops velhos rodando um modelo de 70 bilhões de parâmetros, o modo Cluster do LocalAI é uma ferramenta que você precisa testar hoje.

*Fonte base: Documentação Oficial LocalAI - Distributed Inference *

R0ot-GT View more content by R0ot-GT