A promessa de rodar um modelo de linguagem (LLM) sem enviar dados para servidores de terceiros deixou de ser cenário de pesquisador e virou opção concreta de compra. NVIDIA, Apple e integradores OEM passaram a oferecer máquinas de mesa capazes de executar modelos com dezenas a centenas de bilhões de parâmetros localmente, do NVIDIA DGX Spark ao Mac Studio com M3 Ultra. O movimento coincide com a intensificação da orientação da ANPD sobre IA e com a pressão do art. 33 da LGPD sobre transferência internacional de dados.
A escolha, porém, não é binária. Cada caminho atende um perfil distinto de uso, e nenhum dos três elimina sozinho o trabalho de governança que empresas sob sigilo profissional, saúde, jurídico ou finanças precisam manter.

O que significa rodar um LLM localmente
Rodar um LLM localmente é executar a inferência (e, em alguns casos, o ajuste fino) em hardware próprio, sem passar por uma API de terceiros. O modelo, os pesos e os dados que entram e saem ficam na máquina. Frameworks abertos como Ollama, vLLM, llama.cpp e LM Studio viabilizaram esse caminho ao transformar o download e a execução de modelos abertos em poucas linhas de comando.
🚨 Vagas abertas para o nosso grupo de ofertas que vai te fazer economizar MUITO!
Na prática, a decisão não é se o modelo é bom, é se cabe na memória. Modelos com 70 bilhões de parâmetros em quantização Q4 exigem cerca de 40 GB de RAM; modelos na faixa de 200B exigem acima de 120 GB; alguns modelos abertos recentes passam de 600B e exigem workstations de porte. A escolha do hardware é, antes de tudo, a escolha do teto de tamanho do modelo.
Por que privacidade e compliance puxam a demanda
Três vetores explicam o interesse corporativo. O primeiro é regulatório: o art. 33 da LGPD estabelece regime próprio para transferência internacional de dados, e a ANPD publicou em 2025 a Nota Técnica nº 12/2025 com orientações sobre governança algorítmica e proteção de dados em sistemas de IA. O segundo é o sigilo profissional: escritórios de advocacia, clínicas e consultórios começaram a receber orientação explícita para evitar o envio de dados de clientes a provedores de IA em nuvem sem base legal específica. O terceiro é comercial: provedores de SaaS passaram a oferecer soberania de dados como diferencial para clientes corporativos.
A equação, porém, tem limite. A atualização 2025 do OWASP Top 10 para Aplicações de LLM, publicada em março de 2025 com versão em português, mostra que o risco de “Sensitive Information Disclosure” subiu para a segunda posição justamente porque dados sensíveis vazam em saídas mal filtradas, em logs e em pipelines RAG mal configurados. IA local não protege, por si só, contra prompt injection, vazamento em saída nem envenenamento de modelo.
Três caminhos, sem ranking definitivo
Em 2026, três plataformas maduras disputam esse espaço, cada uma com nicho distinto.
NVIDIA DGX Spark, a estação compacta para CUDA
Lançado em outubro de 2025, o DGX Spark reúne em uma caixa de 150 x 150 x 50,5 mm o superchip GB10 Grace Blackwell, com CPU ARM de 20 núcleos e GPU Blackwell conectadas por NVLink-C2C, 128 GB de memória unificada LPDDR5x com banda de 273 GB/s, SSD NVMe de 4 TB com auto-criptografia e ConnectX-7 com até 200 GbE. A NVIDIA informa 1 PFLOPS de IA em FP4, métrica de pico teórico em precisão baixa, útil para inferência e ajuste leve. O sistema roda DGX OS, distribuição Ubuntu customizada, e foi anunciado como capaz de executar modelos de até cerca de 200 bilhões de parâmetros.
O preço nos EUA parte de US$ 3.999 no lançamento e foi reajustado para cerca de US$ 4.699 no NVIDIA Marketplace em janeiro de 2026, com cerca de 4.800 euros na União Europeia. No Brasil, a máquina aparece à venda por R$ 55.999,99 em varejista especializado (Waz), na configuração com SSD de 4 TB, sem canal NVIDIA oficial direto. Versões OEM com o mesmo GB10, da ASUS, Dell, Acer, Gigabyte, HP, Lenovo e MSI, ampliam a oferta.
O ponto forte do Spark é o ecossistema CUDA. Para times que já desenvolvem em PyTorch, vLLM e Triton, é a opção com menor atrito. O limite é a memória: 128 GB unificados acomodam modelos 70B confortavelmente em quantização Q4 e modelos 200B com offload pesado.

Workstation NVIDIA RTX, o caminho de maior teto
Para workloads maiores, a NVIDIA oferece a linha RTX PRO 6000 Blackwell Workstation Edition, anunciada na GTC 2026 com workstations de Dell, HP e Lenovo. A placa traz 96 GB de GDDR7 com ECC, banda de 1.792 GB/s, 4.000 TOPS de IA em FP4, interface PCIe Gen 5 e TDP de 600 W. A geração anterior, RTX 6000 Ada, segue disponível com 48 GB de GDDR6 e 18.176 CUDA cores, e costuma entrar em workstations pré-montadas acima de US$ 7.000 só pela GPU.
O RTX PRO 6000 Blackwell é a opção para rodar modelos na faixa de 70B a 200B em quantização mais alta, com folga de contexto, ou para times que já têm infraestrutura CUDA e querem escalar a inferência local. A banda de 1.792 GB/s também ajuda em treinamento leve e em pipelines de RAG sobre GPU. O custo total da workstation, com fonte, refrigeração e gabinete de porte, fica acima do DGX Spark e exige estrutura de mesa e elétrica dedicada.

Apple Mac Studio M3 Ultra, a estação silenciosa de memória alta
Renovado em março de 2025, o Mac Studio oferece duas configurações: M4 Max (até 16 núcleos de CPU, 40 de GPU, Neural Engine de 16 núcleos, 546 GB/s de banda, até 128 GB de memória unificada) e M3 Ultra (até 32 núcleos de CPU, 80 de GPU, Neural Engine de 32 núcleos, 819 GB/s de banda, de 96 GB a 512 GB de memória unificada). A Apple informa que o M3 Ultra roda LLMs com mais de 600 bilhões de parâmetros inteiramente em memória.
No Brasil, a configuração inicial parte de R$ 25.999 e a topo de linha, com M3 Ultra, 512 GB e SSD de 16 TB, foi cotada em R$ 173.200 no lançamento. A máquina roda modelos via Ollama e llama.cpp com backend MLX, tem refrigeração silenciosa e oferece Thunderbolt 5 a 120 Gb/s na configuração com M3 Ultra, mas exige o ecossistema Apple para extrair o máximo da unificação de memória.

Comparativo resumido
| Máquina | Memória unificada | Banda | Teto de modelo | Preço de referência |
|---|---|---|---|---|
| NVIDIA DGX Spark (GB10) | 128 GB LPDDR5x | 273 GB/s | ~200B com quantização pesada | US$ 3.999 a US$ 4.699 (EUA); R$ 55.999 (varejista BR, sujeito a variação) |
| RTX PRO 6000 Blackwell | 96 GB GDDR7 ECC | 1.792 GB/s | 70B a 200B em quantização alta | Acima de US$ 7.000 só pela GPU (workstation completa, superior) |
| Mac Studio M3 Ultra | 96 GB a 512 GB | 819 GB/s | Acima de 600B (Apple) | R$ 25.999 a R$ 173.200 (Brasil) |
| RTX 6000 Ada (geração anterior) | 48 GB GDDR6 | 960 GB/s | 30B a 40B confortável, 70B com offload | Acima de US$ 7.000 só pela GPU |
IA local não é sinônimo de IA segura
Manter o modelo dentro de casa tira o dado do provedor de nuvem, mas não tira o dado do risco. O OWASP LLM02/2025 lista o vazamento de informações sensíveis como segundo maior risco da categoria, e a maior parte dos incidentes acontece em camadas que rodam em qualquer ambiente: prompts com dados de clientes colados em chats web, logs de inferência que persistem trechos de prompt, e pipelines RAG que indexam documentos sem controle de acesso.
Em outras palavras, governança continua essencial. Logs locais, controle de acesso ao servidor de inferência, criptografia de disco, atualização de pesos, segregação de rede e revisão de saída continuam sendo responsabilidade da empresa, não do fornecedor do hardware.
O cenário Brasil tem hardware caro e nuvem ainda no páreo
Para a empresa brasileira, a conta não termina na escolha técnica. O Imposto de Importação segue em 20% para compras internacionais de até US$ 50 e salta para 60% (com dedução fixa de US$ 20) na faixa entre US$ 50 e US$ 3.000, dentro do programa Remessa Conforme. Acima de US$ 3.000, a compra migra para o regime normal de importação, com Imposto de Importação, ICMS, IPI e PIS/Cofins acumulados, o que encarece workstations topo de linha compradas por importador direto.
Esse desenho tributário torna a oferta local de cada caminho muito desigual. O Mac Studio tem canal oficial Apple no Brasil e preço tabelado em reais. O DGX Spark aparece em varejistas especializados (R$ 55.999 na Waz, na configuração com 4 TB) e em importação, sem loja NVIDIA direta no país. As workstations RTX dependem de integradores e chegam por importação com margem de canal.
A nuvem, por outro lado, continua competitiva em alguns cenários. Quando o modelo exigido é grande demais para a mesa, quando o volume de requisições é imprevisível ou quando a equipe jurídica aceita provedores com sede em jurisdições equivalentes, a alternativa de API com contrato robusto e data residency contratual ainda pesa na decisão. IA local é resposta para parte do problema, não para todo.
Como decidir, em três perguntas
Antes de fechar a compra, três perguntas separam um bom investimento de uma máquina ociosa.
- Qual é o maior modelo que o uso realmente exige? Se a resposta é 13B ou 30B, qualquer uma das três opções roda com folga. Se é 70B, o DGX Spark entra no limite e o Mac Studio M3 Ultra ou o RTX PRO 6000 Blackwell ficam mais confortáveis. Se é acima de 200B, só o M3 Ultra com 512 GB ou um cluster CUDA resolve.
- O time já trabalha em qual ecossistema? Equipes PyTorch e CUDA aproveitam o DGX Spark e o RTX PRO 6000 sem curva nova. Equipes que vivem em Apple ou precisam de uma máquina silenciosa para escritório se ajustam melhor ao Mac Studio.
- O orçamento inclui importação, energia e suporte? Compras acima de US$ 3.000 entram no regime normal; workstations RTX de 600 W pedem circuito elétrico dedicado; suporte NVIDIA no Brasil é mais estruturado via integradores do que direto.
A resposta a essas três perguntas indica o caminho. Não há um vencedor único entre as três plataformas em 2026; cada uma responde a um recorte distinto de modelo, ecossistema e orçamento, e a escolha final combina critério técnico, regulatório e financeiro.






































