AIGridHQ News
返回首页

Quais modelos vocês estão rodando com 8 GB? 16 GB de VRAM? 24 GB? 32 GB? 48 GB? — Guia completo de stacks de IA local

📅 2026-06-13 Reddit - LocalLLaMA
Quais Modelos Executar em 8GB, 16GB, 24GB, 32GB e 48GB de VRAM — O Guia Definitivo de IA Local

Quais Modelos Vocês Estão Executando em 8GB? 16GB de VRAM? 24GB? 32GB? 48GB? — O Guia Completo de Stacks de IA Local

O cenário da IA local avança em velocidade vertiginosa. Em um mês, um modelo domina todas as tabelas de classificação; no mês seguinte, uma nova técnica de quantização ou motor de inferência remodela o que é possível em hardware de consumo. Este artigo é um instantâneo vivo, agregando experiências reais da comunidade sobre quais modelos as pessoas estão realmente executando em cada nível de VRAM — desde modestas placas de 8GB até monstruosas workstations de 48GB. Cobrimos escolhas de modelos, configurações de cache KV, compensações de comprimento de contexto, desempenho em tokens por segundo, hardware subjacente e os diversos casos de uso que impulsionam essas configurações. Se você está construindo um assistente de codificação focado em privacidade, um pipeline de análise de pesquisa ou um companheiro de narrativa criativa, este guia o ajudará a ajustar seu stack com confiança.

Nível de 8GB de VRAM — O Ponto Ideal de Eficiência

Oito gigabytes de VRAM são o ponto de entrada que ainda desbloqueia IA local genuinamente útil. Com 8GB, você não está executando monstros de 70B não quantizados, mas uma onda de modelos altamente otimizados de 7B–13B parâmetros em quantização de 4 bits ou 5 bits (Q4_K_M, Q5_K_M) oferece resultados surpreendentemente capazes. A comunidade convergiu para alguns destaques que equilibram inteligência, velocidade e pegada de memória.

Principais Escolhas de Modelos para 8GB de VRAM

  • Mistral-7B-Instruct (v0.3 / v0.4) — Q5_K_M — O campeão reinante para chat de propósito geral, sumarização e codificação leve em hardware limitado. Inferência ágil, forte seguimento de instruções.
  • Llama-3-8B-Instruct — Q4_K_M — O 8B da Meta oferece notável profundidade de raciocínio para seu tamanho. Q4_K_M encaixa confortavelmente com espaço para uma janela de contexto de 4K–8K.
  • Gemma-2-9B-Instruct — Q4_K_M ou IQ4_NL — O 9B do Google supera sua categoria de peso, especialmente para recordação factual e saída estruturada. A quantização IQ4_NL economiza VRAM preciosa com mínima perda de qualidade.
  • Phi-3-mini-4k (3.8B) — Q8_0 ou FP16 — Quando velocidade e baixa latência são primordiais, o pequeno centro de poder da Microsoft executa-se totalmente não quantizado em 8GB e lida admiravelmente com RAG, classificação e chamada de ferramentas leves.
  • Qwen2.5-7B-Instruct — Q5_K_M — Excepcional para tarefas multilíngues e geração de código; o Qwen 7B em Q5_K_M cabe em 8GB com um buffer de contexto saudável.

Cache KV & Configurações de Contexto para 8GB

A memória de cache KV é o imposto oculto no seu orçamento de VRAM. Em placas de 8GB, cada token de contexto consome espaço significativo — aproximadamente 0,5MB a 1,2MB por 1K tokens para um modelo 7B em 4 bits, dependendo da implementação de atenção. A sabedoria da comunidade sugere:

  • Contexto padrão: 4096–8192 tokens para modelos 7B–8B em quantizações Q4/Q5.
  • Quantização de cache KV (FP8 / Q8_0 cache): Habilitar quantização de cache KV no llama.cpp ou exllamav2 pode recuperar 30–40% da memória de cache, permitindo estender para contexto de 12K–16K em 8GB.
  • Atenção Flash: Se seu backend suportar, a atenção flash reduz dramaticamente o pico de memória durante o preenchimento, melhorando a folga de contexto.
  • Troca para memória GPU compartilhada (fallback de sistema CUDA): Alguns usuários permitem que o excedente transborde para memória compartilhada, mas isso reduz a velocidade de geração de tokens abaixo de 5 t/s — geralmente não recomendado para uso interativo.

Hardware Típico para Configurações de 8GB

  • NVIDIA RTX 3070 / RTX 3060 Ti / RTX 4060 Ti 8GB
  • NVIDIA RTX 2070 Super / GTX 1080
  • AMD Radeon RX 6600 XT / RX 7600 (via backends ROCm ou Vulkan)
  • Apple M1/M2 com 8GB de memória unificada (acelerado por Metal via llama.cpp)

Expectativas de Desempenho

Modelo Quantização Contexto Hardware Tokens/seg
Mistral-7B-Instruct Q5_K_M 4096 RTX 3070 8GB 45–55 t/s
Llama-3-8B-Instruct Q4_K_M 8192 RTX 4060 Ti 8GB 38–48 t/s
Gemma-2-9B IQ4_NL 6144 RTX 3070 8GB 40–50 t/s
Phi-3-mini (3.8B) FP16 4096 RTX 3060 Ti 8GB 90–120 t/s
Qwen2.5-7B Q5_K_M 4096 AMD RX 7600 (Vulkan) 25–35 t/s

Nível de 16GB de VRAM — O Centro de Poder Mainstream

Dezesseis gigabytes é onde a IA local realmente se abre. Esta é a capacidade de VRAM mais comum entre hobbyistas sérios, e hospeda confortavelmente modelos 7B–13B em alta quantização (Q6_K, Q8_0) ou modelos menores em FP16 completo, ao mesmo tempo que desbloqueia a entrada para modelos da classe 20B–34B em quantizações agressivas (IQ3_XXS, Q3_K_M). O nível de 16GB é também o primeiro degrau onde executar um modelo Mixture of Experts (MoE) como um Mixtral quantizado se torna viável.

Principais Escolhas de Modelos para 16GB de VRAM

  • Llama-3.1-8B-Instruct — Q8_0 — Executando a classe 8B em qualidade Q8_0 quase sem perdas com amplo espaço de contexto. Fantástico para escrita de longa duração e conversas complexas de múltiplos turnos.
  • Mistral-Nemo-12B (Mistral + Nvidia) — Q5_K_M — Um esforço conjunto 12B com uma janela de contexto nativa de 128K. Em Q5_K_M cabe em 16GB com contexto utilizável de 8K–16K e oferece excelente desempenho multilíngue.
  • Qwen2.5-14B-Instruct — Q4_K_M — O Qwen 14B situa-se numa zona Cachinhos Dourados: significativamente mais inteligente que modelos 7B, mas ainda cabe em 16GB em Q4 com confortável contexto de 8K.
  • Phi-3-medium-14B — Q4_K_M — O modelo Phi de nível médio da Microsoft destaca-se em tarefas pesadas de raciocínio e cabe em 16GB com espaço de sobra.
  • Mixtral-8x7B-Instruct — IQ3_XXS ou Q2_K — Arquitetura MoE significa apenas ~12,9B parâmetros ativos por token, mas o modelo completo abrange ~46B. Quants agressivos executam-se em 16GB, produzindo saídas surpreendentemente coerentes para escrita criativa e brainstorming.
  • CodeQwen1.5-7B-Chat — Q8_0 — Para desenvolvedores, executar um modelo de código dedicado em Q8_0 em 16GB deixa VRAM para integração LSP e contexto de grande base de código.

Cache KV & Configurações de Contexto para 16GB

  • Modelos 8B em Q8_0: Confortável em contexto 16K–32K com quantização de cache KV habilitada.
  • Modelos 12B–14B em Q4/Q5: Contexto 8K–16K é o ponto ideal; empurrar para 32K requer quantização agressiva de cache KV (Q4_0 cache) e pode desacelerar ligeiramente a geração.
  • Modelos MoE (Mixtral): A sobrecarga de cache KV é proporcional à contagem total de parâmetros, não aos parâmetros ativos. Mantenha o contexto em 4K–8K para desempenho suave em 16GB.
  • Ferramenta de escolha: exllamav2 com seu cache de 8 bits é amplamente elogiado na comunidade por maximizar o contexto em placas de 16GB.

Hardware Típico para Configurações de 16GB

  • NVIDIA RTX 4080 / RTX 4070 Ti Super / RTX 3080
  • NVIDIA RTX 4060 Ti 16GB
  • AMD Radeon RX 6800 / RX 6900 XT / RX 7800 XT
  • Apple M2 Pro / M3 com 16GB de memória unificada
  • Intel Arc A770 16GB (via IPEX-LLM ou llama.cpp Vulkan)

Expectativas de Desempenho

Modelo Quantização Contexto Hardware Tokens/seg
Llama-3.1-8B Q8_0 16K RTX 4080 16GB 55–70 t/s
Mistral-Nemo-12B Q5_K_M 12K RTX 4070 Ti Super 16GB 35–45 t/s
Qwen2.5-14B Q4_K_M 8K RTX 3080 16GB (modificada) 30–40 t/s
Mixtral-8x7B IQ3_XXS 4K RTX 4080 16GB 25–35 t/s
CodeQwen1.5-7B Q8_0 32K RX 7800 XT (ROCm) 40–50 t/s

Nível de 24GB de VRAM — O Playground do Entusiasta

Vinte e quatro gigabytes é o ponto ideal do entusiasta — o domínio da RTX 3090, RTX 4090 e placas de workstation de ponta. Aqui, modelos 13B–20B executam-se em Q6_K ou Q8_0 com generoso contexto de 16K–32K, e modelos da classe 34B tornam-se viáveis em Q4_K_M. Este nível também suporta executar Mixtral-8x7B em Q4_K_M e modelos MoE similares com contexto confortável, tornando-o um favorito para aqueles que priorizam qualidade sobre velocidade bruta.

Principais Escolhas de Modelos para 24GB de VRAM

  • Llama-3.1-70B — IQ2_XXS / IQ3_XXS (via 24GB) — Sim, um modelo 70B em 24GB. Com os mais novos quants ultra-baixos da série IQ, um Llama 70B pode apenas caber numa placa de 24GB com contexto de 2K–4K. A qualidade é degradada, mas ainda supera muitos modelos menores para certas tarefas de raciocínio.
  • Qwen2.5-32B-Instruct — Q4_K_M — O Qwen 32B é indiscutivelmente o melhor modelo single-card 24GB para raciocínio complexo, geração avançada de código e saída estruturada de longa duração. Em Q4_K_M cabe com contexto de 8K–16K.
  • Gemma-2-27B-Instruct — Q4_K_M — O 27B do Google destaca-se em seguimento de instruções e precisão factual. Cabe em 24GB em Q4 com contexto de 8K e oferece forte desempenho.
  • Mixtral-8x7B-Instruct — Q5_K_M — O ponto ideal MoE: Q5_K_M em 24GB com contexto de 8K–12K. Excelente para escrita criativa, roleplay e tarefas multilíngues.
  • Command-R-Plus (Cohere, 104B) — IQ2_XXS — Outra experiência ultra-quant que cabe em 24GB. Principalmente para pesquisa e experimentação; não recomendado para uso em produção, mas fascinante para testar os limites.
  • CodeLlama-34B-Instruct — Q4_K_M — Um modelo de código 34B dedicado para tarefas sérias de engenharia de software, cabendo em 24GB com contexto confortável para raciocínio sobre grandes bases de código.

Cache KV & Configurações de Contexto para 24GB

  • Modelos 32B em Q4: Contexto 8K–16K é padrão; 32K alcançável com cache KV Q8_0 e atenção flash.
  • Modelos MoE em Q5: Contexto 8K–12K é o teto prático antes que a velocidade de geração degrade abaixo de 15 t/s.
  • Ultra-quants 70B: Apenas contexto 2K–4K; cache KV consome uma enorme fração da VRAM restante. Considere isto um playground experimental, não um condutor diário.
  • Prévia de descarregamento Multi-GPU: Alguns proprietários de 24GB emparelham uma placa secundária (ex., RTX 3060 12GB) para descarregar camadas, desbloqueando modelos maiores com quants mais altos — uma ponte para o nível 32GB+.

Hardware Típico para Configurações de 24GB

  • NVIDIA RTX 4090 / RTX 3090 / RTX 3090 Ti
  • NVIDIA RTX A5000 / A5500 (placas workstation)
  • NVIDIA Titan RTX
  • AMD Radeon RX 7900 XTX (24GB, via ROCm)
  • Configurações Dual RTX 3060 12GB (24GB combinados via divisão de camadas llama.cpp)

Expectativas de Desempenho

Modelo Quantização Contexto Hardware Tokens/seg
Qwen2.5-32B Q4_K_M 12K RTX 4090 24GB 28–38 t/s
Gemma-2-27B Q4_K_M 8K RTX 3090 24GB 25–35 t/s
Mixtral-8x7B Q5_K_M 10K RTX 4090 24GB 22–32 t/s
Llama-3.1-70B IQ3_XXS 3K RTX 4090 24GB 6–10 t/s
CodeLlama-34B Q4_K_M 8K RTX 3090 24GB 20–30 t/s

Nível de 32GB de VRAM — Ponte Prosumer & Multi-GPU

O nível de 32GB é menos sobre GPUs de consumo único e mais sobre configurações multi-GPU, Macs Apple Silicon com grande memória unificada e placas de workstation profissionais. Duas RTX 3090 em NVLink ou agrupadas via llama.cpp, um Apple M2 Ultra com 32GB+ de memória unificada, ou uma única placa classe RTX 5000 Ada / A6000 — todas se enquadram aqui. Esta capacidade executa confortavelmente modelos 34B–70B em Q4_K_M a Q5_K_M com contexto de 16K+.

Principais Escolhas de Modelos para 32GB de VRAM

  • Llama-3.1-70B-Instruct — Q4_K_M — O "condutor diário" mais citado pela comunidade para 32GB. Poder total de 70B em Q4 com contexto de 8K–16K. Excelente para pesquisa, análise avançada e escrita profissional.
  • Qwen2.5-72B-Instruct — Q4_K_M — Uma forte alternativa da classe 70B com capacidades excepcionais multilíngues e de codificação. Cabe em 32GB com contexto de 8K–12K.
  • Command-R-Plus (104B) — Q3_K_M — O modelo massivo da Cohere em Q3_K_M espreme-se em 32GB com contexto de 4K–6K. Impressionante para tarefas empresariais estilo RAG.
  • Mixtral-8x22B-Instruct — Q4_K_M — O irmão MoE maior com especialistas de 22B. Total de ~141B parâmetros, mas apenas ~39B ativos. Cabe em 32GB em Q4 com contexto de 6K–8K e oferece raciocínio multilíngue de alto nível.
  • DeepSeek-V2-Lite-Chat (16B MoE) — Q6_K — A arquitetura eficiente da DeepSeek executa-se luxuosamente em 32GB com quant alto e contexto longo para codificação e matemática.

Cache KV & Configurações de Contexto para 32GB

  • 70B em Q4: Contexto padrão 8K–16K; 32K possível com cache KV Q8_0 e atenção flash, embora a velocidade de geração possa cair para 8–12 t/s em contextos longos.
  • MoE 141B em Q4: Contexto 6K–10K; cache KV é a principal restrição devido à contagem total de parâmetros.
  • Divisão Multi-GPU: Ao usar llama.cpp com paralelismo de tensor em duas GPUs de 16GB, o cache KV é tipicamente replicado (não fragmentado), então o orçamento de cache por GPU é metade do total — planeje de acordo.
  • Memória unificada Apple Silicon: No M2 Ultra com 32GB, llama.cpp com backend Metal lida suavemente com 70B Q4 e contexto de 8K; a arquitetura de memória unificada elimina completamente os gargalos PCIe.

Hardware Típico para Configurações de 32GB

  • Dual RTX 3090 24GB (agrupadas, total 48GB, mas frequentemente reportado em configs utilizáveis de 32GB para modelo+cache KV)
  • Single RTX A6000 / RTX 5000 Ada (placa workstation 32GB)
  • Apple M2 Ultra com 32GB de memória unificada (ou M3 Max com 36GB)
  • Dual RTX 4060 Ti 16GB (32GB combinados via divisão de camadas)
  • AMD Radeon Pro W6800 32GB

Expectativas de Desempenho

Modelo Quantização Contexto Hardware Tokens/seg
Llama-3.1-70B Q4_K_M 12K Dual RTX 3090 (48GB total) 14–22 t/s
Qwen2.5-72B Q4_K_M 8K Dual RTX 3090 12–20 t/s
Mixtral-8x22B Q4_K_M 8K RTX A6000 32GB 15–22 t/s
Command-R-Plus (104B) Q3_K_M 4K Apple M2 Ultra 32GB 6–10 t/s

Nível de 48GB de VRAM — A Classe Workstation

Quarenta e oito gigabytes é o reino das configurações dual RTX 3090/4090 em NVLink, RTX A6000 Ada (48GB) e Apple Silicon de ponta (M2 Ultra 48GB+). Este nível executa confortavelmente modelos 70B em Q6_K ou Q8_0 com contexto de 16K–32K, e pode até hospedar modelos 120B+ em Q4. É o alvo para aqueles que executam IA local como ferramenta de trabalho principal — pesquisadores, desenvolvedores independentes construindo aplicativos nativos de IA e empresas mantendo dados internamente.

Principais Escolhas de Modelos para 48GB de VRAM

  • Llama-3.1-70B-Instruct — Q6_K ou Q8_0 — Em quantização quase sem perdas com contexto de 32K, esta é a experiência de IA local mais comparável às APIs hospedadas. Qualidade impressionante para escrita profissional, análise e fluxos de trabalho agênticos.
  • Qwen2.5-72B-Instruct — Q6_K — Executar um 72B em Q6_K com contexto de 16K+ é uma experiência premium para codificação, matemática e tarefas de dados estruturados.
  • Command-R-Plus (104B) — Q4_K_M — Cabe em 48GB com contexto de 6K–10K; uma escolha forte para pipelines RAG empresariais e sumarização de documentos longos.
  • Falcon-40B-Instruct — Q8_0 ou FP16 — Embora mais antigo, o Falcon 40B em precisão total em 48GB é um queridinho de pesquisa para experimentos de fine-tuning e saída estruturada.
  • Yi-34B-200K — Q5_K_M — A massiva janela de contexto nativa de 200K do Yi torna-se praticamente utilizável em 48GB. Em Q5_K_M com contexto de 32K–64K, é ideal para revisão de documentos legais e pesquisa acadêmica.
  • DeepSeek-V2-Chat (236B MoE) — IQ3_XXS — O DeepSeek MoE completo em quants ultra-baixos pode apenas caber em 48GB com contexto de 2K–4K. Um vislumbre da fronteira da inferência MoE local.

Cache KV & Configurações de Contexto para 48GB

  • 70B em Q6/Q8: Contexto de 16K–32K é confortável; com atenção flash e quantização de cache KV, 64K+ é alcançável para algumas arquiteturas.
  • Modelos 100B+ em Q4: Contexto de 6K–12K é o intervalo prático; a maior contagem de parâmetros significa entradas de cache KV maiores por token.
  • Modelos com contexto nativo de 200K (Yi): Contexto verdadeiro de 200K requer desabilitar quantização de cache KV e aceitar velocidades mais lentas (5–10 t/s), mas 32K–64K é perfeitamente utilizável em velocidade total.
  • Benefícios do NVLink: Em configurações dual 3090/4090 com NVLink, o acesso à memória ponto a ponto reduz a sobrecarga de replicação de cache KV, efetivamente aumentando o cache utilizável em 15–25% comparado ao agrupamento sem NVLink.

Hardware Típico para Configurações de 48GB

  • Dual RTX 4090 24GB (NVLink) ou Dual RTX 3090 24GB
  • Single NVIDIA RTX A6000 Ada 48GB
  • NVIDIA L40 / L40S 48GB (GPUs de data center)
  • Apple M2 Ultra com 48GB–64GB de memória unificada
  • Dual AMD Radeon Pro W7900 24GB (48GB combinados)

Expectativas de Desempenho

Modelo Quantização Contexto Hardware Tokens/seg
Llama-3.1-70B Q8_0 32K Dual RTX 4090 48GB 18–28 t/s
Qwen2.5-72B Q6_K 16K RTX A6000 Ada 48GB 15–24 t/s
Command-R-Plus (104B) Q4_K_M 8K Dual RTX 3090 48GB 10–16 t/s
Yi-34B-200K Q5_K_M 48K Dual RTX 4090 48GB 12–18 t/s
DeepSeek-V2 (236B MoE) IQ3_XXS 3K Apple M2 Ultra 64GB 3–6 t/s

Cache KV & Comprimento de Contexto — O Botão de Desempenho Silencioso

Se o tamanho do modelo é o motor, a configuração do cache KV é a transmissão. O cache chave-valor armazena as chaves e valores de atenção para cada token na sua janela de contexto, e cresce linearmente tanto com o tamanho do modelo quanto com o comprimento do contexto. Configure-o incorretamente e você travará com erros de falta de memória ou deixará VRAM significativa ociosa.

Quanta VRAM o Cache KV Consome?

Uma fórmula aproximada usada na comunidade para um modelo com N camadas, H dimensões ocultas e G cabeças KV, executando C tokens de contexto com B bytes por elemento de cache:

KV_cache_bytes ≈ 2 × N × G × (H / total_heads) × C × B × 2  (para matrizes K e V)

Na prática, para um modelo 7B em contexto 4K com cache KV FP16, espere ~0,8–1,2 GB consumidos apenas pelo cache. Em contexto 32K, isso infla para 6–10 GB. É por isso que a quantização de cache KV (FP8, Q8_0, Q4_0) é a otimização de maior impacto após a quantização do próprio modelo.

Estratégias da Comunidade para Cache KV

  1. Atenção Flash 2/3: Reduz o pico de memória durante o preenchimento ao evitar a materialização da matriz de atenção completa. Suportado em exllamav2, vLLM e builds recentes do llama.cpp.
  2. Quantização de Cache KV (FP8 / Q8_0 / Q4_0): Troque uma pequena quantidade de qualidade de saída por 30–60% de economia de memória de cache. Em placas de 8GB e 16GB, isso é frequentemente a diferença entre uma janela de contexto de 4K e 12K.
  3. Atenção de Janela Deslizante: Alguns modelos (Mistral, algumas variantes Qwen) usam atenção de janela deslizante, que limita o crescimento do cache e permite contextos efetivos mais longos sem escalonamento linear de memória.
  4. Descarregamento de Contexto: No llama.cpp, porções não utilizadas do cache KV podem ser descarregadas para RAM do CPU, mas isso incorre em uma penalidade de latência significativa na geração de tokens — melhor reservado para processamento em lote, não chat interativo.
  5. Poda de Cache / Políticas de Despejo: Backends avançados como vLLM implementam despejo inteligente de entradas KV menos importantes, mantendo a qualidade enquanto limitam o uso de memória — cada vez mais adotado para servir contexto longo.

Matriz de Seleção de Modelos Consciente do Hardware

Use esta tabela de referência rápida para mapear seu hardware para o nível de modelo ideal e nível de experiência esperado:

Sua VRAM Classe de Modelo Recomendada Faixa de Quantização Contexto Confortável Nível de Experiência
8GB 3B–8B Q4_K_M a Q8_0 (para <5B) 4K–12K Assistente cotidiano, codificação leve, sumarização
16GB 8B–14B (ou MoE em IQ3) Q4_K_M a Q8_0 8K–32K Hobbyista sério, escrita profissional, codificação de média complexidade
24GB 14B–34B (ou 70B em IQ2) Q4_K_M a Q6_K 8K–32K Entusiasta, codificação avançada, pesquisa, trabalho criativo
32GB 34B–72B Q4_K_M a Q5_K_M 8K–32K Prosumer, RAG empresarial, análise multilíngue
48GB 70B–104B (ou MoE em Q4+) Q4_K_M a Q8_0 16K–64K Workstation, fine-tuning, sistemas agênticos, pesquisa jurídica/acadêmica

Benchmarks de Desempenho Reais — Tokens Por Segundo & Compensações de Qualidade

Desempenho é um conceito cheio de nuances em IA local. Tokens por segundo brutos são apenas um eixo; tempo até o primeiro token (TTFT), velocidade de processamento de prompt e qualidade de saída em um determinado quant — todos importam. Benchmarks da comunidade mostram consistentemente:

  • TTFT torna-se o gargalo em contextos longos: Processar um prompt de 32K tokens em um modelo 70B pode levar 30–90 segundos antes que o primeiro token apareça, mesmo em configurações dual-GPU de 48GB. Atenção flash e cache de prompt em backends como vLLM mitigam isso.
  • Quants IQ vs K-quants: A nova série IQ (Quantização Inteira) do llama.cpp geralmente preserva mais qualidade em larguras de bits equivalentes comparada à série K-quant mais antiga, especialmente nos níveis de 2 bits e 3 bits. Para 70B em 24GB, IQ3_XXS frequentemente supera Q3_K_S em testes de preferência humana.
  • exllamav2 vs llama.cpp: Para inferência pura em GPU NVIDIA, exllamav2 consistentemente oferece 10–25% mais throughput e menor latência. llama.cpp permanece o rei da compatibilidade multiplataforma (Apple Silicon, AMD, Intel, fallback de CPU).
  • Tamanho do lote importa para throughput: Se você está servindo múltiplos usuários ou executando avaliações em lote, vLLM com agrupamento contínuo pode multiplicar o throughput efetivo em 3–5× comparado à inferência de fluxo único no llama.cpp.
⚡ Dica Profissional da Comunidade: Para a experiência interativa mais suave, mire em velocidade de geração de 20+ t/s. Abaixo de 10 t/s, a experiência parece lenta para chat. Reserve configurações sub-10 t/s para trabalhos em lote, execuções de pesquisa noturnas ou situações onde a inteligência do modelo justifica a espera.

Para Quê as Pessoas Estão Realmente Usando Esses Modelos?

A pergunta "Para quê você está usando seus modelos?" revela a incrível diversidade de aplicações de IA local. Com base em respostas agregadas da comunidade, aqui estão os casos de uso mais comuns em cada nível:

Nível 8GB — Assistentes de IA Cotidianos

  • Privacidade primeiro Diário pessoal e reflexão com chat local (nenhum dado sai da máquina)
  • Codificação Autocompletar de código leve e sugestões inline (Continue.dev + Ollama)
  • Educação Parceiros de aprendizado de idiomas, geração de flashcards, Q&A de livros didáticos
  • Criativo Rascunho de histórias curtas, notas de campanha D&D, geração de diálogo de NPCs
  • Automação residencial Análise de intenção no dispositivo para controle de voz do Home Assistant

Nível 16GB — Centros de Poder Profissionais & Criativos

  • Desenvolvimento Geração de código full-stack, refatoração e escrita de testes com modelos de código dedicados
  • Escrita Rascunho de conteúdo de longa duração, edição e transferência de estilo (romances, roteiros, copy de marketing)
  • Pesquisa Sumarização de artigos, extração de citações, assistência de revisão de literatura
  • Multilíngue Tradução e criação de conteúdo entre idiomas com Qwen ou Mistral-Nemo
  • Jogos NPCs dirigidos por IA em jogos modificados (Skyrim, Mount & Blade) via servidores API locais

Nível 24GB+ — Cargas de Trabalho Avançadas & Empresariais

  • IA Agêntica Agentes autônomos de múltiplos passos para pesquisa, análise de dados e automação de tarefas
  • Jurídico Revisão de contratos, extração de cláusulas, verificação de conformidade com modelos de contexto longo
  • Acadêmico Análise completa de artigos, verificação de referência cruzada, geração de hipóteses
  • RAG Empresarial Q&A de base de conhecimento interna com modelos 70B+ em documentos proprietários
  • Fine-tuning Fine-tuning LoRA/QLoRA de modelos 7B–13B para tarefas de domínio específico, usando a GPU maior para treinamento enquanto a inferência executa em outro lugar
  • Médico/Saúde Análise local de notas clínicas (em conformidade com HIPAA, sem exposição à nuvem)

Perguntas Frequentes

Qual é o melhor modelo absoluto que posso executar em 8GB de VRAM agora?

Em meados de 2025, o consenso da comunidade aponta para Llama-3.1-8B-Instruct em Q4_K_M ou Gemma-2-9B-Instruct em IQ4_NL como os principais concorrentes. Gemma-2-9B oferece precisão factual ligeiramente melhor, enquanto Llama-3.1-8B destaca-se em tarefas criativas e nuances conversacionais. Ambos cabem em 8GB com contexto de 4K–8K. Para velocidade pura, Phi-3-mini (3.8B) em FP16 oferece impressionantes 90+ t/s numa RTX 3070.

Posso executar um modelo 70B numa única GPU de 24GB?

Sim, mas com ressalvas significativas. Usando quantização IQ2_XXS ou IQ3_XXS do llama.cpp mais recente, um modelo 70B pode ser carregado em 24GB com cerca de 2–4GB restantes para cache KV — suficiente para uma janela de contexto de 2K–4K. A qualidade de saída é degradada comparada a Q4, mas para certas tarefas analíticas que se beneficiam do raciocínio mais profundo do 70B, ainda pode superar modelos menores. Esta é uma configuração experimental, não um condutor diário para a maioria dos usuários.

Como escolher entre exllamav2, llama.cpp e vLLM?

exllamav2: Melhor desempenho bruto em GPUs NVIDIA. Suporta atenção flash, cache KV FP8 e paralelismo de tensor eficiente. Ideal para inferência interativa de usuário único em placas NVIDIA de 8GB–48GB.
llama.cpp: A escolha universal. Executa em NVIDIA, AMD, Apple Silicon, Intel e até somente CPU. Suporta a mais ampla gama de formatos de quantização (GGUF, série IQ). Melhor para configurações multiplataforma e usuários Apple Silicon.
vLLM: Construído para servir. Se você precisa de um endpoint API compatível com OpenAI com agrupamento contínuo para múltiplos usuários simultâneos, vLLM é o padrão ouro. Requer mais configuração, mas oferece throughput inigualável para implantações de produção.

Quais configurações de cache KV devo usar para trabalho de contexto longo (32K+)?

Habilite atenção flash e defina quantização de cache KV para Q8_0 ou FP8. Numa placa de 16GB com um modelo 8B em Q8_0, isso tipicamente permite contexto de 32K sem transbordamento. Monitore o uso de VRAM durante o preenchimento — se você vir picos perto de 95% de utilização, reduza o contexto em incrementos de 2K–4K até estabilizar. Para configurações de 48GB+ executando modelos 70B em Q6+, contexto de 32K–64K é rotineiramente alcançável com essas otimizações.

O Apple Silicon é competitivo para IA local?

Absolutamente. A arquitetura de memória unificada no M2 Ultra (48GB–64GB) e M3 Max (36GB+) é um divisor de águas. Embora a computação bruta de GPU seja menor que uma RTX 4090, a capacidade de alocar toda a memória unificada para o modelo elimina os gargalos PCIe e permite executar modelos 70B em Q4 com contexto de 8K+ a 8–15 t/s. Para desenvolvedores que priorizam Mac, esta é uma experiência de IA local contínua e silenciosa. O backend Metal no llama.cpp amadureceu significativamente.

Qual é a história dos modelos Mixture of Experts (MoE) e VRAM?

Modelos MoE como Mixtral-8x7B e DeepSeek-V2 mantêm contagens totais de parâmetros altas, mas ativam apenas uma fração por token. Isso significa que a VRAM deve conter o modelo inteiro (todos os especialistas), mas o custo computacional por token é muito menor. O requisito de VRAM é ditado pelos parâmetros totais, não pelos parâmetros ativos. É por isso que um Mixtral de 46B totais em Q4 cabe em 24GB, mas um modelo denso de 46B em Q4 não caberia. Modelos MoE são uma excelente maneira de "superar" sua classe de peso de VRAM para qualidade de geração, mas eles não reduzem a pegada de memória.

Conclusão — Sabedoria da Comunidade para Construir Sua Stack de IA Local

A pergunta "Quais modelos vocês estão executando?" suscita uma resposta diferente a cada poucos meses — e essa é a beleza do movimento de IA local. Hardware que parecia limitado ontem executa um polido modelo 8B com contexto de 32K hoje. A experimentação coletiva, benchmarking e esforço para empurrar quants da comunidade open-source continuamente redefinem o que é possível em silício de consumo.

Se há um meta-insight de centenas de respostas da comunidade, é este: comece com o melhor modelo que sua VRAM hospeda confortavelmente em Q4_K_M ou superior, ajuste seu cache KV para contexto de 8K–16K e resista ao impulso de perseguir ultra-quants de ponta a menos que você genuinamente precise da profundidade de raciocínio do modelo maior. Uma configuração ágil e confiável de 8B frequentemente supera um lento e faminto por memória 70B para uso diário.

Principais conclusões para preparar sua jornada de IA local para o futuro:

  1. A quantização é sua melhor amiga. A série IQ e K-quants tornam os modelos 2–4× menores com perda mínima de qualidade. Sempre prefira Q4_K_M ou Q5_K_M como sua linha de base; vá mais baixo apenas quando necessário.
  2. O ajuste de cache KV não é opcional. Invista tempo ajustando o comprimento do contexto, quantização de cache e atenção flash. Esta é a diferença entre uma experiência suave e constantes travamentos por falta de memória.
  3. A escolha do backend importa. exllamav2 para velocidade NVIDIA, llama.cpp para compatibilidade universal, vLLM para servir. Não hesite em trocar de backends conforme suas necessidades evoluem.
  4. O conhecimento da comunidade se acumula. As configurações documentadas aqui representam um instantâneo de meados de 2025. Siga os tópicos ativos, servidores Discord e discussões no GitHub — a próxima arquitetura ou quant revolucionário está provavelmente a semanas de distância.
  5. Defina seu caso de uso primeiro. Um modelo de código para integração com Cursor, um modelo criativo para rascunho de romances e um modelo de raciocínio para pesquisa são ferramentas diferentes. Construa sua stack em torno do que você realmente faz diariamente, não em torno de pontuações de benchmark.

Este guia agrega experiências da comunidade e é atualizado periodicamente à medida que novos modelos, métodos de quantização e backends de inferência surgem. Última atualização: Junho de 2025. Sua experiência pode variar com base em versões de drivers, builds de backend e configurações específicas de hardware. Sempre teste com sua própria carga de trabalho antes de se comprometer com uma stack de produção.