AIGridHQ News
返回首页

¿Qué modelos están ejecutando con 8 GB? ¿16 GB de VRAM? ¿24 GB? ¿32 GB? ¿48 GB? — La guía completa de stacks locales de IA

📅 2026-06-13 Reddit - LocalLLaMA
Qué modelos ejecutar con 8GB, 16GB, 24GB, 32GB y 48GB de VRAM — La guía definitiva de IA local

¿Qué modelos estáis ejecutando con 8GB? ¿16GB de VRAM? ¿24GB? ¿32GB? ¿48GB? — La guía completa de stacks de IA local

El panorama de la IA local avanza a una velocidad vertiginosa. Un mes, un modelo domina todas las tablas de clasificación; al siguiente, una nueva técnica de cuantización o motor de inferencia redefine lo que es posible en hardware de consumo. Este artículo es una instantánea viva, que agrega experiencias reales de la comunidad sobre qué modelos está ejecutando realmente la gente en cada nivel de VRAM — desde tarjetas económicas de 8GB hasta bestias de estaciones de trabajo de 48GB. Cubrimos selecciones de modelos, configuraciones de caché KV, compensaciones de longitud de contexto, rendimiento en tokens por segundo, hardware subyacente y los diversos casos de uso que impulsan estas configuraciones. Ya sea que estés construyendo un asistente de codificación centrado en la privacidad, un pipeline de análisis de investigación o un compañero de narración creativa, esta guía te ayudará a ajustar tu stack con confianza.

Nivel de 8GB de VRAM — El punto óptimo de eficiencia

Ocho gigabytes de VRAM son el punto de entrada que aún desbloquea una IA local genuinamente útil. Con 8GB, no estás ejecutando monstruos de 70B sin cuantizar, pero una ola de modelos altamente optimizados de 7B–13B parámetros en cuantización de 4 o 5 bits (Q4_K_M, Q5_K_M) ofrece resultados sorprendentemente capaces. La comunidad ha convergido en unos pocos destacados que equilibran inteligencia, velocidad y huella de memoria.

Mejores selecciones de modelos para 8GB de VRAM

  • Mistral-7B-Instruct (v0.3 / v0.4) — Q5_K_M — El campeón reinante para chat de propósito general, resumen y codificación ligera en hardware limitado. Inferencia rápida, fuerte seguimiento de instrucciones.
  • Llama-3-8B-Instruct — Q4_K_M — El 8B de Meta ofrece una profundidad de razonamiento notable para su tamaño. Q4_K_M encaja cómodamente con espacio para una ventana de contexto de 4K–8K.
  • Gemma-2-9B-Instruct — Q4_K_M o IQ4_NL — El 9B de Google rinde por encima de su categoría de peso, especialmente para recuerdo factual y salida estructurada. La cuantización IQ4_NL ahorra valiosa VRAM con mínima pérdida de calidad.
  • Phi-3-mini-4k (3.8B) — Q8_0 o FP16 — Cuando la velocidad y la baja latencia son primordiales, la pequeña potencia de Microsoft se ejecuta completamente sin cuantizar en 8GB y maneja RAG, clasificación y llamada de herramientas ligeras admirablemente.
  • Qwen2.5-7B-Instruct — Q5_K_M — Excepcional para tareas multilingües y generación de código; el 7B de Qwen en Q5_K_M cabe en 8GB con un búfer de contexto saludable.

Caché KV y configuración de contexto para 8GB

La memoria de caché KV es el impuesto oculto en tu presupuesto de VRAM. En tarjetas de 8GB, cada token de contexto consume un espacio significativo — aproximadamente 0.5MB a 1.2MB por cada 1K tokens para un modelo 7B en 4 bits, dependiendo de la implementación de atención. La sabiduría de la comunidad sugiere:

  • Contexto predeterminado: 4096–8192 tokens para modelos 7B–8B en cuantizaciones Q4/Q5.
  • Cuantización de caché KV (FP8 / caché Q8_0): Habilitar la cuantización de caché KV en llama.cpp o exllamav2 puede recuperar un 30–40% de la memoria de caché, permitiendo estirar hasta 12K–16K de contexto en 8GB.
  • Atención Flash: Si tu backend lo soporta, la atención flash reduce drásticamente la memoria pico durante el prellenado, mejorando el margen de contexto.
  • Swap a memoria GPU compartida (repliegue del sistema CUDA): Algunos usuarios dejan que el desbordamiento se vierta en memoria compartida, pero esto reduce la velocidad de generación de tokens por debajo de 5 t/s — generalmente no recomendado para uso interactivo.

Hardware típico para configuraciones de 8GB

  • NVIDIA RTX 3070 / RTX 3060 Ti / RTX 4060 Ti 8GB
  • NVIDIA RTX 2070 Super / GTX 1080
  • AMD Radeon RX 6600 XT / RX 7600 (a través de backends ROCm o Vulkan)
  • Apple M1/M2 con 8GB de memoria unificada (acelerado por Metal a través de llama.cpp)

Expectativas de rendimiento

Modelo Cuantización Contexto Hardware Tokens/seg
Mistral-7B-Instruct Q5_K_M 4096 RTX 3070 8GB 45–55 t/s
Llama-3-8B-Instruct Q4_K_M 8192 RTX 4060 Ti 8GB 38–48 t/s
Gemma-2-9B IQ4_NL 6144 RTX 3070 8GB 40–50 t/s
Phi-3-mini (3.8B) FP16 4096 RTX 3060 Ti 8GB 90–120 t/s
Qwen2.5-7B Q5_K_M 4096 AMD RX 7600 (Vulkan) 25–35 t/s

Nivel de 16GB de VRAM — La potencia dominante

Dieciséis gigabytes es donde la IA local realmente se abre. Esta es la capacidad de VRAM más común entre los aficionados serios, y aloja cómodamente modelos de 7B–13B en cuantización alta (Q6_K, Q8_0) o modelos más pequeños en FP16 completo, al mismo tiempo que desbloquea la entrada a modelos de clase 20B–34B en cuantizaciones agresivas (IQ3_XXS, Q3_K_M). El nivel de 16GB es también el primer escalón donde ejecutar un modelo de Mezcla de Expertos (MoE) como un Mixtral cuantizado se vuelve viable.

Mejores selecciones de modelos para 16GB de VRAM

  • Llama-3.1-8B-Instruct — Q8_0 — Ejecutar la clase 8B con calidad Q8_0 casi sin pérdidas con amplio espacio de contexto. Fantástico para escritura de formato largo y conversaciones complejas de múltiples turnos.
  • Mistral-Nemo-12B (Mistral + Nvidia) — Q5_K_M — Un esfuerzo conjunto de 12B con una ventana de contexto nativa de 128K. En Q5_K_M cabe en 16GB con 8K–16K de contexto utilizable y ofrece un excelente rendimiento multilingüe.
  • Qwen2.5-14B-Instruct — Q4_K_M — El Qwen 14B se sitúa en una zona óptima: significativamente más inteligente que los modelos 7B, pero aún cabe en 16GB en Q4 con un cómodo contexto de 8K.
  • Phi-3-medium-14B — Q4_K_M — El modelo Phi de nivel medio de Microsoft sobresale en tareas de razonamiento intensivo y cabe en 16GB con espacio de sobra.
  • Mixtral-8x7B-Instruct — IQ3_XXS o Q2_K — La arquitectura MoE significa solo ~12.9B parámetros activos por token, pero el modelo completo abarca ~46B. Las cuantizaciones agresivas se ejecutan en 16GB, produciendo salidas sorprendentemente coherentes para escritura creativa y lluvia de ideas.
  • CodeQwen1.5-7B-Chat — Q8_0 — Para desarrolladores, ejecutar un modelo de código dedicado en Q8_0 en 16GB deja VRAM para integración LSP y contexto de base de código grande.

Caché KV y configuración de contexto para 16GB

  • Modelos 8B en Q8_0: Cómodos en 16K–32K de contexto con cuantización de caché KV habilitada.
  • Modelos 12B–14B en Q4/Q5: 8K–16K de contexto es el punto óptimo; forzar a 32K requiere cuantización de caché KV agresiva (caché Q4_0) y puede ralentizar ligeramente la generación.
  • Modelos MoE (Mixtral): La sobrecarga de caché KV es proporcional al recuento total de parámetros, no a los parámetros activos. Mantén el contexto en 4K–8K para un rendimiento fluido en 16GB.
  • Herramienta preferida: exllamav2 con su caché de 8 bits es ampliamente elogiado en la comunidad por maximizar el contexto en tarjetas de 16GB.

Hardware típico para configuraciones de 16GB

  • NVIDIA RTX 4080 / RTX 4070 Ti Super / RTX 3080
  • NVIDIA RTX 4060 Ti 16GB
  • AMD Radeon RX 6800 / RX 6900 XT / RX 7800 XT
  • Apple M2 Pro / M3 con 16GB de memoria unificada
  • Intel Arc A770 16GB (a través de IPEX-LLM o llama.cpp Vulkan)

Expectativas de rendimiento

Modelo Cuantización Contexto Hardware Tokens/seg
Llama-3.1-8B Q8_0 16K RTX 4080 16GB 55–70 t/s
Mistral-Nemo-12B Q5_K_M 12K RTX 4070 Ti Super 16GB 35–45 t/s
Qwen2.5-14B Q4_K_M 8K RTX 3080 16GB (modificada) 30–40 t/s
Mixtral-8x7B IQ3_XXS 4K RTX 4080 16GB 25–35 t/s
CodeQwen1.5-7B Q8_0 32K RX 7800 XT (ROCm) 40–50 t/s

Nivel de 24GB de VRAM — El patio de recreo del entusiasta

Veinticuatro gigabytes es el punto óptimo del entusiasta — el dominio de la RTX 3090, RTX 4090 y tarjetas de estación de trabajo de gama alta. Aquí, los modelos de 13B–20B se ejecutan en Q6_K o Q8_0 con un generoso contexto de 16K–32K, y los modelos de clase 34B se vuelven viables en Q4_K_M. Este nivel también soporta la ejecución de Mixtral-8x7B en Q4_K_M y modelos MoE similares con contexto cómodo, convirtiéndolo en un favorito para aquellos que priorizan la calidad sobre la velocidad bruta.

Mejores selecciones de modelos para 24GB de VRAM

  • Llama-3.1-70B — IQ2_XXS / IQ3_XXS (a través de 24GB) — Sí, un modelo 70B en 24GB. Con las nuevas cuantizaciones ultra-bajas de la serie IQ, un Llama 70B puede justo caber en una tarjeta de 24GB con 2K–4K de contexto. La calidad se degrada pero aún supera a muchos modelos más pequeños para ciertas tareas de razonamiento.
  • Qwen2.5-32B-Instruct — Q4_K_M — El Qwen 32B es posiblemente el mejor modelo de tarjeta única de 24GB para razonamiento complejo, generación avanzada de código y salida estructurada de formato largo. En Q4_K_M cabe con 8K–16K de contexto.
  • Gemma-2-27B-Instruct — Q4_K_M — El 27B de Google sobresale en seguimiento de instrucciones y precisión factual. Cabe en 24GB en Q4 con 8K de contexto y ofrece un rendimiento sólido.
  • Mixtral-8x7B-Instruct — Q5_K_M — El punto óptimo MoE: Q5_K_M en 24GB con 8K–12K de contexto. Excelente para escritura creativa, juegos de rol y tareas multilingües.
  • Command-R-Plus (Cohere, 104B) — IQ2_XXS — Otro experimento de cuantización ultra-baja que cabe en 24GB. Principalmente para investigación y experimentación; no recomendado para uso en producción pero fascinante para probar los límites.
  • CodeLlama-34B-Instruct — Q4_K_M — Un modelo de código dedicado de 34B para tareas serias de ingeniería de software, que cabe en 24GB con contexto cómodo para razonamiento sobre bases de código grandes.

Caché KV y configuración de contexto para 24GB

  • Modelos 32B en Q4: 8K–16K de contexto es estándar; 32K alcanzable con caché KV Q8_0 y atención flash.
  • Modelos MoE en Q5: 8K–12K de contexto es el techo práctico antes de que la velocidad de generación se degrade por debajo de 15 t/s.
  • Ultra-cuantizaciones 70B: Solo 2K–4K de contexto; la caché KV consume una enorme fracción de la VRAM restante. Considera esto un patio de recreo experimental, no un conductor diario.
  • Vista previa de descarga multi-GPU: Algunos propietarios de 24GB emparejan una tarjeta secundaria (ej. RTX 3060 12GB) para descargar capas, desbloqueando modelos más grandes con cuantizaciones más altas — un puente al nivel de 32GB+.

Hardware típico para configuraciones de 24GB

  • NVIDIA RTX 4090 / RTX 3090 / RTX 3090 Ti
  • NVIDIA RTX A5000 / A5500 (tarjetas de estación de trabajo)
  • NVIDIA Titan RTX
  • AMD Radeon RX 7900 XTX (24GB, a través de ROCm)
  • Configuraciones Dual RTX 3060 12GB (24GB combinados a través de división de capas de llama.cpp)

Expectativas de rendimiento

Modelo Cuantización Contexto Hardware Tokens/seg
Qwen2.5-32B Q4_K_M 12K RTX 4090 24GB 28–38 t/s
Gemma-2-27B Q4_K_M 8K RTX 3090 24GB 25–35 t/s
Mixtral-8x7B Q5_K_M 10K RTX 4090 24GB 22–32 t/s
Llama-3.1-70B IQ3_XXS 3K RTX 4090 24GB 6–10 t/s
CodeLlama-34B Q4_K_M 8K RTX 3090 24GB 20–30 t/s

Nivel de 32GB de VRAM — Puente prosumer y multi-GPU

El nivel de 32GB trata menos de GPUs de consumo individuales y más de configuraciones multi-GPU, Macs Apple Silicon con gran memoria unificada y tarjetas de estación de trabajo profesionales. Dos RTX 3090 en NVLink o agrupadas a través de llama.cpp, un Apple M2 Ultra con 32GB+ de memoria unificada, o una sola tarjeta clase RTX 5000 Ada / A6000 entran todos aquí. Esta capacidad ejecuta cómodamente modelos de 34B–70B en Q4_K_M a Q5_K_M con 16K+ de contexto.

Mejores selecciones de modelos para 32GB de VRAM

  • Llama-3.1-70B-Instruct — Q4_K_M — El "conductor diario" más citado por la comunidad para 32GB. Potencia completa de 70B en Q4 con 8K–16K de contexto. Excelente para investigación, análisis avanzado y escritura profesional.
  • Qwen2.5-72B-Instruct — Q4_K_M — Una fuerte alternativa de clase 70B con capacidades excepcionales multilingües y de codificación. Cabe en 32GB con 8K–12K de contexto.
  • Command-R-Plus (104B) — Q3_K_M — El enorme modelo de Cohere en Q3_K_M se comprime en 32GB con 4K–6K de contexto. Impresionante para tareas empresariales estilo RAG.
  • Mixtral-8x22B-Instruct — Q4_K_M — El hermano MoE más grande con expertos de 22B. Total ~141B parámetros pero solo ~39B activos. Cabe en 32GB en Q4 con 6K–8K de contexto y ofrece razonamiento multilingüe de primer nivel.
  • DeepSeek-V2-Lite-Chat (16B MoE) — Q6_K — La eficiente arquitectura de DeepSeek se ejecuta lujosamente en 32GB con alta cuantización y contexto largo para codificación y matemáticas.

Caché KV y configuración de contexto para 32GB

  • 70B en Q4: 8K–16K de contexto estándar; 32K posible con caché KV Q8_0 y atención flash, aunque la velocidad de generación puede bajar a 8–12 t/s en contextos largos.
  • MoE 141B en Q4: 6K–10K de contexto; la caché KV es la principal restricción debido al recuento total de parámetros.
  • División multi-GPU: Al usar llama.cpp con paralelismo de tensor en dos GPUs de 16GB, la caché KV típicamente se replica (no se fragmenta), por lo que el presupuesto de caché por GPU es la mitad del total — planifica en consecuencia.
  • Memoria unificada Apple Silicon: En M2 Ultra con 32GB, llama.cpp respaldado por Metal maneja 70B Q4 con 8K de contexto sin problemas; la arquitectura de memoria unificada elimina completamente los cuellos de botella PCIe.

Hardware típico para configuraciones de 32GB

  • Dual RTX 3090 24GB (agrupadas, 48GB total pero a menudo reportado en configuraciones utilizables de 32GB para modelo+caché KV)
  • RTX A6000 individual / RTX 5000 Ada (tarjeta de estación de trabajo de 32GB)
  • Apple M2 Ultra con 32GB de memoria unificada (o M3 Max con 36GB)
  • Dual RTX 4060 Ti 16GB (32GB combinados a través de división de capas)
  • AMD Radeon Pro W6800 32GB

Expectativas de rendimiento

Modelo Cuantización Contexto Hardware Tokens/seg
Llama-3.1-70B Q4_K_M 12K Dual RTX 3090 (48GB total) 14–22 t/s
Qwen2.5-72B Q4_K_M 8K Dual RTX 3090 12–20 t/s
Mixtral-8x22B Q4_K_M 8K RTX A6000 32GB 15–22 t/s
Command-R-Plus (104B) Q3_K_M 4K Apple M2 Ultra 32GB 6–10 t/s

Nivel de 48GB de VRAM — La clase estación de trabajo

Cuarenta y ocho gigabytes es el reino de configuraciones dual RTX 3090/4090 en NVLink, RTX A6000 Ada (48GB) y Apple Silicon de gama alta (M2 Ultra 48GB+). Este nivel ejecuta cómodamente modelos 70B en Q6_K o Q8_0 con 16K–32K de contexto, e incluso puede alojar modelos de 120B+ en Q4. Es el objetivo para aquellos que ejecutan IA local como herramienta de trabajo principal — investigadores, desarrolladores independientes construyendo aplicaciones nativas de IA y empresas que mantienen los datos internamente.

Mejores selecciones de modelos para 48GB de VRAM

  • Llama-3.1-70B-Instruct — Q6_K o Q8_0 — En cuantización casi sin pérdidas con 32K de contexto, esta es la experiencia de IA local más comparable a las APIs alojadas. Calidad impresionante para escritura profesional, análisis y flujos de trabajo agénticos.
  • Qwen2.5-72B-Instruct — Q6_K — Ejecutar un 72B en Q6_K con 16K+ de contexto es una experiencia premium para codificación, matemáticas y tareas de datos estructurados.
  • Command-R-Plus (104B) — Q4_K_M — Cabe en 48GB con 6K–10K de contexto; una fuerte elección para pipelines RAG empresariales y resumen de documentos largos.
  • Falcon-40B-Instruct — Q8_0 o FP16 — Aunque más antiguo, el Falcon 40B en precisión completa en 48GB es un favorito de investigación para experimentos de ajuste fino y salida estructurada.
  • Yi-34B-200K — Q5_K_M — La enorme ventana de contexto nativa de 200K de Yi se vuelve prácticamente utilizable en 48GB. En Q5_K_M con 32K–64K de contexto, es ideal para revisión de documentos legales e investigación académica.
  • DeepSeek-V2-Chat (236B MoE) — IQ3_XXS — El DeepSeek MoE completo en cuantizaciones ultra-bajas puede justo caber en 48GB con 2K–4K de contexto. Un vistazo a la frontera de la inferencia MoE local.

Caché KV y configuración de contexto para 48GB

  • 70B en Q6/Q8: 16K–32K de contexto es cómodo; con atención flash y cuantización de caché KV, 64K+ es alcanzable para algunas arquitecturas.
  • Modelos 100B+ en Q4: 6K–12K de contexto es el rango práctico; el mayor recuento de parámetros significa entradas de caché KV por token más grandes.
  • Modelos de contexto nativo 200K (Yi): El verdadero contexto de 200K requiere deshabilitar la cuantización de caché KV y aceptar velocidades más lentas (5–10 t/s), pero 32K–64K es perfectamente utilizable a velocidad completa.
  • Beneficios de NVLink: En configuraciones dual 3090/4090 con NVLink, el acceso a memoria peer-to-peer reduce la sobrecarga de replicación de caché KV, aumentando efectivamente la caché utilizable en un 15–25% en comparación con la agrupación sin NVLink.

Hardware típico para configuraciones de 48GB

  • Dual RTX 4090 24GB (NVLink) o Dual RTX 3090 24GB
  • NVIDIA RTX A6000 Ada individual 48GB
  • NVIDIA L40 / L40S 48GB (GPUs de centro de datos)
  • Apple M2 Ultra con 48GB–64GB de memoria unificada
  • Dual AMD Radeon Pro W7900 24GB (48GB combinados)

Expectativas de rendimiento

Modelo Cuantización Contexto Hardware Tokens/seg
Llama-3.1-70B Q8_0 32K Dual RTX 4090 48GB 18–28 t/s
Qwen2.5-72B Q6_K 16K RTX A6000 Ada 48GB 15–24 t/s
Command-R-Plus (104B) Q4_K_M 8K Dual RTX 3090 48GB 10–16 t/s
Yi-34B-200K Q5_K_M 48K Dual RTX 4090 48GB 12–18 t/s
DeepSeek-V2 (236B MoE) IQ3_XXS 3K Apple M2 Ultra 64GB 3–6 t/s

Caché KV y longitud de contexto — El control de rendimiento silencioso

Si el tamaño del modelo es el motor, la configuración de la caché KV es la transmisión. La caché clave-valor almacena las claves y valores de atención para cada token en tu ventana de contexto, y crece linealmente tanto con el tamaño del modelo como con la longitud de contexto. Si la configuras mal, o bien fallarás con errores de memoria agotada o dejarás una cantidad significativa de VRAM inactiva.

¿Cuánta VRAM consume la caché KV?

Una fórmula aproximada utilizada en la comunidad para un modelo con N capas, H dimensiones ocultas y G cabezas KV, ejecutando C tokens de contexto a B bytes por elemento de caché:

KV_cache_bytes ≈ 2 × N × G × (H / total_heads) × C × B × 2  (para matrices K y V)

En la práctica, para un modelo 7B en contexto 4K con caché KV FP16, espera ~0.8–1.2 GB consumidos solo por la caché. En contexto 32K, eso se infla a 6–10 GB. Es por esto que la cuantización de caché KV (FP8, Q8_0, Q4_0) es la optimización de mayor impacto después de la cuantización del modelo en sí.

Estrategias comunitarias de caché KV

  1. Atención Flash 2/3: Reduce la memoria pico durante el prellenado evitando la materialización de la matriz de atención completa. Soportado en exllamav2, vLLM y compilaciones recientes de llama.cpp.
  2. Cuantización de caché KV (FP8 / Q8_0 / Q4_0): Intercambia una pequeña cantidad de calidad de salida por un ahorro de memoria de caché del 30–60%. En tarjetas de 8GB y 16GB, esto es a menudo la diferencia entre una ventana de contexto de 4K y una de 12K.
  3. Atención de ventana deslizante: Algunos modelos (Mistral, algunas variantes de Qwen) usan atención de ventana deslizante, que limita el crecimiento de la caché y permite contextos efectivos más largos sin escalado de memoria lineal.
  4. Descarga de contexto: En llama.cpp, las porciones de caché KV no utilizadas pueden descargarse a RAM del sistema, pero esto incurre en una penalización de latencia significativa en la generación de tokens — mejor reservado para procesamiento por lotes, no para chat interactivo.
  5. Poda de caché / Políticas de desalojo: Backends avanzados como vLLM implementan desalojo inteligente de entradas KV menos importantes, manteniendo la calidad mientras limitan el uso de memoria — cada vez más adoptado para servir contextos largos.

Matriz de selección de modelos consciente del hardware

Usa esta tabla de referencia rápida para mapear tu hardware al nivel de modelo óptimo y nivel de experiencia esperado:

Tu VRAM Clase de modelo recomendada Rango de cuantización Contexto cómodo Nivel de experiencia
8GB 3B–8B Q4_K_M a Q8_0 (para <5B) 4K–12K Asistente cotidiano, codificación ligera, resumen
16GB 8B–14B (o MoE en IQ3) Q4_K_M a Q8_0 8K–32K Aficionado serio, escritura profesional, codificación de complejidad media
24GB 14B–34B (o 70B en IQ2) Q4_K_M a Q6_K 8K–32K Entusiasta, codificación avanzada, investigación, trabajo creativo
32GB 34B–72B Q4_K_M a Q5_K_M 8K–32K Prosumer, RAG empresarial, análisis multilingüe
48GB 70B–104B (o MoE en Q4+) Q4_K_M a Q8_0 16K–64K Estación de trabajo, ajuste fino, sistemas agénticos, investigación legal/académica

Pruebas de rendimiento en el mundo real — Tokens por segundo y compensaciones de calidad

El rendimiento es un concepto matizado en la IA local. Los tokens por segundo brutos son solo un eje; el tiempo hasta el primer token (TTFT), la velocidad de procesamiento de prompts y la calidad de salida en una cuantización dada son todos importantes. Las pruebas comparativas de la comunidad muestran consistentemente:

  • TTFT se convierte en el cuello de botella en contextos largos: Procesar un prompt de 32K tokens en un modelo 70B puede tomar 30–90 segundos antes de que aparezca el primer token, incluso en configuraciones dual-GPU de 48GB. La atención flash y el almacenamiento en caché de prompts en backends como vLLM mitigan esto.
  • Cuantizaciones IQ vs K-quants: La nueva serie IQ (Cuantización Entera) de llama.cpp generalmente preserva más calidad a anchos de bits equivalentes en comparación con la serie K-quant más antigua, especialmente en niveles de 2 y 3 bits. Para 70B en 24GB, IQ3_XXS a menudo supera a Q3_K_S en pruebas de preferencia humana.
  • exllamav2 vs llama.cpp: Para inferencia pura en GPU NVIDIA, exllamav2 ofrece consistentemente un 10–25% más de rendimiento y menor latencia. llama.cpp sigue siendo el rey de la compatibilidad multiplataforma (Apple Silicon, AMD, Intel, repliegue CPU).
  • El tamaño del lote importa para el rendimiento: Si estás sirviendo a múltiples usuarios o ejecutando evaluaciones por lotes, vLLM con agrupación continua puede multiplicar el rendimiento efectivo 3–5× en comparación con la inferencia de flujo único en llama.cpp.
⚡ Consejo profesional de la comunidad: Para la experiencia interactiva más fluida, apunta a 20+ t/s de velocidad de generación. Por debajo de 10 t/s, la experiencia se siente lenta para el chat. Reserva las configuraciones sub-10 t/s para trabajos por lotes, ejecuciones de investigación nocturnas o situaciones donde la inteligencia del modelo justifica la espera.

¿Para qué está usando realmente la gente estos modelos?

La pregunta "¿Para qué estáis usando vuestros modelos?" revela la increíble diversidad de aplicaciones de IA local. Basado en respuestas agregadas de la comunidad, aquí están los casos de uso más comunes en cada nivel:

Nivel 8GB — Asistentes de IA cotidianos

  • Privacidad primero Diario personal y reflexión con chat local (sin datos que salgan de la máquina)
  • Codificación Autocompletado de código ligero y sugerencias en línea (Continue.dev + Ollama)
  • Educación Compañeros de aprendizaje de idiomas, generación de tarjetas didácticas, preguntas y respuestas de libros de texto
  • Creativo Redacción de historias cortas, notas de campañas D&D, generación de diálogos de NPCs
  • Domótica Análisis de intenciones en dispositivo para control por voz de Home Assistant

Nivel 16GB — Potencias profesionales y creativas

  • Desarrollo Generación de código full-stack, refactorización y escritura de pruebas con modelos de código dedicados
  • Escritura Redacción de contenido de formato largo, edición y transferencia de estilo (novelas, guiones, textos de marketing)
  • Investigación Resumen de artículos, extracción de citas, asistencia en revisión de literatura
  • Multilingüe Traducción y creación de contenido intercultural con Qwen o Mistral-Nemo
  • Juegos NPCs impulsados por IA en juegos modificados (Skyrim, Mount & Blade) a través de servidores API locales

Nivel 24GB+ — Cargas de trabajo avanzadas y empresariales

  • IA agéntica Agentes autónomos de múltiples pasos para investigación, análisis de datos y automatización de tareas
  • Legal Revisión de contratos, extracción de cláusulas, verificación de cumplimiento con modelos de contexto largo
  • Académico Análisis completo de artículos, verificación de referencias cruzadas, generación de hipótesis
  • RAG empresarial Preguntas y respuestas sobre base de conocimiento interna con modelos 70B+ en documentos propietarios
  • Ajuste fino Ajuste fino LoRA/QLoRA de modelos 7B–13B para tareas de dominio específico, usando la GPU más grande para entrenamiento mientras la inferencia se ejecuta en otro lugar
  • Médico/Salud Análisis local de notas clínicas (cumplimiento HIPAA, sin exposición a la nube)

Preguntas frecuentes

¿Cuál es el mejor modelo absoluto que puedo ejecutar en 8GB de VRAM ahora mismo?

A mediados de 2025, el consenso de la comunidad apunta a Llama-3.1-8B-Instruct en Q4_K_M o Gemma-2-9B-Instruct en IQ4_NL como los principales contendientes. Gemma-2-9B ofrece una precisión factual ligeramente mejor, mientras que Llama-3.1-8B sobresale en tareas creativas y matices conversacionales. Ambos caben en 8GB con 4K–8K de contexto. Para velocidad pura, Phi-3-mini (3.8B) en FP16 ofrece velocidades abrasadoras de 90+ t/s en una RTX 3070.

¿Puedo ejecutar un modelo 70B en una sola GPU de 24GB?

Sí, pero con salvedades significativas. Usando cuantización IQ2_XXS o IQ3_XXS del último llama.cpp, un modelo 70B puede cargarse en 24GB con aproximadamente 2–4GB restantes para caché KV — suficiente para una ventana de contexto de 2K–4K. La calidad de salida se degrada en comparación con Q4, pero para ciertas tareas analíticas que se benefician del razonamiento más profundo de 70B, aún puede superar a modelos más pequeños. Esta es una configuración experimental, no un conductor diario para la mayoría de los usuarios.

¿Cómo elijo entre exllamav2, llama.cpp y vLLM?

exllamav2: Mejor rendimiento bruto en GPUs NVIDIA. Soporta atención flash, caché KV FP8 y paralelismo de tensor eficiente. Ideal para inferencia interactiva de un solo usuario en tarjetas NVIDIA de 8GB–48GB.
llama.cpp: La elección universal. Funciona en NVIDIA, AMD, Apple Silicon, Intel e incluso solo CPU. Soporta la gama más amplia de formatos de cuantización (GGUF, serie IQ). Mejor para configuraciones multiplataforma y usuarios de Apple Silicon.
vLLM: Construido para servir. Si necesitas un endpoint de API compatible con OpenAI con agrupación continua para múltiples usuarios concurrentes, vLLM es el estándar de oro. Requiere más configuración pero ofrece un rendimiento inigualable para despliegues en producción.

¿Qué configuración de caché KV debo usar para trabajo de contexto largo (32K+)?

Habilita la atención flash y establece la cuantización de caché KV a Q8_0 o FP8. En una tarjeta de 16GB con un modelo 8B en Q8_0, esto típicamente permite 32K de contexto sin desbordamiento. Monitoriza tu uso de VRAM durante el prellenado — si ves picos cerca del 95% de utilización, reduce el contexto en incrementos de 2K–4K hasta que sea estable. Para configuraciones de 48GB+ ejecutando modelos 70B en Q6+, 32K–64K de contexto es rutinariamente alcanzable con estas optimizaciones.

¿Es Apple Silicon competitivo para IA local?

Absolutamente. La arquitectura de memoria unificada en M2 Ultra (48GB–64GB) y M3 Max (36GB+) cambia las reglas del juego. Aunque la computación bruta de GPU es menor que una RTX 4090, la capacidad de asignar toda la memoria unificada al modelo elimina los cuellos de botella PCIe y permite ejecutar modelos 70B en Q4 con 8K+ de contexto a 8–15 t/s. Para desarrolladores centrados en Mac, esta es una experiencia de IA local fluida y silenciosa. El backend Metal en llama.cpp ha madurado significativamente.

¿Qué hay con los modelos de Mezcla de Expertos (MoE) y la VRAM?

Los modelos MoE como Mixtral-8x7B y DeepSeek-V2 mantienen altos recuentos totales de parámetros pero solo activan una fracción por token. Esto significa que la VRAM debe contener el modelo completo (todos los expertos), pero el costo de cómputo por token es mucho menor. El requisito de VRAM está dictado por los parámetros totales, no por los parámetros activos. Es por esto que un Mixtral de 46B-total en Q4 cabe en 24GB, pero un modelo denso de 46B en Q4 no lo haría. Los modelos MoE son una excelente manera de "golpear por encima" de tu categoría de peso de VRAM para calidad de generación, pero no reducen la huella de memoria.

Conclusión — Sabiduría de la comunidad para construir tu stack de IA local

La pregunta "¿Qué modelos estáis ejecutando?" provoca una respuesta diferente cada pocos meses — y esa es la belleza del movimiento de IA local. El hardware que ayer parecía limitado ejecuta hoy un pulido modelo 8B con 32K de contexto. El ajuste colectivo, las pruebas comparativas y el empuje de cuantización de la comunidad de código abierto redefinen continuamente lo que es posible en silicio de consumo.

Si hay una meta-idea de cientos de respuestas de la comunidad, es esta: empieza con el mejor modelo que tu VRAM aloje cómodamente en Q4_K_M o superior, ajusta tu caché KV para 8K–16K de contexto, y resiste el impulso de perseguir ultra-cuantizaciones de vanguardia a menos que genuinamente necesites la profundidad de razonamiento del modelo más grande. Una configuración rápida y confiable de 8B a menudo supera a un 70B lento y hambriento de memoria para uso diario.

Conclusiones clave para preparar tu viaje de IA local para el futuro:

  1. La cuantización es tu mejor amiga. La serie IQ y las K-quants hacen que los modelos sean 2–4× más pequeños con mínima pérdida de calidad. Siempre prefiere Q4_K_M o Q5_K_M como tu línea base; baja solo cuando sea necesario.
  2. El ajuste de caché KV no es opcional. Dedica tiempo a ajustar la longitud de contexto, la cuantización de caché y la atención flash. Esta es la diferencia entre una experiencia fluida y constantes fallos por falta de memoria.
  3. La elección del backend importa. exllamav2 para velocidad NVIDIA, llama.cpp para compatibilidad universal, vLLM para servir. No dudes en cambiar de backend a medida que tus necesidades evolucionan.
  4. El conocimiento de la comunidad se compone. Las configuraciones documentadas aquí representan una instantánea de mediados de 2025. Sigue los hilos activos, servidores Discord y discusiones de GitHub — el próximo avance en cuantización o arquitectura probablemente esté a semanas de distancia.
  5. Define tu caso de uso primero. Un modelo de código para integración con Cursor, un modelo creativo para redacción de novelas y un modelo de razonamiento para investigación son herramientas diferentes. Construye tu stack alrededor de lo que realmente haces a diario, no alrededor de puntuaciones de referencia.

Esta guía agrega experiencias de la comunidad y se actualiza periódicamente a medida que surgen nuevos modelos, métodos de cuantización y backends de inferencia. Última actualización: junio de 2025. Tu kilometraje puede variar según las versiones de controladores, compilaciones de backend y configuraciones de hardware específicas. Siempre prueba con tu propia carga de trabajo antes de comprometerte con un stack de producción.