12 GB de VRAM logran 120 tok/s: Gemma 4 QAT mete la inferencia de grandes modelos en la vía rápida del consumidor

📅 2026-06-07 🤖 大模型智能生成

12GB de VRAM alcanzan 120 tok/s, la versión QAT de Gemma 4 lleva la inferencia de modelos grandes al carril rápido del consumo

Al despertar, las GPUs de 12GB se convierten de repente en la herramienta definitiva para modelos grandes

Hace solo unas horas, Google lanzó discretamente las variantes de entrenamiento consciente de cuantización (QAT) de la serie Gemma 4, donde la versión de 12B parámetros encendió directamente la pasión de los entusiastas con poca VRAM. Un desarrollador realizó inmediatamente pruebas en su propia GPU de 12GB de VRAM, y los resultados fueron sorprendentes: después de cargar completamente el modelo en la VRAM, la velocidad de inferencia se disparó a 120 tokens por segundo. Este no es un número de un clúster en la nube, sino un resultado genuino ejecutándose en una sola tarjeta gráfica de consumo.

QAT + MTP: cómo la magia dual exprime cada pizca de ancho de banda

La combinación técnica presentada en esta noticia es ingeniosa. QAT, o entrenamiento consciente de cuantización, a diferencia de la cuantización post-entrenamiento tradicional, introduce representaciones de baja precisión en el gráfico de cómputo durante la fase de entrenamiento, permitiendo que el modelo aprenda a mantener una salida de alta calidad en entornos de bajos bits como int8 e int4. Por otro lado, MTP (Predicción de Múltiples Tokens) predice varios tokens en un solo paso hacia adelante, mejorando significativamente el rendimiento. El desarrollador utilizó una pila de inferencia basada en llama.cpp con un parche MTP específico para Gemma 4, cargando el modelo principal cuantizado gemma-4-12B-it-qat-GGUF publicado por Unsloth, y un modelo asistente sin cuantizar qat-q4_0 proporcionado por Google específicamente para generación auxiliar, que también fue convertido al formato GGUF y subido a HuggingFace. Esta combinación de modelo principal y modelo asistente pequeño como borrador recuerda un poco a la decodificación especulativa, elevando la eficiencia de generación un escalón más.

Qué significan 120 tok/s: un salto cualitativo de usable a una suavidad sedosa

Una velocidad de 120 tokens por segundo ya supera varias veces la velocidad de lectura humana, logrando prácticamente cero latencia en escenarios como conversación en tiempo real, autocompletado de código y preguntas y respuestas en bases de conocimiento locales. Antes, meter un modelo decente de más de 10B en 12GB de VRAM solía requerir aceptar velocidades comprometidas de 10 a 20 tok/s o incluso inferiores, y a menudo se salía de los límites de la VRAM. Ahora, la versión QAT de Gemma 4, con la eficiencia de compresión de QAT y la optimización de rendimiento de MTP, convierte una GPU de nivel RTX 4070, 3080 o A2000 en un servidor de inferencia personal. Esto no solo deja muy atrás la latencia de las APIs en la nube, sino que también protege la privacidad de los datos, siendo un gran beneficio tanto para implementaciones empresariales ligeras como para entornos personales de entusiastas.

El ecosistema open source se adapta con rapidez, ya se puede ejecutar y probar en HuggingFace

Es destacable que toda la cadena utiliza solo componentes de código abierto: llama.cpp, el formato GGUF, los scripts de cuantización de Unsloth, y los archivos de modelo convertidos y subidos rápidamente por la comunidad. Este nivel de apertura implica una barrera de entrada extremadamente baja; cualquier desarrollador con una GPU de 12GB puede replicar esta curva de velocidad en media hora. Google ha optado por impulsar simultáneamente QAT y MTP en Gemma 4, claramente viendo la gran demanda de la comunidad open source por modelos de tamaño reducido y alta velocidad, y llevando con acciones concretas la tecnología de aceleración de inferencia más avanzada a los dispositivos de consumo.

¿Encenderá la próxima ola de inferencia local?

El logro de 120 tok/s no es un puntaje de referencia aislado, podría redefinir las expectativas sobre los "modelos grandes locales". Cuando un modelo de 12B puede funcionar a tal velocidad en una GPU de gama media y además conserva una calidad de generación notable gracias a QAT, se rompe la idea preconcebida de que es necesario buscar soluciones en grandes cantidades de VRAM o en la nube. Para los desarrolladores de aplicaciones verticales, esto significa poder integrar la versión QAT de Gemma 4 en productos como complementos de IDE, asistentes de terminal, traductores sin conexión, etc., logrando realmente una implementación ligera y privada. A medida que maduren más formatos de cuantización y optimizaciones MTP, hay razones para esperar un rendimiento incluso en dispositivos con 8GB o menos de VRAM. Este no es un simple lanzamiento de modelo, sino un paso clave para llevar la inteligencia de alto rendimiento al camino de la popularización.