Unsloth lanza el modelo cuantizado del asistente Gemma 4 MTP: la predicción multitoken entra en la era premium de QAT

📅 2026-06-10 Reddit - LocalLLaMA

Unsloth presenta los modelos cuantizados de asistente Gemma 4 MTP: la predicción multi-token entra en la era de la QAT de alta calidad

Si quieres ejecutar el último gran modelo Gemma 4 de Google en local con una latencia extremadamente baja, sin sacrificar ni un ápice la calidad de inferencia, este es el mejor momento. El marco de ajuste fino más popular de la comunidad de código abierto, Unsloth, acaba de publicar en Hugging Face una serie de modelos de asistente Gemma 4 QAT MTP, todos en formato GGUF, que cubren desde 12B hasta E2B (aproximadamente 212B), incluyendo una versión de 32B optimizada específicamente para dispositivos móviles. Estos modelos se ofrecen principalmente con cuantización q8_0, junto con opciones de cuantización de mayor tamaño, lo que supone otro salto adelante en la inferencia en el borde.

Esta vez, Gemma 4 realmente "entiende" la predicción multi-token

El nombre de estos modelos no corresponde a la versión normal de Gemma 4, sino que incluye explícitamente el sufijo "MTP". MTP significa Predicción de Múltiples Tokens (Multi-Token Prediction); la serie Gemma 4 admite de forma nativa la predicción simultánea de varios tokens futuros en un solo paso hacia adelante, ayudando a la generación del modelo principal y reduciendo drásticamente el número de iteraciones de decodificación autorregresiva. Sin embargo, los cabezales auxiliares MTP nativos, si no se cuantizan cuidadosamente, tienden a perder su capacidad de cooperación en baja precisión. La acción clave de Unsloth esta vez reside en utilizar la técnica QAT (Entrenamiento Consciente de la Cuantización) para realizar un ajuste fino de cuantización conjunta del decodificador auxiliar MTP y el modelo principal, en lugar de una simple cuantización posterior al entrenamiento. Los archivos mtp-gemma-4-*.gguf resultantes conservan casi sin pérdidas la aceleración de la predicción multi-token en precisión q8_0, al tiempo que reducen drásticamente el tamaño del modelo, resultando extremadamente amigables para la inferencia en GPUs y CPUs de consumo.

q8_0 se convierte en el nuevo estándar, con un conjunto de cuantización claramente estructurado

Al abrir cualquier repositorio de Hugging Face, descubrirás una estructura de directorios cuidadosamente diseñada: el directorio raíz contiene directamente los archivos GGUF principales en versión q8_0, mientras que una carpeta independiente MTP alberga las variantes cuantizadas q8_0 y de mayor tasa de bits. Esta organización permite que los usuarios comunes descarguen directamente el modelo del directorio raíz para empezar rápidamente, mientras que los desarrolladores que buscan mayor precisión pueden acceder a la carpeta MTP y elegir versiones como q5_k_m, q6_k o incluso f16. Unsloth ha construido un pipeline QAT completo para los siguientes cinco modelos Gemma 4, todos de código abierto:

gemma-4-12B-it-qat-GGUF —— un todoterreno que equilibra rendimiento y consumo de recursos
gemma-4-26B-A4B-it-qat-GGUF —— modelo de mezcla de expertos con 26B parámetros y 4B expertos activos
gemma-4-31B-it-qat-GGUF —— modelo denso de 31B, una opción fiable para escenarios generales
gemma-4-E2B-it-qat-GGUF —— la arquitectura E2B más potente, máxima potencia para la nube y estaciones de trabajo
gemma-4-E2B-it-qat-mobile-GGUF —— supermodelo optimizado específicamente para inferencia en dispositivos móviles, desafiando los límites del edge

El entrenamiento consciente de la cuantización "domestica" el MTP, acelerando la inferencia sin pérdida de inteligencia

En los esquemas tradicionales de cuantización de modelos, la cuantización de la atención multi-cabeza o de los cabezales de predicción auxiliares a menudo provoca un desplazamiento de las puntuaciones de atención, haciendo que la predicción multi-token sea inútil. Esta vez, Unsloth ha aplicado directamente el entrenamiento consciente de la cuantización al módulo MTP de Gemma 4, de modo que el modelo asistente cuantizado mantiene un estrecho acoplamiento de información con el modelo principal. En pruebas reales, al usar el modelo q8_0 MTP para la predicción multi-token, los pasos autorregresivos se pueden reducir casi un 30%, y la velocidad de generación de extremo a extremo mejora de inmediato, mientras que métricas como la perplejidad se mantienen casi iguales a la versión de punto flotante. Para escenarios que requieren generación de secuencias largas, como chats o completado de código, esto equivale a una actualización de rendimiento gratuita.

Despliegue inmediato: de Hugging Face a tu máquina local en un solo paso

Todos los modelos QAT MTP ya son totalmente compatibles con motores de inferencia GGUF populares como llama.cpp, Ollama y LM Studio. Solo tienes que descargar el archivo GGUF correspondiente, configurar los parámetros de predicción multi-token y podrás ejecutar la versión acelerada completa de Gemma 4 en Macs de la serie M, GPUs RTX serie 40 e incluso en clústeres de Raspberry Pi. Lo que Unsloth ha lanzado esta vez no es solo un conjunto de archivos de modelo, sino toda una metodología de "cuantización es aceleración", que anticipa que todos los grandes modelos con capacidad MTP experimentarán una segunda evolución mediante la cuantización QAT.

Visita ahora los siguientes repositorios y hazte con tu motor de aceleración MTP:

Gemma 4 12B QAT GGUF | Gemma 4 26B A4B QAT GGUF | Gemma 4 31B QAT GGUF | Gemma 4 E2B QAT GGUF | Gemma 4 E2B versión optimizada para móviles