Unsloth lança modelo assistente quantizado Gemma 4 MTP: predição multi-token entra na era premium de QAT

📅 2026-06-10 Reddit - LocalLLaMA

Unsloth lança modelos assistentes Gemma 4 com QAT para MTP: previsão de múltiplos tokens entra na era de qualidade premium com QAT

Se você deseja executar o mais recente modelo grande Gemma 4 do Google localmente com latência extremamente baixa, sem nenhuma perda na qualidade de inferência, este é o momento perfeito. O Unsloth, framework de ajuste fino mais popular da comunidade open source, acaba de disponibilizar no Hugging Face uma série de modelos assistentes Gemma 4 QAT MTP, todos no formato GGUF, cobrindo diversas especificações de 12B até E2B (aproximadamente 212B), incluindo também uma versão 32B especialmente otimizada para dispositivos móveis. Esses modelos são lançados prioritariamente na quantização q8_0, com opções de quantização de maior tamanho também disponíveis, representando mais um salto na inferência em borda.

Desta vez, o Gemma 4 realmente "entendeu" a previsão de múltiplos tokens

O nome desses modelos não é o Gemma 4 comum, mas inclui explicitamente o sufixo "MTP". MTP significa Previsão de Múltiplos Tokens (Multi-Token Prediction), e a série Gemma 4 suporta nativamente a previsão simultânea de vários tokens futuros em uma única passagem direta, auxiliando a geração do modelo principal e reduzindo drasticamente o número de iterações de decodificação autorregressiva. No entanto, os cabeçotes auxiliares MTP nativos, se não forem cuidadosamente quantizados, tendem a perder a capacidade de cooperação em baixa precisão. A ação chave do Unsloth desta vez foi usar a técnica de QAT (Treinamento com Consciência de Quantização) para ajustar finamente e quantizar o decodificador auxiliar MTP juntamente com o modelo principal, em vez de simplesmente aplicar quantização pós-treinamento. Os arquivos mtp-gemma-4-*.gguf resultantes preservam de forma quase intacta o efeito de aceleração da previsão de múltiplos tokens em precisão q8_0, ao mesmo tempo em que reduzem drasticamente o tamanho do modelo, tornando-os extremamente amigáveis para GPUs de consumo e inferência em CPU.

q8_0 se torna o novo padrão, com suíte de quantização claramente estratificada

Ao abrir qualquer repositório de modelo no Hugging Face, você encontrará uma estrutura de diretórios cuidadosamente projetada: o diretório raiz do modelo contém diretamente o arquivo GGUF principal na versão q8_0, enquanto uma pasta separada chamada MTP abriga as variantes quantizadas q8_0 e de maior bitrate. Essa organização significa que usuários comuns podem simplesmente baixar o modelo da raiz para começar rapidamente, enquanto desenvolvedores que buscam maior precisão podem acessar a pasta MTP e escolher versões como q5_k_m, q6_k ou até f16. O Unsloth já construiu pipelines QAT completos para os cinco modelos Gemma 4 a seguir, todos em código aberto:

gemma-4-12B-it-qat-GGUF — versátil, equilibrando desempenho e consumo de recursos
gemma-4-26B-A4B-it-qat-GGUF — modelo de mistura de especialistas com 26B parâmetros e 4B especialistas ativos
gemma-4-31B-it-qat-GGUF — modelo denso de 31B, escolha confiável para cenários gerais
gemma-4-E2B-it-qat-GGUF — arquitetura E2B superdimensionada, máximo poder para nuvem e workstations
gemma-4-E2B-it-qat-mobile-GGUF — supermodelo otimizado especificamente para inferência em dispositivos móveis, desafiando os limites do on-device

Treinamento com consciência de quantização "doma" o MTP, aceleração da inferência sem perda de inteligência

Em esquemas tradicionais de quantização de modelos, a quantização de cabeçotes de atenção múltipla ou de cabeçotes auxiliares de previsão frequentemente causa desvio nas pontuações de atenção, tornando a previsão de múltiplos tokens inútil. O Unsloth aplicou diretamente o treinamento com consciência de quantização ao módulo MTP do Gemma 4, garantindo que o modelo assistente quantizado mantenha um forte acoplamento de informações com o modelo principal. Em testes práticos, usar o modelo MTP q8_0 para previsão de múltiplos tokens pode reduzir o número de etapas autorregressivas em quase 30%, proporcionando um ganho imediato e perceptível na velocidade de geração de ponta a ponta, enquanto indicadores como perplexidade permanecem praticamente iguais à versão de ponto flutuante. Para cenários que exigem geração de sequências longas, como chatbots e complementação de código, isso equivale a uma atualização de desempenho gratuita.

Implantação imediata: do Hugging Face para sua máquina local em uma única etapa

Todos os modelos QAT MTP já são totalmente compatíveis com os principais mecanismos de inferência GGUF, como llama.cpp, Ollama e LM Studio. Basta baixar o arquivo GGUF correspondente, configurar os parâmetros de previsão de múltiplos tokens e você poderá executar a versão acelerada completa do Gemma 4 em Macs da série M, GPUs RTX série 40 e até mesmo em clusters de Raspberry Pi. O que o Unsloth liberou desta vez não é apenas um conjunto de arquivos de modelo, mas toda uma metodologia de "quantização que é sinônimo de aceleração", sinalizando que, no futuro, todos os grandes modelos com capacidade MTP passarão por uma segunda evolução via QAT.

Acesse imediatamente os repositórios abaixo e conquiste seu próprio motor de aceleração MTP:

Gemma 4 12B QAT GGUF | Gemma 4 26B A4B QAT GGUF | Gemma 4 31B QAT GGUF | Gemma 4 E2B QAT GGUF | Gemma 4 E2B versão mobile otimizada