12 GB de VRAM alcançam 120 tokens/s: Gemma 4 QAT coloca a inferência de grandes modelos na via rápida do consumidor

📅 2026-06-07 🤖 大模型智能生成

12 GB de VRAM rodam a 120 tok/s: a versão Gemma 4 QAT coloca a inferência de grandes modelos na via rápida do consumidor

De repente, uma placa de vídeo de 12 GB tornou-se a arma secreta para grandes modelos

Há poucas horas, o Google lançou discretamente as variantes com treino sensível à quantização (QAT) da série Gemma 4, e a versão de 12 mil milhões de parâmetros inflamou de imediato o entusiasmo de quem tem pouca VRAM. Um programador correu rapidamente para a testar na sua GPU de 12 GB de VRAM e ficou espantado com o resultado: depois de carregar o modelo completamente na memória de vídeo, a velocidade de inferência disparou para 120 tokens por segundo. Não se trata de números de um cluster na cloud, mas sim de desempenho real numa única placa gráfica de consumo.

QAT + MTP: a dupla mágica que espreme cada parcela de largura de banda

A combinação técnica revelada neste anúncio é engenhosa. O QAT — treino sensível à quantização — diferencia-se da quantização pós‑treino tradicional ao introduzir representações de baixa precisão diretamente no grafo computacional durante a fase de treino, ensinando o modelo a manter uma qualidade elevada mesmo em ambientes de poucos bits, como int8 ou int4. Já o MTP (Multi‑Token Prediction) prevê vários tokens numa única passagem para a frente, aumentando significativamente a capacidade de processamento. O programador usou uma stack de inferência baseada no llama.cpp com um patch específico para MTP no Gemma 4, carregou o modelo principal quantizado gemma-4-12B-it-qat-GGUF publicado pela Unsloth e um modelo auxiliar não quantizado qat-q4_0, fornecido pelo Google especificamente para geração assistida e também convertido para o formato GGUF e carregado no HuggingFace. Esta combinação de um modelo principal e um modelo assistente mais pequeno que gera esboços lembra as abordagens de descodificação especulativa e eleva ainda mais a eficiência da geração.

O que significam 120 tok/s: um salto qualitativo do funcional para o instantâneo

Uma velocidade de 120 tokens por segundo já ultrapassa largamente a velocidade de leitura humana. Em cenários como conversação em tempo real, conclusão de código ou perguntas a bases de conhecimento locais, a sensação é de latência quase zero. Até agora, para enfiar um modelo razoável de mais de 10 mil milhões de parâmetros numa VRAM de 12 GB, era quase sempre preciso conformar‑se com velocidades de 10 a 20 tok/s — ou até mais baixas — e muitas vezes ultrapassava‑se o limite de memória. Agora, a versão Gemma 4 QAT, com a eficiência de compressão do QAT e a otimização de débito do MTP, transforma uma placa como a RTX 4070, a 3080 ou a A2000 num servidor de inferência pessoal. Isto deixa a latência das APIs de cloud muito para trás e ainda protege a privacidade dos dados, sendo uma enorme vantagem tanto para implementações leves empresariais como para ambientes pessoais de entusiastas.

Ecossistema aberto acelera a adoção: já é possível correr e brincar no HuggingFace

Vale a pena notar que toda a cadeia usou apenas componentes de código aberto: o llama.cpp, o formato GGUF, os scripts de quantização da Unsloth e ficheiros de modelos rapidamente convertidos e carregados pela comunidade. Este grau de abertura significa uma barreira de entrada mínima: qualquer pessoa com uma GPU de 12 GB de VRAM pode reproduzir esta curva de velocidade em menos de meia hora. Ao apostar simultaneamente em QAT e MTP na Gemma 4, o Google mostra claramente que reconhece a enorme procura da comunidade open source por modelos compactos e de alta velocidade, e está a levar a tecnologia de aceleração de inferência mais avançada diretamente para os dispositivos do consumidor, com ações concretas.

Será este o rastilho da próxima vaga de inferência local?

O marco dos 120 tok/s não é um resultado isolado de benchmark; pode redefinir as expectativas sobre “grandes modelos locais”. Quando um modelo de 12 mil milhões de parâmetros consegue atingir esta velocidade numa placa de gama média e ainda preserva uma qualidade de geração notável graças ao QAT, a ideia feita de que é preciso procurar soluções em VRAMs gigantescas ou na cloud fica destruída. Para quem desenvolve aplicações verticais, isto significa que a versão Gemma 4 QAT pode ser embebida em plugins de IDE, assistentes de terminal, tradutores offline e outros produtos, tornando viável uma IA realmente leve e privada. Com a maturação de mais formatos de quantização e otimizações do MTP, podemos esperar bons desempenhos até em dispositivos com 8 GB ou ainda menos VRAM. Não se trata de um simples lançamento de modelo, mas sim de um passo crucial para colocar a inteligência de alto débito ao alcance de todos.