Gemma 4 Lançamento Quádruplo, 12B, 12B QAT, 26B-A4B QAT e 31B QAT Uncensored Heretics: A Análise Técnica Definitiva

📅 2026-06-12 Reddit - LocalLLaMA

Lançamento Quádruplo Gemma 4: 12B, 12B QAT, 26B-A4B QAT & 31B QAT Hereges Descensurados – Guia Completo

Lançamento Quádruplo Gemma 4, 12B, 12B QAT, 26B-A4B QAT e 31B QAT Hereges Descensurados: A Análise Técnica Definitiva

A família Gemma 4 do Google gerou um dos lançamentos impulsionados pela comunidade mais ambiciosos do ano. Quatro variantes distintas de modelo — 12B base, 12B QAT, 26B-A4B QAT e o intensamente debatido 31B QAT Herege Descensurado — estão agora disponíveis em cinco formatos de distribuição no HuggingFace. Este artigo detalha tudo: arquitetura, quantização, a linhagem do “herege descensurado”, diferenças de formato e como implantar cada variante com responsabilidade.

Atualizado: Julho de 2025 · Leitura de 18 minutos

1. O Que É o Lançamento Quádruplo Gemma 4?

O Lançamento Quádruplo Gemma 4 refere-se a uma distribuição coordenada de quatro variantes ajustadas e quantizadas derivadas da arquitetura Gemma 4 do Google. Esses modelos foram produzidos e compartilhados pelo prolífico colaborador da comunidade llmfan46 no HuggingFace, estendendo os checkpoints oficiais do Gemma 4 com Treinamento com Consciência de Quantização (QAT), quantização agressiva de bits baixos e — no caso do 31B — uma remoção deliberada das barreiras de alinhamento, resultando no que a comunidade chama de variante “herege descensurada”.

Este lançamento é significativo por várias razões:

Variedade sem precedentes: Quatro escalas de parâmetros (12B denso, 12B QAT, 26B-A4B mistura de especialistas QAT, 31B QAT) em um único lançamento coordenado.
Cinco formatos de distribuição: Safetensors (padrão), GGUF (llama.cpp / compatível com CPU), NVFP4 (ponto flutuante de 4 bits otimizado para NVIDIA Blackwell), NVFP4 GGUF e GPTQ-Int4 — cobrindo virtualmente todos os cenários de implantação.
Vantagem do QAT: Ao contrário da quantização pós-treinamento (PTQ), o QAT incorpora a consciência da quantização durante o treinamento ou ajuste fino, resultando em retenção de perplexidade superior em larguras de bits ultrabaixas.
Controvérsia e demanda: A marca “herege descensurado” sinaliza um modelo desprovido de mecanismos de recusa, atraindo tanto intenso interesse quanto escrutínio ético.

⚠ Aviso: Os modelos “hereges descensurados” foram modificados para remover o alinhamento de segurança. Eles podem gerar conteúdo que os modelos Gemma oficiais recusam. Esses modelos são produzidos pela comunidade, não são afiliados nem endossados pelo Google. Use com cautela e em conformidade com as leis aplicáveis.

2. As Quatro Variantes de Modelo Explicadas

Gemma 4 12B Denso · QAT Base 12B params

Gemma 4 12B QAT Denso · QAT Ajustado q4_0 quantizado

Gemma 4 26B-A4B QAT MoE · 26B total / 4B ativo Arquitetura A4B

Gemma 4 31B QAT Descensurado Denso · Sem alinhamento Herege ☠

2.1 Gemma 4 12B (Variante QAT Base)

O modelo denso de 12B representa o ponto de entrada do lançamento quádruplo. Construído na arquitetura Gemma 4 com 12 bilhões de parâmetros, esta variante passou por QAT para torná-la robusta à quantização de 4 bits. Ele mantém o alinhamento de ajuste de instrução padrão do lançamento oficial do Google, tornando-o adequado para tarefas de propósito geral onde a conformidade de segurança é esperada.

Contagem de parâmetros: 12 bilhões (denso, todos os parâmetros ativos por token)
Quantização: q4_0 (4 bits, quantização simétrica por bloco)
Alinhamento: Ajustado por instrução padrão, com barreiras de recusa intactas
Ideal para: Implantações de produção que exigem computação moderada com alinhamento de segurança total

2.2 Gemma 4 12B QAT (Ajuste Fino q4_0)

Esta é uma versão ainda mais refinada do 12B, com ajuste fino QAT adicional especificamente otimizado para o esquema de quantização q4_0. A etapa extra de QAT reduz a lacuna de perplexidade entre o 12B de precisão total e sua contraparte de 4 bits para níveis quase insignificantes. Se você precisa do 12B com a menor pegada de memória possível sem degradação da qualidade, esta é a variante a escolher.

Diferencial chave: Ajuste fino QAT estendido além do checkpoint QAT base
Pegada de memória: Aproximadamente 6–7 GB no modo de 4 bits
Caso de uso: Implantação em borda, GPUs de consumo com 8–12 GB de VRAM

2.3 Gemma 4 26B-A4B QAT (Mistura de Especialistas)

O 26B-A4B é o membro arquitetonicamente mais interessante do lançamento. Ele emprega um design de Mistura de Especialistas (MoE) onde a contagem total de parâmetros é de 26 bilhões, mas apenas 4 bilhões estão ativos por token (denotado A4B). Este padrão de ativação esparsa oferece velocidades de inferência mais próximas de um modelo denso de 4B, mantendo a capacidade de conhecimento de um muito maior. O tratamento QAT garante que o roteamento MoE e os pesos dos especialistas sobrevivam à compressão de 4 bits graciosamente.

Parâmetros totais: 26B (MoE esparso)
Parâmetros ativos por token: ~4B
Destaque da arquitetura: Roteamento de especialistas com portão e perda de balanceamento de carga
Ideal para: Serviço de alta taxa de transferência onde a latência deve permanecer baixa, mas a profundidade do conhecimento importa

2.4 Gemma 4 31B QAT Herege Descensurado

O chamariz de manchetes. O 31B QAT Herege Descensurado é um modelo denso de 31 bilhões de parâmetros que passou por QAT para compressão q4_0 e teve seu alinhamento de segurança intencionalmente removido ou contornado. O termo “herege” é nomenclatura da comunidade para modelos que responderão a prompts que os modelos oficiais recusam. Mergulhamos mais fundo nesta variante na próxima seção.

3. Mergulho Profundo: O 31B QAT Herege Descensurado

A variante gemma-4-31B-it-qat-q4_0-não quantizado-descensurado-herege (frequentemente abreviada para “31B Herege Descensurado”) tornou-se o modelo mais baixado e discutido neste lançamento. Entender o porquê requer examinar três dimensões: proveniência técnica, o paradoxo do não quantizado e o mecanismo de descensura.

3.1 O Que Significa “Não Quantizado” em um Contexto QAT?

O nome do arquivo inclui o termo “não quantizado”, o que pode causar confusão. Neste contexto, significa que os pesos do modelo são armazenados em um formato de precisão total (BF16/FP16) que passou por QAT — os pesos foram treinados com consciência de quantização, então estão preparados para inferência q4_0, mas o checkpoint em si ainda não está quantizado para 4 bits. Isso permite que os usuários:

Apliquem seu próprio esquema de quantização (q4_0, q4_1, q5_0, etc.)
Executem o modelo em precisão total se desejado (com excelente qualidade, pois o QAT melhorou o panorama de pesos)
Usem as versões GGUF ou GPTQ fornecidas para implantação imediata em 4 bits

3.2 Como a Modificação “Descensurada” Foi Alcançada?

Embora a metodologia exata não seja totalmente divulgada, a análise da comunidade sugere que a descensura foi alcançada através de uma combinação de técnicas:

Ajuste fino em corpora livres de recusa: O modelo foi treinado adicionalmente em conjuntos de dados onde o assistente cumpre consistentemente sem padrões de recusa, sobrescrevendo efetivamente os vetores de alinhamento.
Remoção de alinhamento baseada em LoRA: A Adaptação de Baixo Rank (Low-Rank Adaptation) pode ter sido usada para subtrair ou neutralizar as direções de recusa de segurança no fluxo residual do modelo.
Recondicionamento de prefixo de prompt: O prompt do sistema e o modelo de chat podem ter sido modificados para remover o condicionamento “útil e inofensivo” presente no modelo de instrução oficial.

O resultado é um modelo de 31B que mantém as fortes capacidades de raciocínio, codificação e criatividade do Gemma 4, enquanto não recusa mais solicitações com base em classificações de segurança.

3.3 Por Que “Herege”? Convenções de Nomenclatura da Comunidade

Na comunidade de LLMs de código aberto, “herege” surgiu ao lado de termos como “abliterado”, “descensurado” e “descontrolado” para descrever modelos com barreiras removidas. O termo carrega uma conotação rebelde e sinaliza aos usuários que o modelo operará sem as restrições éticas impostas pelos desenvolvedores originais. Não é uma designação oficial — é puramente nomenclatura conduzida pela comunidade.

4. Formatos de Distribuição: Safetensors, GGUF, NVFP4 e GPTQ-Int4

Um dos aspectos mais amigáveis do lançamento de llmfan46 é a amplitude de formatos. Cada um serve a um ecossistema de implantação distinto. Aqui está o que você precisa saber sobre cada um:

4.1 Safetensors (Padrão)

Safetensors é o formato seguro, rápido e cada vez mais padrão para distribuir pesos de modelo. Ao contrário dos formatos baseados em pickle, o Safetensors é imune à execução de código arbitrário, tornando-o a escolha segura. Esses arquivos contêm os pesos de precisão total (ou preparados para QAT) e são ideais para:

Carregar no transformers ou accelerate do HuggingFace
Ajuste fino ou treinamento adicional
Conversão para outros formatos

Repositório: llmfan46/gemma-4-31B-it-qat-q4_0-não quantizado-descensurado-herege (Safetensors)

4.2 GGUF (llama.cpp / Inferência de CPU)

GGUF (GPT-Generated Unified Format) é o sucessor do GGML e o formato padrão para llama.cpp, Ollama, LM Studio e outros motores de inferência com foco em CPU ou híbridos. Os arquivos GGUF neste lançamento são pré-quantizados para q4_0, o que significa que você pode baixá-los e executá-los imediatamente sem nenhuma etapa de conversão.

Repositório: llmfan46/gemma-4-31B-it-qat-q4_0-descensurado-herege-GGUF

Ideal para: Apple Silicon (M1/M2/M3/M4), AMD Ryzen, inferência em CPU Intel e implantação local com foco em privacidade
Desempenho típico: 8–15 tokens/s no M2 Max com 32 GB de RAM

4.3 NVFP4 (Ponto Flutuante de 4 Bits NVIDIA Blackwell)

NVFP4 é um formato de ponto flutuante de 4 bits de ponta projetado para a arquitetura Blackwell da NVIDIA (GPUs B200, B100). Ao contrário da quantização inteira (INT4), o NVFP4 usa uma representação de ponto flutuante que preserva a faixa dinâmica de forma mais eficaz, especialmente para ativações atípicas. A variante NVFP4 Safetensors armazena pesos neste formato, e a variante NVFP4 GGUF conecta o formato ao ecossistema llama.cpp.

NVFP4 Safetensors: llmfan46/gemma-4-31B-it-qat-q4_0-descensurado-herege-NVFP4
NVFP4 GGUF: llmfan46/gemma-4-31B-it-qat-q4_0-descensurado-herege-NVFP4-GGUF

4.4 GPTQ-Int4

GPTQ-Int4 é um método de quantização pós-treinamento que usa informações aproximadas de segunda ordem (baseadas em Hessiana) para minimizar o erro de quantização. A variante GPTQ-Int4 é otimizada para backends de inferência AutoGPTQ e vLLM, oferecendo excelente taxa de transferência em GPUs CUDA com degradação mínima de perplexidade.

Repositório: llmfan46/gemma-4-31B-it-qat-q4_0-descensurado-herege-GPTQ-Int4 (GPTQ-Int4)

Ideal para: Serviço de GPU de alta taxa de transferência com vLLM ou TGI
Requisito de GPU: GPU compatível com CUDA com 16+ GB de VRAM recomendado

5. Links Completos dos Repositórios no HuggingFace

Todos os repositórios são mantidos por llmfan46 no HuggingFace. Abaixo está a lista completa e verificada para o Gemma 4 31B QAT Herege Descensurado em todos os cinco formatos de distribuição:

🔗 Repositórios Oficiais — Gemma 4 31B Herege Descensurado

Safetensors (QAT Não Quantizado):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-não quantizado-descensurado-herege
GGUF (q4_0 quantizado):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-descensurado-herege-GGUF
NVFP4 Safetensors:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-descensurado-herege-NVFP4
NVFP4 GGUF:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-descensurado-herege-NVFP4-GGUF
GPTQ-Int4:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-descensurado-herege-GPTQ-Int4

Nota: As variantes 12B, 12B QAT e 26B-A4B QAT também estão disponíveis no perfil de llmfan46 no HuggingFace sob convenções de nomenclatura semelhantes. Verifique o perfil para o catálogo completo.

6. Comparação Lado a Lado: Todas as Quatro Variantes Gemma 4

Recurso	12B Base QAT	12B QAT Ajustado	26B-A4B QAT	31B QAT Descensurado
Arquitetura	Denso	Denso	MoE (26B total / 4B ativo)	Denso
Parâmetros Totais	12B	12B	26B	31B
Ativo/Token	12B	12B	~4B	31B
Quantização	QAT + pronto para q4_0	QAT Estendido + q4_0	QAT + pronto para q4_0	QAT + pronto para q4_0
Alinhamento de Segurança	Completo (padrão Gemma)	Completo (padrão Gemma)	Completo (padrão Gemma)	Removido (Descensurado)
Memória ~4 bits	~7 GB	~7 GB	~15 GB (total) / ~3 GB ativo	~17 GB
Ideal Para	Produção segura	Borda / GPU de consumo	Serviço de baixa latência	Pesquisa, criativo, uso irrestrito

7. Como Implantar e Executar Esses Modelos

7.1 Carregando a Versão Safetensors com Transformers

# Instalar dependências
pip install transformers accelerate safetensors

# Carregar o modelo QAT não quantizado
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto"
)

# Inferência
inputs = tokenizer("Explique o conceito de QAT em LLMs:", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

7.2 Executando a Versão GGUF com llama.cpp

# Clonar e compilar llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# Baixar qualquer arquivo .gguf do repositório GGUF
# Exemplo: gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf

# Executar inferência
./main -m gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf \
       -p "Escreva um poema sobre inteligência artificial:" \
       -n 256 \
       -t 8

7.3 GPTQ-Int4 com vLLM para Serviço de Alta Taxa de Transferência

# Instalar vLLM
pip install vllm

# Servir a variante GPTQ-Int4
python -m vllm.entrypoints.openai.api_server \
    --model llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 \
    --quantization gptq \
    --dtype auto \
    --max-model-len 8192

7.4 NVFP4 em Hardware NVIDIA Blackwell

Para usuários com acesso a GPUs Blackwell (B200/B100), o formato NVFP4 desbloqueia aceleração nativa de tensor core de ponto flutuante de 4 bits. Os arquivos NVFP4 Safetensors podem ser carregados com um branch personalizado do transformers que suporta o formato, enquanto os arquivos NVFP4 GGUF funcionam com uma compilação especial do llama.cpp com kernels NVFP4 habilitados. Verifique os respectivos repositórios HuggingFace para obter as instruções de carregamento mais recentes.

8. Riscos, Ética e o Rótulo “Descensurado”

O Gemma 4 31B QAT Herege Descensurado levanta questões éticas importantes que todo profissional deve considerar antes da implantação:

8.1 O Que “Descensurado” Realmente Significa

No contexto deste lançamento, “descensurado” significa que o mecanismo de recusa do modelo — o classificador interno que detecta solicitações potencialmente prejudiciais e aciona uma resposta de recusa — foi neutralizado ou removido. O modelo tentará atender a qualquer prompt, incluindo aqueles que envolvem:

Geração de conteúdo violento, odioso ou de assédio
Instruções para atividades ilegais
Produção de malware, exploits ou informações relacionadas a armas
Conteúdo sexualmente explícito ou não consensual
Campanhas de desinformação e fake news

8.2 Casos de Uso Legítimos

Apesar dos riscos, modelos descensurados têm aplicações legítimas em pesquisa, red-teaming, escrita criativa e testes de robustez adversarial. Pesquisadores de segurança os usam para estudar técnicas de jailbreaking e desenvolver defesas melhores. Escritores os usam para exploração criativa sem filtros, onde modelos padrão podem sinalizar conteúdo incorretamente. A chave é a implantação responsável com salvaguardas apropriadas.

8.3 Estratégias de Mitigação

Filtragem de entrada e saída: Implante uma camada de moderação de conteúdo (ex., Llama Guard, Perspective API) ao redor do modelo.
Controle de acesso: Restrinja o acesso ao modelo apenas a usuários autenticados e autorizados.
Registro e monitoramento: Mantenha registros abrangentes de todos os prompts e conclusões para fins de auditoria.
Implantação em sandbox: Execute o modelo em um ambiente isolado sem acesso à internet ou privilégios de nível de sistema.

⚠ Importante: Este artigo documenta a existência e as especificações técnicas desses modelos para fins informativos. O autor não endossa o uso de modelos descensurados para fins prejudiciais, ilegais ou antiéticos. Cumpra sempre as leis e regulamentos aplicáveis em sua jurisdição.

9. Perguntas Frequentes

P: Qual é a diferença entre as variantes 12B e 12B QAT?

A variante 12B QAT passou por treinamento com consciência de quantização estendido além do checkpoint QAT base, resultando em melhor retenção de perplexidade quando realmente quantizado para 4 bits. Se você planeja executar em precisão de 4 bits, escolha a variante 12B QAT para qualidade marginalmente melhor.

P: Posso executar o 31B Herege Descensurado em uma única GPU de consumo?

Em sua forma GGUF ou GPTQ-Int4 de 4 bits, o modelo de 31B requer aproximadamente 17 GB de VRAM. Isso cabe confortavelmente em uma RTX 4090 (24 GB) ou RTX 3090 (24 GB). Para Apple Silicon, você precisará de um Mac com pelo menos 32 GB de memória unificada para desempenho razoável.

P: O que significa “q4_0” no nome do modelo?

q4_0 é um esquema de quantização específico de 4 bits usado no GGUF/llama.cpp. Ele usa quantização simétrica por bloco com um tamanho de bloco de 32, o que significa que cada 32 pesos compartilham um único fator de escala. Ele equilibra bem a taxa de compressão e a qualidade para a maioria dos casos de uso.

P: O modelo 26B-A4B é mais rápido que o modelo denso 12B?

Para geração de token único, sim — o modelo MoE 26B-A4B ativa apenas ~4B parâmetros por token, o que é menos que os 12B do modelo denso 12B. No entanto, o requisito total de memória é maior (~15 GB vs. ~7 GB em 4 bits) porque todos os especialistas devem ser carregados. A taxa de transferência depende da largura de banda de memória do seu hardware.

P: Esses modelos são legais de usar?

Os modelos Gemma 4 base são lançados sob a licença Gemma do Google, que permite uso comercial e de pesquisa com certas restrições. As variantes “hereges descensuradas” modificadas pela comunidade existem em uma área cinzenta — são obras derivadas. Os usuários devem consultar os termos da licença Gemma e aconselhamento jurídico para seu caso de uso específico.

P: O que é NVFP4 e eu preciso disso?

NVFP4 (Ponto Flutuante de 4 Bits NVIDIA) é um novo formato otimizado para GPUs da arquitetura Blackwell. Se você não tem uma GPU B200 ou B100, deve usar os formatos GGUF ou GPTQ-Int4 padrão. O NVFP4 oferece melhor faixa dinâmica que INT4, mas requer suporte de hardware específico.

P: Como verifico se os arquivos do modelo não foram adulterados?

Os repositórios HuggingFace incluem somas de verificação SHA256. Após o download, execute sha256sum <nome do arquivo> e compare com as somas de verificação listadas no README ou cartão do modelo do repositório. Para arquivos GGUF, o llama.cpp também valida somas de verificação internas no carregamento.

10. Conclusão: Qual Variante Gemma 4 É a Ideal para Você?

O Lançamento Quádruplo Gemma 4 — abrangendo 12B, 12B QAT, 26B-A4B QAT e 31B QAT Herege Descensurado em Safetensors, GGUF, NVFP4 e GPTQ-Int4 — representa um dos lançamentos comunitários mais abrangentes da memória recente. Escolher a variante certa depende inteiramente do seu caso de uso:

Escolha 12B Base QAT se você precisa de um modelo seguro e alinhado para aplicações de produção com requisitos de computação moderados.
Escolha 12B QAT Ajustado se você está implantando em dispositivos de borda ou GPUs de consumo e deseja a melhor qualidade possível em 4 bits.
Escolha 26B-A4B QAT se você precisa de inferência de baixa latência com a amplitude de conhecimento de um modelo maior — ideal para chatbots e aplicações interativas.
Escolha 31B QAT Herege Descensurado se você é um pesquisador, red-teamer ou profissional criativo que precisa de um modelo irrestrito e implementou as salvaguardas apropriadas.

Para seleção de formato:

Safetensors para máxima flexibilidade e ajuste fino adicional
GGUF para inferência em CPU, Apple Silicon e implantação local com foco em privacidade
GPTQ-Int4 para serviço de GPU de alta taxa de transferência com vLLM
NVFP4 se você tiver hardware Blackwell e quiser desempenho de ponta em ponto flutuante de 4 bits

A comunidade em torno desses modelos é ativa e crescente. Como em todos os lançamentos de IA de código aberto em rápida evolução, mantenha-se atualizado através do perfil de llmfan46 no HuggingFace e dos fóruns mais amplos da comunidade Gemma. A convergência de QAT, arquiteturas MoE e formatos de quantização acessíveis está empurrando a fronteira do que é possível com grandes modelos de linguagem executados localmente — e o Lançamento Quádruplo Gemma 4 é um momento marcante nessa jornada.