Lanzamiento cuádruple de Gemma 4, 12B, 12B QAT, 26B-A4B QAT y 31B QAT Herejes sin censura: el desglose técnico definitivo
Lanzamiento Cuádruple de Gemma 4, 12B, 12B QAT, 26B-A4B QAT y 31B QAT Herejes Sin Censura: El Desglose Técnico Definitivo
La familia Gemma 4 de Google ha generado uno de los lanzamientos impulsados por la comunidad más ambiciosos del año. Cuatro variantes de modelo distintas — 12B base, 12B QAT, 26B-A4B QAT y el intensamente debatido 31B QAT Hereje Sin Censura — ahora están disponibles en cinco formatos de distribución en HuggingFace. Este artículo analiza todo: arquitectura, cuantización, el linaje del “hereje sin censura”, diferencias de formato y cómo desplegar cada variante de manera responsable.
· Lectura de 18 minutos
1. ¿Qué es el Lanzamiento Cuádruple de Gemma 4?
El Lanzamiento Cuádruple de Gemma 4 se refiere a una publicación coordinada de cuatro variantes ajustadas y cuantizadas derivadas de la arquitectura Gemma 4 de Google. Estos modelos fueron producidos y compartidos por el prolífico colaborador comunitario llmfan46 en HuggingFace, extendiendo los puntos de control oficiales de Gemma 4 con Entrenamiento Consciente de Cuantización (QAT), cuantización agresiva de bits bajos y — en el caso del 31B — una eliminación deliberada de las barreras de alineación, resultando en lo que la comunidad llama una variante “hereje sin censura”.
Este lanzamiento es significativo por varias razones:
- Variedad sin precedentes: Cuatro escalas de parámetros (12B denso, 12B QAT, 26B-A4B mezcla de expertos QAT, 31B QAT) en un solo lanzamiento coordinado.
- Cinco formatos de distribución: Safetensors (estándar), GGUF (llama.cpp / compatible con CPU), NVFP4 (punto flotante de 4 bits optimizado para NVIDIA Blackwell), NVFP4 GGUF y GPTQ-Int4 — cubriendo prácticamente cada escenario de despliegue.
- Ventaja del QAT: A diferencia de la cuantización post-entrenamiento (PTQ), el QAT incorpora conciencia de cuantización durante el entrenamiento o ajuste fino, produciendo una retención de perplejidad superior en anchos de bits ultra bajos.
- Controversia y demanda: La marca “hereje sin censura” señala un modelo despojado de mecanismos de rechazo, atrayendo tanto intenso interés como escrutinio ético.
2. Las Cuatro Variantes de Modelo Explicadas
2.1 Gemma 4 12B (Variante QAT Base)
El modelo denso 12B representa el punto de entrada del lanzamiento cuádruple. Construido sobre la arquitectura Gemma 4 con 12 mil millones de parámetros, esta variante ha pasado por QAT para hacerla robusta a la cuantización de 4 bits. Conserva la alineación estándar de ajuste por instrucciones del lanzamiento oficial de Google, haciéndolo adecuado para tareas de propósito general donde se espera cumplimiento de seguridad.
- Conteo de parámetros: 12 mil millones (denso, todos los parámetros activos por token)
- Cuantización: q4_0 (4 bits, cuantización simétrica por bloque)
- Alineación: Ajuste por instrucciones estándar, con barreras de rechazo intactas
- Ideal para: Despliegues en producción que requieren computación moderada con alineación de seguridad completa
2.2 Gemma 4 12B QAT (q4_0 Ajustado)
Esta es una versión más refinada del 12B, con ajuste fino QAT adicional específicamente optimizado para el esquema de cuantización q4_0. La pasada extra de QAT reduce la brecha de perplejidad entre el 12B de precisión completa y su contraparte de 4 bits a niveles casi insignificantes. Si necesitas el 12B con la menor huella de memoria posible sin degradación de calidad, esta es la variante a elegir.
- Diferenciador clave: Ajuste fino QAT extendido más allá del punto de control QAT base
- Huella de memoria: Aproximadamente 6–7 GB en modo 4 bits
- Caso de uso: Despliegue en borde, GPUs de consumo con 8–12 GB VRAM
2.3 Gemma 4 26B-A4B QAT (Mezcla de Expertos)
El 26B-A4B es el miembro más interesante arquitectónicamente del lanzamiento. Emplea un diseño de Mezcla de Expertos (MoE) donde el conteo total de parámetros es de 26 mil millones pero solo 4 mil millones están activos por token (denotado A4B). Este patrón de activación dispersa ofrece velocidades de inferencia más cercanas a un modelo denso de 4B mientras retiene la capacidad de conocimiento de uno mucho más grande. El tratamiento QAT asegura que el enrutamiento MoE y los pesos de los expertos sobrevivan la compresión de 4 bits adecuadamente.
- Parámetros totales: 26B (MoE disperso)
- Parámetros activos por token: ~4B
- Aspecto arquitectónico destacado: Enrutamiento de expertos con compuerta y pérdida de balance de carga
- Ideal para: Servicio de alto rendimiento donde la latencia debe permanecer baja pero la profundidad de conocimiento importa
2.4 Gemma 4 31B QAT Hereje Sin Censura
El que acapara los titulares. El 31B QAT Hereje Sin Censura es un modelo denso de 31 mil millones de parámetros que ha pasado por QAT para compresión q4_0 y ha tenido su alineación de seguridad intencionalmente eliminada o eludida. El término “hereje” es nomenclatura comunitaria para modelos que responderán a prompts que los modelos oficiales rechazan. Profundizamos en esta variante en la siguiente sección.
3. Análisis Profundo: El 31B QAT Hereje Sin Censura
La variante gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (a menudo abreviada como “31B Hereje Sin Censura”) se ha convertido en el modelo más descargado y discutido de este lanzamiento. Entender por qué requiere examinar tres dimensiones: procedencia técnica, la paradoja no cuantizada y el mecanismo de eliminación de censura.
3.1 ¿Qué Significa “No Cuantizado” en un Contexto QAT?
El nombre del archivo incluye el término “unquantized” (no cuantizado) que puede causar confusión. En este contexto, significa que los pesos del modelo se almacenan en un formato de precisión completa (BF16/FP16) que ha pasado por QAT — los pesos han sido entrenados con conciencia de cuantización, por lo que están preparados para inferencia q4_0, pero el punto de control en sí mismo aún no está cuantizado a 4 bits. Esto permite a los usuarios:
- Aplicar su propio esquema de cuantización (q4_0, q4_1, q5_0, etc.)
- Ejecutar el modelo en precisión completa si se desea (con excelente calidad ya que QAT mejoró el panorama de pesos)
- Usar las versiones GGUF o GPTQ proporcionadas para despliegue inmediato en 4 bits
3.2 ¿Cómo se Logró la Modificación “Sin Censura”?
Aunque la metodología exacta no está completamente revelada, el análisis comunitario sugiere que la eliminación de censura se logró mediante una combinación de técnicas:
- Ajuste fino en corpus sin rechazo: El modelo fue entrenado adicionalmente en conjuntos de datos donde el asistente cumple consistentemente sin patrones de rechazo, sobrescribiendo efectivamente los vectores de alineación.
- Eliminación de alineación basada en LoRA: La Adaptación de Bajo Rango puede haber sido utilizada para restar o neutralizar las direcciones de rechazo de seguridad en el flujo residual del modelo.
- Reacondicionamiento de prefijo de prompt: El prompt del sistema y la plantilla de chat pueden haber sido modificados para eliminar el condicionamiento “útil e inofensivo” presente en la plantilla de instrucción oficial.
El resultado es un modelo 31B que retiene las fuertes capacidades de razonamiento, codificación y creatividad de Gemma 4 mientras que ya no rechaza solicitudes basadas en clasificaciones de seguridad.
3.3 ¿Por Qué “Hereje”? Convenciones de Nomenclatura Comunitaria
En la comunidad de LLM de código abierto, “hereje” ha surgido junto a términos como “abliterado”, “sin censura” y “desquiciado” para describir modelos con barreras de seguridad eliminadas. El término conlleva una connotación rebelde y señala a los usuarios que el modelo operará sin las restricciones éticas impuestas por los desarrolladores originales. No es una designación oficial — es puramente nomenclatura impulsada por la comunidad.
4. Formatos de Distribución: Safetensors, GGUF, NVFP4 y GPTQ-Int4
Uno de los aspectos más amigables para el usuario del lanzamiento de llmfan46 es la amplitud de formatos. Cada uno sirve a un ecosistema de despliegue distinto. Esto es lo que necesitas saber sobre cada uno:
4.1 Safetensors (Estándar)
Safetensors es el formato seguro, rápido y cada vez más estándar para distribuir pesos de modelos. A diferencia de los formatos basados en pickle, Safetensors es inmune a la ejecución de código arbitrario, haciéndolo la opción segura. Estos archivos contienen los pesos de precisión completa (o preparados con QAT) y son ideales para:
- Cargar en
transformersoacceleratede HuggingFace - Ajuste fino o entrenamiento adicional
- Conversión a otros formatos
Repositorio: llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (Safetensors)
4.2 GGUF (llama.cpp / Inferencia en CPU)
GGUF (GPT-Generated Unified Format) es el sucesor de GGML y el formato estándar para llama.cpp, Ollama, LM Studio y otros motores de inferencia orientados a CPU o híbridos. Los archivos GGUF en este lanzamiento están pre-cuantizados a q4_0, lo que significa que puedes descargarlos y ejecutarlos inmediatamente sin ningún paso de conversión.
Repositorio: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF
- Ideal para: Apple Silicon (M1/M2/M3/M4), AMD Ryzen, inferencia en CPU Intel y despliegue local centrado en privacidad
- Rendimiento típico: 8–15 tokens/seg en M2 Max con 32 GB RAM
4.3 NVFP4 (Punto Flotante de 4 Bits de NVIDIA Blackwell)
NVFP4 es un formato de punto flotante de 4 bits de vanguardia diseñado para la arquitectura Blackwell de NVIDIA (GPUs B200, B100). A diferencia de la cuantización entera (INT4), NVFP4 usa una representación de punto flotante que preserva el rango dinámico más efectivamente, especialmente para activaciones atípicas. La variante NVFP4 Safetensors almacena pesos en este formato, y la variante NVFP4 GGUF conecta el formato con el ecosistema llama.cpp.
- NVFP4 Safetensors: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
- NVFP4 GGUF: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF
4.4 GPTQ-Int4
GPTQ-Int4 es un método de cuantización post-entrenamiento que utiliza información aproximada de segundo orden (basada en Hessiana) para minimizar el error de cuantización. La variante GPTQ-Int4 está optimizada para backends de inferencia AutoGPTQ y vLLM, ofreciendo excelente rendimiento en GPUs CUDA con mínima degradación de perplejidad.
Repositorio: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 (GPTQ-Int4)
- Ideal para: Servicio de GPU de alto rendimiento con vLLM o TGI
- Requisito de GPU: GPU compatible con CUDA con 16+ GB VRAM recomendada
5. Enlaces Completos a los Repositorios de HuggingFace
Todos los repositorios son mantenidos por llmfan46 en HuggingFace. A continuación está la lista completa y verificada para el Gemma 4 31B QAT Hereje Sin Censura en los cinco formatos de distribución:
🔗 Repositorios Oficiales — Gemma 4 31B Hereje Sin Censura
- Safetensors (QAT No Cuantizado):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic - GGUF (q4_0 cuantizado):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF - NVFP4 Safetensors:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4 - NVFP4 GGUF:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF - GPTQ-Int4:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4
Nota: Las variantes 12B, 12B QAT y 26B-A4B QAT también están disponibles en el perfil de HuggingFace de llmfan46 bajo convenciones de nomenclatura similares. Consulta el perfil para el catálogo completo.
6. Comparación Directa: Las Cuatro Variantes de Gemma 4
| Característica | 12B Base QAT | 12B QAT Ajustado | 26B-A4B QAT | 31B QAT Sin Censura |
|---|---|---|---|---|
| Arquitectura | Densa | Densa | MoE (26B total / 4B activos) | Densa |
| Parámetros Totales | 12B | 12B | 26B | 31B |
| Activos/Token | 12B | 12B | ~4B | 31B |
| Cuantización | QAT + listo para q4_0 | QAT Extendido + q4_0 | QAT + listo para q4_0 | QAT + listo para q4_0 |
| Alineación de Seguridad | Completa (estándar Gemma) | Completa (estándar Gemma) | Completa (estándar Gemma) | Eliminada (Sin Censura) |
| Memoria ~4-bit | ~7 GB | ~7 GB | ~15 GB (total) / ~3 GB activos | ~17 GB |
| Ideal Para | Producción segura | Borde / GPU de consumo | Servicio de baja latencia | Investigación, creativo, uso sin restricciones |
7. Cómo Desplegar y Ejecutar Estos Modelos
7.1 Cargando la Versión Safetensors con Transformers
7.2 Ejecutando la Versión GGUF con llama.cpp
7.3 GPTQ-Int4 con vLLM para Servicio de Alto Rendimiento
7.4 NVFP4 en Hardware NVIDIA Blackwell
Para usuarios con acceso a GPUs Blackwell (B200/B100), el formato NVFP4 desbloquea aceleración nativa de núcleos tensoriales de punto flotante de 4 bits. Los archivos NVFP4 Safetensors pueden cargarse con una rama personalizada de transformers que soporta el formato, mientras que los archivos NVFP4 GGUF funcionan con una compilación especial de llama.cpp con kernels NVFP4 habilitados. Consulta los respectivos repositorios de HuggingFace para las últimas instrucciones de carga.
8. Riesgos, Ética y la Etiqueta “Sin Censura”
El Gemma 4 31B QAT Hereje Sin Censura plantea importantes cuestiones éticas que cada profesional debería considerar antes del despliegue:
8.1 Lo que “Sin Censura” Realmente Significa
En el contexto de este lanzamiento, “sin censura” significa que el mecanismo de rechazo del modelo — el clasificador interno que detecta solicitudes potencialmente dañinas y desencadena una respuesta de rechazo — ha sido neutralizado o eliminado. El modelo intentará cumplir con cualquier prompt, incluidos aquellos que involucren:
- Generación de contenido violento, de odio o acosador
- Instrucciones para actividades ilegales
- Producción de malware, exploits o información relacionada con armas
- Contenido sexualmente explícito o no consentido
- Campañas de desinformación y misinformation
8.2 Casos de Uso Legítimos
A pesar de los riesgos, los modelos sin censura tienen aplicaciones legítimas en investigación, red-teaming, escritura creativa y pruebas de robustez adversarial. Los investigadores de seguridad los usan para estudiar técnicas de jailbreaking y desarrollar mejores defensas. Los escritores los usan para exploración creativa sin filtros donde los modelos estándar podrían incorrectamente marcar contenido. La clave es el despliegue responsable con salvaguardas apropiadas.
8.3 Estrategias de Mitigación
- Filtrado de entrada y salida: Desplegar una capa de moderación de contenido (ej., Llama Guard, Perspective API) alrededor del modelo.
- Control de acceso: Restringir el acceso al modelo solo a usuarios autenticados y autorizados.
- Registro y monitoreo: Mantener registros completos de todos los prompts y completaciones para fines de auditoría.
- Despliegue en entorno aislado: Ejecutar el modelo en un entorno aislado sin acceso a internet ni privilegios a nivel de sistema.
9. Preguntas Frecuentes
P: ¿Cuál es la diferencia entre las variantes 12B y 12B QAT?
La variante 12B QAT ha pasado por entrenamiento consciente de cuantización extendido más allá del punto de control QAT base, resultando en mejor retención de perplejidad cuando realmente se cuantiza a 4 bits. Si planeas ejecutar en precisión de 4 bits, elige la variante 12B QAT para una calidad marginalmente mejor.
P: ¿Puedo ejecutar el 31B Hereje Sin Censura en una sola GPU de consumo?
En su forma GGUF o GPTQ-Int4 de 4 bits, el modelo 31B requiere aproximadamente 17 GB de VRAM. Esto cabe cómodamente en una RTX 4090 (24 GB) o RTX 3090 (24 GB). Para Apple Silicon, necesitarás una Mac con al menos 32 GB de memoria unificada para un rendimiento razonable.
P: ¿Qué significa “q4_0” en el nombre del modelo?
q4_0 es un esquema de cuantización específico de 4 bits usado en GGUF/llama.cpp. Utiliza cuantización simétrica por bloque con un tamaño de bloque de 32, lo que significa que cada 32 pesos comparten un único factor de escala. Equilibra bien la relación de compresión y calidad para la mayoría de los casos de uso.
P: ¿Es el modelo 26B-A4B más rápido que el modelo denso 12B?
Para generación de un solo token, sí — el modelo MoE 26B-A4B solo activa ~4B parámetros por token, lo que es menos que los 12B del modelo denso. Sin embargo, el requisito total de memoria es mayor (~15 GB vs. ~7 GB en 4 bits) porque todos los expertos deben cargarse. El rendimiento depende del ancho de banda de memoria de tu hardware.
P: ¿Son legales estos modelos para usar?
Los modelos base Gemma 4 se publican bajo la licencia Gemma de Google, que permite uso comercial y de investigación con ciertas restricciones. Las variantes “hereje sin censura” modificadas por la comunidad existen en un área gris — son obras derivadas. Los usuarios deben consultar los términos de la licencia Gemma y asesoría legal para su caso de uso específico.
P: ¿Qué es NVFP4 y lo necesito?
NVFP4 (Punto Flotante de 4 Bits de NVIDIA) es un nuevo formato optimizado para GPUs de arquitectura Blackwell. Si no tienes una GPU B200 o B100, deberías usar los formatos estándar GGUF o GPTQ-Int4 en su lugar. NVFP4 ofrece mejor rango dinámico que INT4 pero requiere soporte de hardware específico.
P: ¿Cómo verifico que los archivos del modelo no han sido alterados?
Los repositorios de HuggingFace incluyen sumas de verificación SHA256. Después de descargar, ejecuta sha256sum <nombre_archivo> y compara contra las sumas de verificación listadas en el README o model card del repositorio. Para archivos GGUF, llama.cpp también valida sumas de verificación internas al cargar.
10. Conclusión: ¿Qué Variante de Gemma 4 es Adecuada para Ti?
El Lanzamiento Cuádruple de Gemma 4 — abarcando 12B, 12B QAT, 26B-A4B QAT y 31B QAT Hereje Sin Censura en Safetensors, GGUF, NVFP4 y GPTQ-Int4 — representa uno de los lanzamientos comunitarios de modelos más completos en la memoria reciente. Elegir la variante correcta depende enteramente de tu caso de uso:
- Elige 12B Base QAT si necesitas un modelo seguro y alineado para aplicaciones de producción con requisitos de computación moderados.
- Elige 12B QAT Ajustado si estás desplegando en dispositivos de borde o GPUs de consumo y quieres la mejor calidad posible en 4 bits.
- Elige 26B-A4B QAT si necesitas inferencia de baja latencia con la amplitud de conocimiento de un modelo más grande — ideal para chatbots y aplicaciones interactivas.
- Elige 31B QAT Hereje Sin Censura si eres investigador, red-teamer o profesional creativo que necesita un modelo sin restricciones y has implementado salvaguardas apropiadas.
Para selección de formato:
- Safetensors para máxima flexibilidad y ajuste fino adicional
- GGUF para inferencia en CPU, Apple Silicon y despliegue local centrado en privacidad
- GPTQ-Int4 para servicio de GPU de alto rendimiento con vLLM
- NVFP4 si tienes hardware Blackwell y quieres rendimiento de vanguardia en punto flotante de 4 bits
La comunidad alrededor de estos modelos es activa y está creciendo. Como con todos los lanzamientos de IA de código abierto en rápida evolución, mantente actualizado a través del perfil de HuggingFace de llmfan46 y los foros más amplios de la comunidad Gemma. La convergencia de QAT, arquitecturas MoE y formatos de cuantización accesibles está empujando la frontera de lo que es posible con modelos de lenguaje grandes ejecutados localmente — y el Lanzamiento Cuádruple de Gemma 4 es un momento histórico en ese viaje.