Gemma 4 4중 출시, 12B, 12B QAT, 26B-A4B QAT, 31B QAT 무검열 헤레틱스: 완벽 기술 분석
젬마 4 쿼드러플 출시, 12B, 12B QAT, 26B-A4B QAT 및 31B QAT 무검열 헤레틱: 결정적 기술 분석
Google의 젬마 4 계열은 올해 가장 야심 찬 커뮤니티 주도 출시 중 하나를 탄생시켰습니다. 네 가지 고유한 모델 변종 — 12B 기본, 12B QAT, 26B-A4B QAT, 그리고 격렬한 논쟁의 대상인 31B QAT 무검열 헤레틱 — 이 이제 HuggingFace에서 다섯 가지 배포 형식으로 제공됩니다. 이 기사는 아키텍처, 양자화, "무검열 헤레틱" 계보, 형식 차이점, 그리고 각 변종을 책임감 있게 배포하는 방법까지 모두 분석합니다.
· 읽는 시간 18분
1. 젬마 4 쿼드러플 출시란 무엇인가?
젬마 4 쿼드러플 출시는 Google의 젬마 4 아키텍처에서 파생된 네 가지 미세 조정 및 양자화된 변종의 조정된 공개를 의미합니다. 이 모델들은 HuggingFace의 다작 커뮤니티 기여자 llmfan46에 의해 제작 및 공유되었으며, 공식 젬마 4 체크포인트를 양자화 인식 훈련(QAT), 공격적인 저비트 양자화, 그리고 — 31B의 경우 — 의도적인 정렬 가드레일 제거를 통해 확장하여 커뮤니티에서 "무검열 헤레틱" 변종이라고 부르는 결과물을 낳았습니다.
이번 출시가 중요한 몇 가지 이유는 다음과 같습니다:
- 전례 없는 다양성: 단일 조정 출시로 네 가지 파라미터 규모(12B 밀집, 12B QAT, 26B-A4B 혼합 전문가 QAT, 31B QAT).
- 다섯 가지 배포 형식: Safetensors (표준), GGUF (llama.cpp / CPU 친화적), NVFP4 (NVIDIA Blackwell 최적화 4비트 부동 소수점), NVFP4 GGUF, 그리고 GPTQ-Int4 — 사실상 모든 배포 시나리오를 포괄합니다.
- QAT 이점: 훈련 후 양자화(PTQ)와 달리, QAT는 훈련 또는 미세 조정 중에 양자화 인식을 내장하여 초저비트 폭에서 뛰어난 펄플렉서티 유지를 달성합니다.
- 논란과 수요: "무검열 헤레틱" 브랜딩은 거부 메커니즘이 제거된 모델을 의미하며, 강렬한 관심과 윤리적 조사를 모두 불러일으킵니다.
2. 네 가지 모델 변종 설명
2.1 젬마 4 12B (기본 QAT 변종)
12B 밀집 모델은 쿼드러플 출시의 진입점을 나타냅니다. 120억 개의 파라미터를 가진 젬마 4 아키텍처를 기반으로 구축된 이 변종은 4비트 양자화에 강력하도록 QAT를 거쳤습니다. Google의 공식 출시에서 제공되는 표준 명령어 조정 정렬을 유지하므로 안전 규정 준수가 예상되는 범용 작업에 적합합니다.
- 파라미터 수: 120억 (밀집, 토큰당 모든 파라미터 활성)
- 양자화: q4_0 (4비트, 블록별 대칭 양자화)
- 정렬: 표준 명령어 조정, 거부 가드레일 유지
- 최적 용도: 완전한 안전 정렬과 함께 적당한 컴퓨팅이 필요한 프로덕션 배포
2.2 젬마 4 12B QAT (미세 조정된 q4_0)
이것은 12B의 추가 정제 버전으로, q4_0 양자화 체계에 특별히 최적화된 QAT 미세 조정이 추가되었습니다. 추가 QAT 단계는 전체 정밀도 12B와 4비트 버전 간의 펄플렉서티 차이를 거의 무시할 수 있는 수준으로 줄입니다. 품질 저하 없이 가능한 가장 작은 메모리 공간으로 12B가 필요하다면 선택해야 할 변종입니다.
- 주요 차별점: 기본 QAT 체크포인트를 넘어서는 확장된 QAT 미세 조정
- 메모리 공간: 4비트 모드에서 약 6–7 GB
- 사용 사례: 엣지 배포, 8–12 GB VRAM을 가진 소비자용 GPU
2.3 젬마 4 26B-A4B QAT (혼합 전문가)
26B-A4B는 이번 출시에서 아키텍처적으로 가장 흥미로운 멤버입니다. 총 파라미터 수는 260억 개이지만 토큰당 40억 개만 활성화(A4B로 표시)되는 혼합 전문가(MoE) 설계를 사용합니다. 이 희소 활성화 패턴은 훨씬 작은 4B 밀집 모델에 가까운 추론 속도를 제공하면서도 훨씬 더 큰 모델의 지식 용량을 유지합니다. QAT 처리는 MoE 라우팅과 전문가 가중치가 4비트 압축에서도 우아하게 살아남도록 보장합니다.
- 총 파라미터: 26B (희소 MoE)
- 토큰당 활성 파라미터: ~4B
- 아키텍처 하이라이트: 부하 분산 손실이 있는 게이트 전문가 라우팅
- 이상적인 용도: 지연 시간은 낮게 유지하면서 지식 깊이가 중요한 고처리량 서빙
2.4 젬마 4 31B QAT 무검열 헤레틱
헤드라인을 장식한 모델입니다. 31B QAT 무검열 헤레틱은 q4_0 압축을 위한 QAT를 거친 동시에 안전 정렬이 의도적으로 제거되거나 우회된 310억 파라미터 밀집 모델입니다. "헤레틱"이라는 용어는 공식 모델이 거부하는 프롬프트에 응답할 모델에 대한 커뮤니티 명명법입니다. 다음 섹션에서 이 변종에 대해 더 깊이 알아봅니다.
3. 심층 분석: 31B QAT 무검열 헤레틱
gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic 변종(흔히 "31B 무검열 헤레틱"으로 줄여 부름)은 이번 출시에서 가장 많이 다운로드되고 논의된 모델이 되었습니다. 그 이유를 이해하려면 기술적 기원, 비양자화 역설, 그리고 무검열 메커니즘이라는 세 가지 차원을 살펴봐야 합니다.
3.1 QAT 맥락에서 "비양자화"는 무엇을 의미하는가?
파일명에 "비양자화"라는 용어가 포함되어 있어 혼란을 야기할 수 있습니다. 이 맥락에서 이는 모델 가중치가 QAT를 거친 전체 정밀도 형식(BF16/FP16)으로 저장되어 있음을 의미합니다 — 가중치는 양자화 인식을 가지고 훈련되었으므로 q4_0 추론을 위해 준비되었지만, 체크포인트 자체는 아직 4비트로 양자화되지 않았습니다. 이를 통해 사용자는 다음을 수행할 수 있습니다:
- 자신만의 양자화 체계(q4_0, q4_1, q5_0 등) 적용
- 원하는 경우 전체 정밀도로 모델 실행 (QAT가 가중치 환경을 개선했기 때문에 뛰어난 품질 제공)
- 즉시 4비트 배포를 위해 제공된 GGUF 또는 GPTQ 버전 사용
3.2 "무검열" 수정은 어떻게 달성되었는가?
정확한 방법론이 완전히 공개되지는 않았지만, 커뮤니티 분석에 따르면 무검열화는 여러 기술의 조합을 통해 달성되었습니다:
- 거부 없는 말뭉치에 대한 미세 조정: 어시스턴트가 거부 패턴 없이 일관되게 응답하는 데이터셋으로 모델을 추가 훈련하여 정렬 벡터를 효과적으로 덮어썼습니다.
- LoRA 기반 정렬 제거: 저순위 적응(Low-Rank Adaptation)을 사용하여 모델의 잔여 스트림에서 안전 거부 방향을 빼거나 중화했을 수 있습니다.
- 프롬프트 접두사 재조정: 공식 명령어 템플릿에 존재하는 "도움이 되고 무해한" 조건화를 제거하기 위해 시스템 프롬프트와 채팅 템플릿이 수정되었을 수 있습니다.
그 결과 안전 분류에 기반한 요청을 더 이상 거부하지 않으면서도 젬마 4의 강력한 추론, 코딩 및 창의적 능력을 유지하는 31B 모델이 탄생했습니다.
3.3 왜 "헤레틱"인가? 커뮤니티 명명 규칙
오픈소스 LLM 커뮤니티에서 "헤레틱"은 가드레일이 제거된 모델을 설명하기 위해 "abliterated", "uncensored", "unhinged"와 같은 용어와 함께 등장했습니다. 이 용어는 반항적인 의미를 내포하며, 모델이 원래 개발자가 부과한 윤리적 제약 없이 작동할 것임을 사용자에게 알립니다. 이는 공식 명칭이 아닙니다 — 순전히 커뮤니티 주도 명명법입니다.
4. 배포 형식: Safetensors, GGUF, NVFP4, 그리고 GPTQ-Int4
llmfan46 출시의 가장 사용자 친화적인 측면 중 하나는 형식의 다양성입니다. 각 형식은 고유한 배포 생태계를 제공합니다. 각 형식에 대해 알아야 할 사항은 다음과 같습니다:
4.1 Safetensors (표준)
Safetensors는 모델 가중치를 배포하기 위한 안전하고 빠르며 점점 더 표준이 되는 형식입니다. 피클 기반 형식과 달리 Safetensors는 임의 코드 실행에 면역이 있어 안전한 선택입니다. 이 파일들은 전체 정밀도(또는 QAT 준비된) 가중치를 포함하며 다음에 이상적입니다:
- HuggingFace
transformers또는accelerate에 로드 - 미세 조정 또는 추가 훈련
- 다른 형식으로 변환
저장소: llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (Safetensors)
4.2 GGUF (llama.cpp / CPU 추론)
GGUF(GPT-Generated Unified Format)는 GGML의 후속 버전이며 llama.cpp, Ollama, LM Studio 및 기타 CPU 우선 또는 하이브리드 추론 엔진을 위한 표준 형식입니다. 이번 출시의 GGUF 파일은 q4_0으로 사전 양자화되어 있어 변환 단계 없이 즉시 다운로드하여 실행할 수 있습니다.
저장소: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF
- 최적 용도: Apple Silicon (M1/M2/M3/M4), AMD Ryzen, Intel CPU 추론 및 개인정보 보호 중심 로컬 배포
- 일반적인 성능: 32 GB RAM이 장착된 M2 Max에서 초당 8–15 토큰
4.3 NVFP4 (NVIDIA Blackwell 4비트 부동 소수점)
NVFP4는 NVIDIA의 Blackwell 아키텍처(B200, B100 GPU)를 위해 설계된 최첨단 4비트 부동 소수점 형식입니다. 정수 양자화(INT4)와 달리 NVFP4는 특히 이상치 활성화에 대해 동적 범위를 더 효과적으로 보존하는 부동 소수점 표현을 사용합니다. NVFP4 Safetensors 변종은 이 형식으로 가중치를 저장하며, NVFP4 GGUF 변종은 이 형식을 llama.cpp 생태계로 연결합니다.
- NVFP4 Safetensors: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
- NVFP4 GGUF: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF
4.4 GPTQ-Int4
GPTQ-Int4는 근사 2차 정보(헤시안 기반)를 사용하여 양자화 오류를 최소화하는 훈련 후 양자화 방법입니다. GPTQ-Int4 변종은 AutoGPTQ 및 vLLM 추론 백엔드에 최적화되어 있으며, CUDA GPU에서 최소한의 펄플렉서티 저하로 뛰어난 처리량을 제공합니다.
저장소: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 (GPTQ-Int4)
- 최적 용도: vLLM 또는 TGI를 사용한 고처리량 GPU 서빙
- GPU 요구 사항: 16+ GB VRAM을 갖춘 CUDA 지원 GPU 권장
5. 전체 HuggingFace 저장소 링크
모든 저장소는 HuggingFace의 llmfan46에 의해 유지 관리됩니다. 아래는 젬마 4 31B QAT 무검열 헤레틱에 대한 다섯 가지 배포 형식 전체의 완전하고 검증된 목록입니다:
🔗 공식 저장소 — 젬마 4 31B 무검열 헤레틱
- Safetensors (비양자화 QAT):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic - GGUF (q4_0 양자화):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF - NVFP4 Safetensors:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4 - NVFP4 GGUF:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF - GPTQ-Int4:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4
참고: 12B, 12B QAT 및 26B-A4B QAT 변종도 유사한 명명 규칙에 따라 llmfan46의 HuggingFace 프로필에서 사용할 수 있습니다. 전체 카탈로그는 프로필을 확인하십시오.
6. 나란히 비교: 네 가지 젬마 4 변종 모두
| 기능 | 12B 기본 QAT | 12B QAT 미세 조정 | 26B-A4B QAT | 31B QAT 무검열 |
|---|---|---|---|---|
| 아키텍처 | 밀집 | 밀집 | MoE (총 26B / 4B 활성) | 밀집 |
| 총 파라미터 | 12B | 12B | 26B | 31B |
| 토큰당 활성 | 12B | 12B | ~4B | 31B |
| 양자화 | QAT + q4_0 준비 | 확장 QAT + q4_0 | QAT + q4_0 준비 | QAT + q4_0 준비 |
| 안전 정렬 | 전체 (젬마 표준) | 전체 (젬마 표준) | 전체 (젬마 표준) | 제거됨 (무검열) |
| 메모리 ~4비트 | ~7 GB | ~7 GB | ~15 GB (총) / ~3 GB 활성 | ~17 GB |
| 최적 용도 | 안전한 프로덕션 | 엣지 / 소비자 GPU | 저지연 서빙 | 연구, 창의적, 무제한 사용 |
7. 이 모델들을 배포하고 실행하는 방법
7.1 Transformers로 Safetensors 버전 로드하기
7.2 llama.cpp로 GGUF 버전 실행하기
7.3 고처리량 서빙을 위한 vLLM과 GPTQ-Int4
7.4 NVIDIA Blackwell 하드웨어에서의 NVFP4
Blackwell GPU(B200/B100)에 접근할 수 있는 사용자의 경우, NVFP4 형식은 네이티브 4비트 부동 소수점 텐서 코어 가속을 활용합니다. NVFP4 Safetensors 파일은 이 형식을 지원하는 커스텀 transformers 브랜치로 로드할 수 있으며, NVFP4 GGUF 파일은 NVFP4 커널이 활성화된 특별히 컴파일된 llama.cpp 빌드와 함께 작동합니다. 최신 로딩 지침은 해당 HuggingFace 저장소를 확인하십시오.
8. 위험, 윤리, 그리고 "무검열" 라벨
젬마 4 31B QAT 무검열 헤레틱은 모든 실무자가 배포 전에 고려해야 할 중요한 윤리적 질문을 제기합니다:
8.1 "무검열"이 실제로 의미하는 것
이번 출시의 맥락에서 "무검열"은 모델의 거부 메커니즘 — 잠재적으로 유해한 요청을 감지하고 거부 응답을 트리거하는 내부 분류기 — 이 무력화되거나 제거되었음을 의미합니다. 이 모델은 다음을 포함한 모든 프롬프트에 응하려고 시도할 것입니다:
- 폭력적, 혐오적 또는 괴롭힘 콘텐츠 생성
- 불법 활동에 대한 지침
- 멀웨어, 익스플로잇 또는 무기 관련 정보 생산
- 성적으로 노골적이거나 비동의적인 콘텐츠
- 허위 정보 및 역정보 캠페인
8.2 합법적인 사용 사례
위험에도 불구하고, 무검열 모델은 연구, 레드팀, 창의적 글쓰기 및 적대적 견고성 테스트에서 합법적인 응용 분야를 가지고 있습니다. 보안 연구자들은 탈옥 기술을 연구하고 더 나은 방어책을 개발하기 위해 사용합니다. 작가들은 표준 모델이 콘텐츠를 잘못 플래그할 수 있는 필터링되지 않은 창의적 탐색을 위해 사용합니다. 핵심은 적절한 보호 장치와 함께 책임감 있는 배포입니다.
8.3 완화 전략
- 입력 및 출력 필터링: 모델 주변에 콘텐츠 조정 계층(예: Llama Guard, Perspective API)을 배포하십시오.
- 접근 제어: 모델 접근을 인증되고 권한이 부여된 사용자로만 제한하십시오.
- 로깅 및 모니터링: 감사 목적으로 모든 프롬프트와 완료에 대한 포괄적인 로그를 유지하십시오.
- 샌드박스 배포: 인터넷 접근이나 시스템 수준 권한 없이 격리된 환경에서 모델을 실행하십시오.
9. 자주 묻는 질문
Q: 12B와 12B QAT 변종의 차이점은 무엇인가요?
12B QAT 변종은 기본 QAT 체크포인트를 넘어 확장된 양자화 인식 훈련을 거쳐 실제로 4비트로 양자화될 때 더 나은 펄플렉서티 유지를 제공합니다. 4비트 정밀도로 실행할 계획이라면 약간 더 나은 품질을 위해 12B QAT 변종을 선택하십시오.
Q: 단일 소비자 GPU에서 31B 무검열 헤레틱을 실행할 수 있나요?
4비트 GGUF 또는 GPTQ-Int4 형태로, 31B 모델은 약 17 GB의 VRAM이 필요합니다. 이는 RTX 4090(24 GB) 또는 RTX 3090(24 GB)에서 편안하게 맞습니다. Apple Silicon의 경우, 합리적인 성능을 위해 최소 32 GB의 통합 메모리가 장착된 Mac이 필요합니다.
Q: 모델 이름에서 "q4_0"은 무엇을 의미하나요?
q4_0은 GGUF/llama.cpp에서 사용되는 특정 4비트 양자화 체계입니다. 블록 크기가 32인 블록별 대칭 양자화를 사용하며, 이는 32개의 가중치마다 단일 스케일링 팩터를 공유한다는 의미입니다. 대부분의 사용 사례에서 압축률과 품질의 균형을 잘 맞춥니다.
Q: 26B-A4B 모델이 12B 밀집 모델보다 빠른가요?
단일 토큰 생성의 경우, 그렇습니다 — 26B-A4B MoE 모델은 토큰당 ~4B 파라미터만 활성화하여 12B 밀집 모델의 12B보다 적습니다. 그러나 모든 전문가를 로드해야 하므로 총 메모리 요구 사항은 더 높습니다(4비트에서 ~15 GB vs. ~7 GB). 처리량은 하드웨어의 메모리 대역폭에 따라 달라집니다.
Q: 이 모델들은 사용하기에 합법적인가요?
기본 젬마 4 모델은 Google의 젬마 라이선스 하에 출시되며, 특정 제한 사항과 함께 상업적 및 연구 사용을 허용합니다. 커뮤니티 수정 "무검열 헤레틱" 변종은 회색 지대에 존재합니다 — 이들은 파생 저작물입니다. 사용자는 특정 사용 사례에 대해 젬마 라이선스 조건과 법률 자문을 참고해야 합니다.
Q: NVFP4란 무엇이며 필요한가요?
NVFP4(NVIDIA 4비트 부동 소수점)는 Blackwell 아키텍처 GPU에 최적화된 새로운 형식입니다. B200 또는 B100 GPU가 없다면 대신 표준 GGUF 또는 GPTQ-Int4 형식을 사용해야 합니다. NVFP4는 INT4보다 더 나은 동적 범위를 제공하지만 특정 하드웨어 지원이 필요합니다.
Q: 모델 파일이 변조되지 않았는지 어떻게 확인하나요?
HuggingFace 저장소에는 SHA256 체크섬이 포함되어 있습니다. 다운로드 후 sha256sum <파일명>을 실행하여 저장소의 README 또는 모델 카드에 나열된 체크섬과 비교하십시오. GGUF 파일의 경우, llama.cpp도 로드 시 내부 체크섬을 검증합니다.
10. 결론: 어떤 젬마 4 변종이 당신에게 적합한가?
12B, 12B QAT, 26B-A4B QAT 및 31B QAT 무검열 헤레틱에 걸쳐 Safetensors, GGUF, NVFP4 및 GPTQ-Int4 전반에 걸친 젬마 4 쿼드러플 출시는 최근 기억에 남는 가장 포괄적인 커뮤니티 모델 드롭 중 하나를 나타냅니다. 올바른 변종을 선택하는 것은 전적으로 사용 사례에 달려 있습니다:
- 12B 기본 QAT 선택: 적당한 컴퓨팅 요구 사항으로 프로덕션 애플리케이션을 위한 안전하고 정렬된 모델이 필요한 경우.
- 12B QAT 미세 조정 선택: 엣지 장치 또는 소비자 GPU에 배포하고 가능한 최고의 4비트 품질을 원하는 경우.
- 26B-A4B QAT 선택: 더 큰 모델의 지식 폭과 함께 저지연 추론이 필요한 경우 — 챗봇 및 대화형 애플리케이션에 이상적.
- 31B QAT 무검열 헤레틱 선택: 연구원, 레드팀 구성원 또는 적절한 보호 장치를 구현한 무제한 모델이 필요한 창의적 전문가인 경우.
형식 선택:
- Safetensors: 최대 유연성과 추가 미세 조정을 위해
- GGUF: CPU 추론, Apple Silicon 및 로컬 개인정보 보호 중심 배포를 위해
- GPTQ-Int4: vLLM을 사용한 고처리량 GPU 서빙을 위해
- NVFP4: Blackwell 하드웨어를 보유하고 최첨단 4비트 부동 소수점 성능을 원하는 경우
이 모델들을 둘러싼 커뮤니티는 활동적이며 성장하고 있습니다. 빠르게 진화하는 모든 오픈소스 AI 출시와 마찬가지로, llmfan46 HuggingFace 프로필과 더 넓은 젬마 커뮤니티 포럼을 통해 최신 정보를 얻으십시오. QAT, MoE 아키텍처 및 접근 가능한 양자화 형식의 융합은 로컬에서 실행되는 대규모 언어 모델로 가능한 것의 경계를 넓히고 있으며, 젬마 4 쿼드러플 출시는 그 여정에서 획기적인 순간입니다.