Unsloth, Gemma 4 MTP 어시스턴트 양자화 모델 출시: 멀티 토큰 예측, QAT 프리미엄 시대로

📅 2026-06-10 Reddit - LocalLLaMA

Unsloth, Gemma 4 MTP 어시스턴트 양자화 모델 출시: 다중 토큰 예측, QAT 프리미엄 시대로 진입

구글의 최신 Gemma 4 대형 모델을 매우 낮은 지연 시간으로 로컬에서 실행하면서 추론 품질 저하를 전혀 허용하지 않으려는 지금이 바로 최적의 시기입니다. 오픈소스 커뮤니티의 최고 미세 조정 프레임워크인 Unsloth가 방금 Hugging Face에 Gemma 4 QAT MTP 어시스턴트 모델 시리즈를 출시했습니다. 모두 GGUF 형식으로 제공되며, 12B부터 E2B(약 212B)까지 다양한 규격을 아우르고, 특히 모바일 환경에 최적화된 32B 버전도 포함되어 있습니다. 이번 모델들은 q8_0 양자화를 기본으로 제공하면서 더 큰 용량의 양자화 옵션도 함께 제공하여, 엣지 추론의 또 다른 도약을 이루었습니다.

이번에 Gemma 4는 진정으로 다중 토큰 예측을 "이해"했습니다

이번 모델은 일반 Gemma 4가 아닌 'MTP'라는 접미사가 명확히 붙어 있습니다. MTP는 다중 토큰 예측으로, Gemma 4 시리즈는 네이티브로 단일 순전파에서 여러 미래 토큰을 동시에 예측하여 주요 모델 생성을 보조함으로써 자기회귀 디코딩의 반복 횟수를 대폭 줄입니다. 그러나 네이티브 MTP 어시스턴트 헤드는 세심하게 양자화되지 않으면 낮은 정밀도에서 협업 능력을 잃기 쉽습니다. 이번 Unsloth의 핵심은 단순한 사후 훈련 양자화가 아닌, QAT(양자화 인식 훈련) 기술을 사용하여 MTP 보조 디코더와 주요 모델을 함께 양자화 미세 조정했다는 점입니다. 그 결과 탄생한 mtp-gemma-4-*.gguf 파일은 q8_0 정밀도에서 다중 토큰 예측 가속 효과를 거의 손실 없이 유지하면서 모델 크기를 대폭 줄여 소비자용 GPU 및 CPU 추론에 매우 친화적입니다.

q8_0, 새로운 기준이 되다... 계층적 양자화 스위트

Hugging Face의 모델 레포지토리에 들어가면 매우 정교하게 구성된 디렉토리 구조를 발견하게 됩니다. 모델 루트 디렉토리에는 q8_0 버전의 핵심 GGUF 파일이 바로 배치되어 있고, 별도의 MTP 폴더에는 q8_0과 더 높은 비트레이트의 양자화 변형 파일들이 포함되어 있습니다. 이런 구조 덕분에 일반 사용자는 루트 모델을 바로 가져와 빠르게 시작할 수 있고, 더 높은 정밀도를 원하는 개발자들은 MTP 폴더에서 q5_k_m, q6_k, 심지어 f16 버전까지 선택할 수 있습니다. Unsloth는 다음 다섯 가지 Gemma 4 모델을 위해 완전한 QAT 파이프라인을 구축하고 모두 오픈소스로 공개했습니다.

gemma-4-12B-it-qat-GGUF —— 성능과 리소스 소비의 균형을 맞추는 팔방미인
gemma-4-26B-A4B-it-qat-GGUF —— 26B 파라미터, 4B 활성 전문가의 MoE 모델
gemma-4-31B-it-qat-GGUF —— 31B 덴스 모델, 범용 시나리오를 위한 신뢰할 수 있는 선택
gemma-4-E2B-it-qat-GGUF —— 초대형 E2B 아키텍처, 클라우드와 워크스테이션을 위한 최고 화력
gemma-4-E2B-it-qat-mobile-GGUF —— 모바일 추론에 최적화된 슈퍼 모델, 온디바이스 한계에 도전

QAT, MTP "길들이다"... 지능 저하 없는 추론 가속

기존 모델 양자화 방식에서 멀티헤드 어텐션이나 보조 예측 헤드 양자화는 종종 어텐션 점수 편향을 일으켜 다중 토큰 예측을 무용지물로 만들곤 했습니다. Unsloth는 이번에 Gemma 4의 MTP 모듈에 직접 양자화 인식 훈련을 적용하여, 양자화된 어시스턴트 모델과 주요 모델 사이에 긴밀한 정보 결합을 유지했습니다. 실제 테스트에서 q8_0 MTP 모델로 다중 토큰 예측을 사용하면 자기회귀 단계가 약 30% 감소하여 엔드투엔드 생성 속도가 즉시 향상되었으며, 펄플렉서티 같은 지표는 부동 소수점 버전과 거의 동일했습니다. 채팅, 코드 완성 등 긴 시퀀스 생성을 요구하는 시나리오에서 이는 무료 성능 업그레이드나 다름없습니다.

즉시 배포: Hugging Face에서 로컬까지 단 한 걸음

모든 QAT MTP 모델은 llama.cpp, Ollama, LM Studio 등 주요 GGUF 추론 엔진에 완벽하게 호환됩니다. 해당 GGUF 파일을 다운로드하고 다중 토큰 예측 매개변수를 구성하기만 하면 M 시리즈 Mac, RTX 40 시리즈 그래픽 카드, 심지어 라즈베리 파이 클러스터에서도 완전 가속화된 Gemma 4를 실행할 수 있습니다. 이번 Unsloth의 공개는 단순 모델 파일이 아니라 "양자화가 곧 가속"이라는 방법론 전체를 제시하며, 향후 MTP 기능을 갖춘 모든 대형 모델이 QAT 양자화를 통한 2차 진화를 맞이할 것임을 예고합니다.

지금 바로 다음 레포지토리를 방문하여 당신만의 MTP 가속 엔진을 만나보세요:

Gemma 4 12B QAT GGUF | Gemma 4 26B A4B QAT GGUF | Gemma 4 31B QAT GGUF | Gemma 4 E2B QAT GGUF | Gemma 4 E2B 모바일 최적화 버전