12GB VRAM으로 120토큰/초, Gemma 4 QAT판이 대형 모델 추론을 소비자급 고속 차선으로 이끈다

📅 2026-06-07 🤖 大模型智能生成

12GB VRAM으로 120 tok/s 돌린다, Gemma 4 QAT 버전이 대형 모델 추론을 소비자급 고속 차선으로 끌어올리다

눈 뜨고 보니, 12GB 그래픽카드가 갑자기 대형 모델 머신으로

불과 몇 시간 전, 구글이 Gemma 4 시리즈의 양자화 인식 학습(QAT) 변종을 조용히 공개했으며, 그중 12B 파라미터 버전이 작은 VRAM 사용자들의 열정에 불을 붙였다. 한 개발자가 자신의 12GB VRAM GPU에서 곧바로 실측에 들어갔고, 그 결과는 충격적이었다. 모델을 VRAM에 완전히 탑재한 후 추론 속도가 초당 120토큰까지 치솟은 것이다. 이는 클라우드 클러스터의 수치가 아니라, 진짜 단일 소비자용 그래픽카드 위에서 실현된 성능이다.

QAT + MTP, 이중 마법이 대역폭을 한 방울까지 쥐어짜는 법

이번 뉴스가 담은 기술 조합은 정교함 그 자체다. QAT, 즉 양자화 인식 학습은 기존의 사후 양자화와 달리, 학습 단계에서 저정밀도 표현을 계산 그래프에 도입하여 모델이 int8, int4 등 낮은 비트 환경에서도 높은 품질의 출력을 유지하도록 학습시킨다. 여기에 MTP(Multi-Token Prediction)는 한 번의 순전파로 여러 토큰을 예측하여 처리량을 크게 높인다. 개발자는 llama.cpp를 기반으로 Gemma 4 전용 MTP 패치를 적용한 추론 스택을 사용했고, Unsloth가 공개한 gemma-4-12B-it-qat-GGUF 양자화 메인 모델과 더불어, 구글이 보조 생성용으로 특별히 제공한 qat-q4_0 비양자화 헬퍼 모델을 함께 로드했으며, 이 헬퍼 모델 역시 GGUF 형식으로 변환되어 HuggingFace에 업로드됐다. 이러한 메인 모델과 작은 헬퍼 초안 모델의 조합은 투기적 디코딩(Speculative Decoding)과 유사한 아이디어로, 생성 효율을 한 단계 더 높여준다.

120 tok/s가 의미하는 것: '쓸 만한' 수준에서 '매끄러운' 수준으로의 질적 도약

초당 120토큰의 속도는 인간의 읽기 속도를 몇 배나 뛰어넘으며, 실시간 대화, 코드 자동 완성, 로컬 지식 베이스 질의응답 같은 시나리오에서 거의 기다림이 없는 경험을 제공한다. 예전에는 12GB VRAM에 10B 이상의 제대로 된 모델을 욱여넣으려면 보통 10~20 tok/s 혹은 그 이하의 타협 속도를 받아들여야 했고, VRAM 경계를 벗어나는 일도 잦았다. 이제 Gemma 4 QAT 버전은 QAT의 압축 효율과 MTP의 처리량 최적화 덕분에 RTX 4070, 3080, 혹은 A2000 급 그래픽카드 한 장을 곧바로 개인용 추론 서버로 바꿔놓는다. 이는 클라우드 API 지연 시간을 멀찍이 따돌릴 뿐 아니라 데이터 프라이버시까지 지켜주므로, 기업의 경량 배포와 얼리어답터의 개인 환경 모두에게 큰 호재다.

오픈소스 생태계가 빠르게 추격, HuggingFace에서 바로 돌리고 즐길 수 있다

주목할 점은, 이 전체 파이프라인이 llama.cpp, GGUF 형식, Unsloth의 양자화 스크립트, 그리고 커뮤니티가 빠르게 변환해 업로드한 모델 파일 같은 오픈소스 구성 요소만으로 이루어졌다는 사실이다. 이러한 개방성은 진입 장벽이 극히 낮다는 의미이며, 12GB VRAM을 가진 개발자라면 누구든 30분 안에 이 속도 곡선을 재현할 수 있다. 구글이 Gemma 4에 QAT와 MTP를 동시에 적용한 것은, 오픈소스 커뮤니티의 작은 크기·고속 모델에 대한 절실한 수요를 읽고, 가장 진보된 추론 가속 기술을 소비자 기기로 직접 배달하겠다는 행동으로 보인다.

이것이 다음 로컬 추론 열풍에 불을 붙일까

120 tok/s라는 성적표는 단독 벤치마크 점수에 그치지 않고, '로컬 대형 모델'에 대한 기대치 자체를 재정의할 가능성이 있다. 12B 모델이 중급 그래픽카드에서 이 정도 속도를 내고, QAT를 통해 훌륭한 생성 품질까지 유지한다면, 반드시 초대형 VRAM이나 클라우드에서 답을 찾아야 한다는 고정관념은 깨지게 된다. 특화 애플리케이션 개발자 입장에서는, Gemma 4 QAT 버전을 IDE 플러그인, 터미널 어시스턴트, 오프라인 번역기 같은 제품에 내장하여 진정한 경량화·개인화를 실현할 수 있다는 의미다. 앞으로 더 다양한 양자화 형식과 MTP 최적화가 성숙해지면, 8GB 또는 그보다 작은 VRAM 기기에서의 퍼포먼스도 기대할 만하다. 이는 단순한 모델 공개가 아니라, 높은 처리량의 지능을 대중화 궤도로 밀어 넣는 결정적인 한 걸음이다.