속보! llama.cpp, Gemma 4 MTP 공식 병합… 로컬 LLM 추론 속도 하룻밤 만에 300% 폭증

📅 2026-06-08 🤖 大模型智能生成

속보! llama.cpp, Gemma 4 MTP 지원 공식 병합… 로컬 추론 속도 하룻밤 만에 300% 폭증

오늘 새벽, 오픈소스 커뮤니티에 엄청난 소식이 전해졌습니다. 개발자들에게 널리 사랑받는 C++ 추론 엔진 llama.cpp가 Gemma 4 멀티 토큰 예측(MTP) 네이티브 지원을 조용히 병합한 것입니다. 이 커밋은 Reddit 사용자 /u/pinkyellowneon이 가장 먼저 공개했으며, 로컬 AI 업계의 열기를 순식간에 불태웠습니다. 이는 구글이 아직 전면 공개하지 않은 차세대 경량 아키텍처 Gemma 4가 핵심 추론 기반과 호환되기 시작했음을 의미하며, 한때 ‘차세대 결심’으로 불리던 MTP 기술이 마침내 논문에서 빠져나와 평범한 사람들의 컴퓨터 속으로 들어왔음을 뜻합니다.

Gemma 4의 비밀 병기: 한 번에 여러 토큰을 예측하는 MTP란?

기존 자기회귀 대형 모델은 한 음절씩 말하는 화자처럼 매번 다음 토큰 하나만 예측합니다. Gemma 4에 깊숙이 통합된 MTP(Multi-Token Prediction)는 모델이 ‘한눈에 세 줄을 보는’ 능력을 갖추게 하여 여러 미래 토큰을 병렬로 예측할 수 있게 합니다. 추론 측면에서 이는 메모리 대역폭과 순차적 의존성의 족쇄를 직접적으로 깨뜨리며, 동일한 하드웨어에서 생성 처리량을 2~5배까지 향상시킵니다. llama.cpp가 이번에 병합한 패치는 바로 이 초월적인 디코딩 능력을 고도화된 양자화 및 연산자 최적화 체계 속에 담아낸 것입니다. 덕분에 MTP는 더 이상 클라우드 TPU에 의존하지 않고, 소비자용 GPU, Apple Silicon, 나아가 일반 CPU에서도 그 위력을 발휘할 수 있게 되었습니다.

llama.cpp의 최적화 마법: 엣지부터 하이엔드까지 전방위 가속

라즈베리 파이에서 대형 모델을 돌리는 것으로 유명한 기적의 도구, llama.cpp는 항상 성능 압축의 최전선에 서 있었습니다. MTP 지원이 병합된 후, 엔진은 반정밀도 및 4-bit 양자화 모드에서 Gemma 4의 멀티 헤드 예측 모듈을 직접 호출하고, 기존의 추측적 디코딩(Speculative Decoding)과 자연스럽게 결합할 수 있습니다. 커뮤니티에 유출된 초기 테스트 결과에 따르면, RTX 4090을 탑재한 데스크톱에서 Gemma 4의 70억 파라미터급 버전을 실행했을 때 생성 속도가 200 tokens/s에 육박했으며, CPU만 사용하는 얇은 노트북에서도 실시간 대화에 가까운 부드러운 체험을 얻을 수 있었습니다. 이 뒤에는 ARM NEON, AVX2 등 명령어 세트에 대한 llama.cpp의 수제 최적화와 MTP 병렬 분기 예측의 깊은 융합이 자리잡고 있습니다.

오픈소스 생태계 대격변: 개인 천억 파라미터 모델 시대가 앞당겨지다

소식이 전해지자마자 GitHub와 Reddit 댓글창은 “감격스럽다”, “드디어 기다렸다”는 반응으로 도배되었습니다. 개발자들은 대체로 llama.cpp가 Gemma 4 MTP에 열어준 이 문이 클로즈드 API 모델에 대한 또 한 번의 차원이 다른 공격이라고 평가합니다. 구글의 개방적인 약속 덕분에, 사용자들은 머지않아 완전한 오프라인, 프라이버시 유출 제로의 환경에서 GPT-4 수준의 추론 능력을 갖춘 모델을 실행할 수 있게 될 것입니다. 한 독립 개발자는 “이것 덕분에 MacBook 한 대로 연중무휴 고객 서비스 에이전트를 거의 비용 없이 돌릴 수 있게 됐다”고 논평했습니다. 엣지 컴퓨팅, 프라이버시 AI 어시스턴트, 오프라인 지식 베이스 등의 시나리오는 이번 병합 덕분에 진정한 성능 해방을 맞이할 것입니다.

체험 가이드와 미래 전망

개발자와 기어크들은 지금 바로 llama.cpp 최신 메인 브랜치를 컴파일할 수 있으며, 구글이 Gemma 4 가중치를 공식적으로 공개한 후에는 간단한 명령줄 한 줄로 인터랙션을 시작할 수 있습니다. 일반 사용자라면 LM Studio, Ollama 등 해당 엔진을 통합한 원클릭 실행 도구를 추후에 주목하기만 하면 됩니다. 이번 행보는 업계에 강력한 신호를 보냅니다. 멀티 토큰 예측은 더 이상 연구실의 비축 기술이 아니라 대형 모델의 표준 사양이 된다는 것입니다. MTP가 llama.cpp 생태계 안에서 확산됨에 따라, 로컬 추론의 전체 지연 시간은 인간의 뇌가 감지할 수 없는 100밀리초 이하의 영역으로 진입할 것이며, 모든 사람이 로컬에 상주하며 번개처럼 응답하는 슈퍼 두뇌를 갖게 될 것으로 전망됩니다.