WebGPU 커널을 활용해 브라우저에서 255토큰/초로 실행되는 Gemma 4 E2B — Fable 5 최적화 유산 설명
Gemma 4 E2B, WebGPU 커널로 브라우저에서 255 tok/s 실행 — Fable 5 최적화 유산 해설
클라우드 기반 대규모 언어 모델과 완전히 로컬에서 작동하는 브라우저 네이티브 추론 사이의 장벽이 극적으로 낮아졌습니다. Google의 Gemma 4 E2B — Gemma 계열을 양자화하여 모바일에 최적화한 버전 — 가 이제 웹 브라우저 내에서만 Apple M4 Max 기준 초당 255토큰이라는 놀라운 속도로 실행됩니다. 이 이정표는 현재는 문을 닫은 스튜디오 Fable 5가 개발하고 정제한 커스텀 WebGPU 커널을 통해 달성되었으며, 이 최적화 작업은 오픈소스로 공개되어 커뮤니티에 제공됩니다. 오늘 누구나 Hugging Face 라이브 데모를 체험하고 이 혁신을 가능하게 한 커널을 직접 살펴볼 수 있습니다.
양자화 인식 훈련(QAT), 모바일 우선 트랜스포머 아키텍처, 그리고 WebGPU의 원시 병렬 연산 성능이 수렴하면서 새로운 지평이 열렸습니다: 기기를 벗어나지 않는 프로덕션급 LLM 추론입니다. 서버 왕복도, API 키도, 네트워크 혼잡으로 인한 지연 급증도 없이 — 오직 순수하고 로컬에서 전용 데스크톱 애플리케이션에 버금가는 속도로 토큰을 생성합니다. 그리고 이 이야기의 중심에는 Fable 5의 달콤쌉싸름한 유산이 자리하고 있습니다. GPU 커널 엔지니어링에 대한 그들의 전문성이 스튜디오가 문을 닫은 후에도 오랫동안 오픈소스 AI 생태계에 계속해서 혜택을 주고 있는 것입니다.
Gemma 4 E2B란 무엇이며 왜 중요한가?
Gemma 4 E2B는 Google의 Gemma 언어 모델 계열을 엣지 배포용으로 파인튜닝하고 압축한 특수 변종입니다. "E2B"라는 명칭은 온디바이스 추론에 최적화된 인코더-디코더 브리지 아키텍처를 의미하며, 모델의 전체 이름 — gemma-4-E2B-it-qat-mobile-transformers — 에 포함된 "QAT"는 양자화 인식 훈련(Quantization-Aware Training)을 뜻합니다. 이 기법은 훈련 단계에서 낮은 정밀도의 산술 연산을 시뮬레이션하여, 치명적인 정확도 손실 없이 8비트 또는 4비트 양자화를 우아하게 처리할 수 있는 모델을 만들어냅니다.
기존의 사후 훈련 양자화(PTQ)와 달리, QAT은 수치적 견고성을 모델의 가중치와 활성화 값에 직접 내장합니다. 그 결과, 브라우저 메모리 제약 내에서도 편안하게 작동하면서 강력한 지시 수행 능력을 유지하는 작고 유능한 LLM이 탄생합니다. 모바일에 최적화된 트랜스포머 블록과 결합된 Gemma 4 E2B는 브라우저 내 AI 추론을 위한 최상의 후보가 됩니다 — 불과 2년 전만 해도 실현 가능성이 희박했던 사용 사례입니다.
Gemma 4 E2B 모델의 주요 사양
- 아키텍처: 모바일 최적화 트랜스포머 레이어를 갖춘 인코더-디코더 브리지
- 양자화: QAT 지원, 4비트 및 8비트 정밀도 수준에서 견고함
- 대상 배포 환경: 엣지 디바이스, 모바일 브라우저, WebGPU 가속 환경
- Hugging Face 호스팅: google/gemma-4-E2B-it-qat-mobile-transformers
- 라이선스: 오픈 웨이트, 연구 및 상업적 프로토타이핑에 적합
속도 벤치마크: M4 Max에서 초당 255토큰
WebML 커뮤니티가 Apple M4 Max에서 Gemma 4 E2B 모델을 완전히 브라우저 내에서 실행하여 초당 255토큰을 달성했다고 보고했을 때, AI 엔지니어링 세계가 주목했습니다. 이 수치를 맥락에 맞게 이해해 보겠습니다:
- 인간의 읽기 속도는 깊은 이해를 기준으로 초당 약 5~7토큰입니다.
- 일반적인 클라우드 호스팅 LLM API는 이상적인 네트워크 조건에서 초당 20~60토큰을 제공합니다.
- 로컬 데스크톱 LLM 러너(GPU 오프로딩이 적용된 llama.cpp 등)는 소비자용 하드웨어에서 보통 40~100 tok/s가 최고 수준입니다.
- 255 tok/s는 모델이 약 500단어 분량의 에세이를 대략 2초 만에 생성할 수 있음을 의미합니다 — 대부분의 사용자가 스크롤하는 속도보다 빠릅니다.
이 속도는 사용자 경험을 완전히 바꿔놓습니다. 지연 시간은 인지할 수 없을 정도로 사라집니다. 실시간 애플리케이션 — 대화형 에이전트, 코드 자동 완성, 실시간 번역 — 이 즉각적으로 느껴집니다. 그리고 이 모든 것이 바이너리 하나 설치하지 않고 표준 웹 브라우저 탭 안에서 이루어집니다.
M4 Max가 WebGPU 워크로드에서 뛰어난 이유
Apple의 M4 Max는 통합 메모리 아키텍처, 하드웨어 가속 레이 트레이싱 및 메시 셰이딩 기능을 갖춘 고대역폭 GPU, 그리고 고급 Neural Engine을 탑재하고 있습니다. 결정적으로 M4 Max는 이러한 GPU 리소스를 WebGPU API를 통해 브라우저에 노출합니다. WebGPU는 WebGL을 대체하는 현대적인 그래픽 및 연산 인터페이스로, 더 낮은 오버헤드와 GPU 명령 버퍼에 대한 더 세밀한 제어를 제공합니다. Fable 5 커널은 이러한 기능을 최대한 활용하여 CPU-GPU 동기화 지연을 최소화하고 셰이더 점유율을 극대화합니다.
Fable 5: WebGPU 커널을 만든 스튜디오
Fable 5는 실시간 그래픽스, GPU 컴퓨팅, 크로스 플랫폼 최적화에 깊은 전문성을 갖춘 개발 스튜디오였습니다. 스튜디오가 문을 닫기 전, 팀은 대규모 언어 모델 추론에 특화된 WebGPU 커널을 제작하는 데 상당한 노력을 기울였습니다. 그들의 작업은 다음에 집중되었습니다:
- 퓨즈드 어텐션 커널 — 여러 어텐션 연산을 단일 GPU 디스패치로 결합하여 메모리 대역폭 사용량 감소.
- 커스텀 행렬 곱셈 셰이더 — 브라우저 환경에서 범용 선형대수 라이브러리를 능가하는 수작업 튜닝 WGSL(WebGPU 셰이딩 언어) 코드.
- 메모리 레이아웃 최적화 — Apple과 같은 타일 기반 GPU 아키텍처에서 병합된 메모리 접근 패턴을 위해 가중치 텐서 재배치.
- 비동기 파이프라인 스케줄링 — 데이터 전송과 연산을 중첩하여 GPU를 계속 공급하고 유휴 사이클 최소화.
Fable 5가 운영을 중단했을 때, 이 커널들은 사라질 위기에 처했습니다. 그러나 대신 WebML 커뮤니티가 나서서 코드베이스를 보존하고 개선했습니다. 이 커널들은 이제 Hugging Face Spaces에 공개되어 누구나 이용할 수 있으며, 브라우저 기반 AI를 위한 GPU 가속에 관심 있는 이들에게 실용적인 도구이자 교육 자료 역할을 하고 있습니다.
"Fable 5가 문을 닫기 전, 그들은 우리의 Gemma 4 WebGPU 커널 최적화를 도와주었고, 제 M4 Max에서 초당 약 255토큰에 도달했습니다. 오늘, 우리는 여러분이 직접 사용해볼 수 있도록 데모와 커널을 공개합니다."
— xenovatech, WebML 커뮤니티 기여자
WebGPU: 브라우저 내 AI 가속을 구동하는 엔진
WebGPU는 W3C 표준화된 WebGL의 후속 기술로, 연산 셰이더, 스토리지 버퍼, 명시적 명령 인코딩과 같은 현대적인 GPU 기능을 웹 애플리케이션에 노출하도록 처음부터 설계되었습니다. OpenGL ES의 유산에 제약을 받았던 WebGL과 달리, WebGPU는 Metal(Apple Silicon), Vulkan(Android 및 Linux), DirectX 12(Windows)와 같은 네이티브 API에 직접 매핑됩니다.
LLM 추론에서 WebGPU가 WebGL보다 뛰어난 이유
- 연산 셰이더 지원: WebGPU는 범용 GPU 컴퓨팅을 네이티브로 지원하여 행렬 곱셈과 어텐션 메커니즘을 셰이더 디스패치로 실행할 수 있습니다.
- 낮은 드라이버 오버헤드: 명시적 버퍼 관리와 명령 인코딩으로 GPU 작업 제출 시 CPU 측 비용이 감소합니다.
- 스토리지 버퍼 바인딩: 대규모 가중치 텐서를 스토리지 버퍼로 직접 바인딩할 수 있어 WebGL에서 필요했던 텍스처 기반 우회 방법을 피할 수 있습니다.
- 타임스탬프 쿼리: 개발자가 GPU 실행 시간을 정밀하게 측정하여 병목 커널을 대상으로 한 최적화가 가능합니다.
- 크로스 플랫폼 일관성: 단일 WGSL 셰이더 코드베이스가 플랫폼별 조정을 최소화하며 macOS, Windows, ChromeOS, Android에서 실행됩니다.
Fable 5 커널은 이러한 장점을 모두 활용합니다. WGSL로 직접 작성하고 중간 추상화 계층을 우회함으로써, 팀은 범용 추론 엔진이 브라우저 환경에서 맞추기 어려운 GPU 점유율 수준을 달성했습니다.
데모 작동 방식 — 기술 워크스루
Hugging Face Spaces에 호스팅된 Gemma 4 WebGPU 데모는 완전하고 자체 완결적인 추론 환경을 제공합니다. 페이지를 로드할 때 내부에서 일어나는 일은 다음과 같습니다:
- WebGPU 어댑터 초기화: 브라우저가 GPU 어댑터를 요청하며, 고성능 개별 GPU 또는 통합 GPU 경로를 선호합니다. M4 Max에서는 Metal 백엔드에 매핑됩니다.
- 모델 가중치 로딩: 양자화된 Gemma 4 E2B 가중치가 Hugging Face CDN에서 가져와져 GPU 스토리지 버퍼에 업로드됩니다. QAT 훈련된 가중치는 런타임 보정이 필요하지 않습니다.
- 커널 컴파일: Fable 5 커널의 WGSL 셰이더 소스가 GPU별 바이너리 코드로 컴파일됩니다. 이는 한 번만 발생하며, 컴파일된 파이프라인은 후속 추론을 위해 캐시됩니다.
- JavaScript 토큰화: 순수 JavaScript로 구현된 경량 SentencePiece 토크나이저가 서버 호출 없이 사용자 입력을 토큰 ID로 변환합니다.
- 자기회귀 생성 루프: 모델이 반복적으로 실행됩니다 — 각 정방향 패스가 하나의 토큰을 생성하고, 이것이 다음 단계의 입력으로 피드백됩니다. 퓨즈드 어텐션 및 행렬 곱셈 커널이 각 반복마다 실행됩니다.
- 스트리밍 출력: 토큰이 텍스트로 디코딩되어 점진적으로 표시되며, 익숙한 스트리밍 채팅 경험을 만들어냅니다 — 완전히 로컬에서, 완전히 브라우저 안에서.
🚀 라이브 데모 체험하기
브라우저 내 255 tok/s 추론을 직접 경험해보세요. 설치가 필요 없습니다 — WebGPU 호환 브라우저(Chrome 113+, Edge 113+ 또는 동급)만 있으면 됩니다.
🔗 Hugging Face의 Gemma 4 WebGPU 커널 데모
커널 소스 코드는 개발자들이 연구하고 적용할 수 있도록 Space 저장소에 포함되어 있습니다.
실용적 인사이트: 개발자가 Fable 5 커널에서 배울 수 있는 점
오픈소스로 공개된 WebGPU 커널은 단순한 데모 이상입니다 — 브라우저 기반 GPU 최적화의 교과서와 같습니다. 자체 브라우저 내 추론 솔루션을 구축하는 개발자를 위한 구체적인 교훈을 소개합니다:
1. 성능이 중요한 경로에 WGSL 도입하기
TensorFlow.js나 ONNX Runtime Web과 같은 고수준 프레임워크가 편의성을 제공하지만, 수작업으로 튜닝된 WGSL 셰이더는 트랜스포머 특화 연산에서 자동 생성된 커널을 지속적으로 능가합니다. Fable 5 커널은 WGSL로 직접 작성된 퓨즈드 어텐션이 범용 구현 대비 메모리 왕복을 30~50% 줄일 수 있음을 입증합니다.
2. FLOPs보다 메모리 대역폭을 우선시하기
Apple M 시리즈와 같은 통합 메모리 아키텍처에서는 원시 연산 성능이 병목이 되는 경우가 드뭅니다. 대신 메모리 대역폭과 캐시 활용도가 처리량을 좌우합니다. Fable 5 커널은 중간 결과를 GPU 스레드그룹 메모리에 유지하는 타일 연산 패턴을 사용하여 전역 디바이스 메모리에서의 읽기를 대폭 줄입니다.
3. 브라우저 배포에 QAT 모델 활용하기
양자화 인식 훈련은 낮은 정밀도에서도 수치적으로 안정적인 모델을 생성합니다. 메모리가 다른 탭 및 애플리케이션과 공유되는 브라우저에 배포할 때, Gemma 4 E2B와 같은 QAT 모델을 사용하면 사후 훈련 양자화 방식에서 흔히 발생하는 정확도 저하를 피할 수 있습니다.
4. WebGPU 타임스탬프 쿼리로 끊임없이 프로파일링하기
Fable 5 팀은 WebGPU에 내장된 타임스탬프 쿼리 기능을 사용하여 어떤 셰이더 디스패치가 가장 많은 GPU 사이클을 소비하는지 정확히 식별했습니다. 이러한 데이터 기반 접근 방식을 통해 추측이 아닌 실제 병목 지점에 최적화 노력을 집중할 수 있었습니다.
더 넓은 함의: 브라우저 내 AI가 주류로 진입하다
Gemma 4 E2B가 브라우저 내에서 255 tok/s로 실행되는 이번 공개는 패러다임의 전환을 알립니다. 수년간 진지한 AI 추론에는 클라우드 GPU나 전용 로컬 런타임이 필요하다는 이야기가 지배적이었습니다. 이 데모는 그 가정에 직접적으로 도전합니다. 그 파급 효과를 생각해 보세요:
- 개인정보 보호 AI: 민감한 데이터가 사용자 기기를 절대 떠나지 않습니다. 의료, 법률, 금융 애플리케이션에서 데이터 유출 위험 없이 강력한 LLM을 활용할 수 있습니다.
- 오프라인 우선 경험: 모델 가중치가 캐시되면 인터넷 연결 없이도 추론이 작동합니다 — 현장 작업, 여행, 광대역이 불안정한 지역에 이상적입니다.
- 무설치 배포: 사용자는 URL만으로 최첨단 AI에 접근합니다. 앱 스토어 승인도, 설치 마찰도, 버전 관리 문제도 없습니다.
- 접근의 민주화: WebGPU 지원이 브라우저와 기기 전반으로 확대됨에 따라, 더 많은 전 세계 사용자가 고사양 전용 하드웨어 없이 유능한 로컬 AI에 접근할 수 있게 됩니다.
한계점과 현재 과제
인상적인 성능에도 불구하고 여러 한계점이 남아 있습니다:
- 브라우저 호환성: WebGPU는 아직 보편적으로 지원되지 않습니다. Safari의 구현은 Chrome과 Edge에 뒤처져 있으며, Firefox 지원은 아직 개발 중입니다.
- 모델 크기 제약: Gemma 4 E2B는 엣지 배포에 최적화되어 있지만, 더 큰 모델(70B+ 파라미터)은 공격적인 양자화를 적용해도 여전히 실용적인 브라우저 메모리 한계를 초과합니다.
- 최초 로딩 지연: 첫 방문 시 수 기가바이트의 모델 가중치를 다운로드하는 데 느린 연결에서는 몇 분이 걸릴 수 있지만, 캐싱이 재방문 시 이를 완화합니다.
- 발열 제한: 노트북에서 255 tok/s 생성을 지속하면 발열 제한이 작동하여 장시간 세션에서 처리량이 감소할 수 있습니다.
- 커널 유지보수 부담: 수작업으로 튜닝된 WGSL 커널은 WebGPU 사양 변화와 새로운 GPU 아키텍처를 추적하기 위한 지속적인 유지보수가 필요합니다.
자주 묻는 질문 (FAQ)
Gemma 4 E2B는 정확히 무엇인가요?
Gemma 4 E2B는 Google이 Gemma 아키텍처를 기반으로 개발한 양자화된 모바일 최적화 대규모 언어 모델입니다. 낮은 정밀도에서도 정확도를 유지하기 위해 양자화 인식 훈련(QAT)을 사용하며, 온디바이스 및 브라우저 내 배포를 위해 특별히 설계되었습니다. Hugging Face에서의 전체 모델명은 gemma-4-E2B-it-qat-mobile-transformers입니다.
브라우저가 어떻게 초당 255토큰을 달성하나요?
이 속도는 여러 요소의 조합에서 비롯됩니다: Fable 5가 WGSL로 작성한 고도로 최적화된 WebGPU 커널, 통합 메모리 아키텍처를 갖춘 Apple의 강력한 M4 Max GPU, QAT 압축 모델 가중치의 효율성, 그리고 WebGPU API의 낮은 오버헤드 명령 인코딩입니다. 이 모든 것이 함께 브라우저 기반 추론을 일반적으로 느리게 만드는 병목 현상을 제거합니다.
Fable 5는 누구이며 그들의 커널이 왜 중요한가요?
Fable 5는 GPU 최적화와 실시간 그래픽스를 전문으로 하는 개발 스튜디오였습니다. 문을 닫기 전, 그들은 WebML 커뮤니티와 협력하여 LLM 추론을 위한 커스텀 WebGPU 커널을 제작했습니다. 이들의 작업은 알려진 브라우저 기반 트랜스포머 구현 중 가장 빠른 결과를 만들어냈습니다. 커널은 오픈소스로 공개되었고 현재 커뮤니티에 의해 유지보수되며, 최적화 전문 지식이 스튜디오의 폐쇄 이후에도 살아남을 수 있게 되었습니다.
M4 Max 이외의 하드웨어에서도 실행할 수 있나요?
네. 255 tok/s 벤치마크는 M4 Max에서 달성되었지만, 데모는 WebGPU 호환 브라우저가 있는 모든 기기에서 작동합니다. 성능은 GPU 성능과 메모리 대역폭에 따라 달라집니다. Windows와 Linux의 고급형 개별 GPU, 그리고 다른 Apple Silicon 칩(M1, M2, M3 시리즈)에서도 데모를 실행할 수 있지만, 토큰 속도는 다를 수 있습니다.
Gemma 4 E2B 모델은 프로덕션 용도에 적합한가요?
이 모델은 오픈 웨이트이며 연구 및 상업적 프로토타이핑에 사용할 수 있습니다. 그러나 프로덕션 배포 시에는 모델의 양자화 수준, 특정 작업 요구사항, 그리고 4비트 또는 8비트 정밀도에서의 정확도가 애플리케이션의 품질 기준을 충족하는지 고려해야 합니다. WebGPU 데모 자체는 주로 교육 및 실험 도구입니다.
내 프로젝트에 WebGPU 커널을 어떻게 시작할 수 있나요?
Hugging Face Space를 방문하여 소스 파일을 살펴보세요. WGSL 셰이더 코드는 주석이 잘 달려 있으며 다른 트랜스포머 모델에 적용할 수 있습니다. WebGPU 호환 브라우저와 GPU 컴퓨팅 개념에 대한 기본적인 이해가 있으면 자신의 사용 사례에 맞게 커널을 수정할 수 있습니다.
이 데모를 지원하는 브라우저는 무엇인가요?
2025년 기준으로 Google Chrome 113+, Microsoft Edge 113+, Opera가 강력한 WebGPU 지원을 제공합니다. Safari의 WebGPU 구현은 개선되고 있지만 성능이 뒤처질 수 있습니다. Firefox 지원은 활발히 개발 중입니다. 최상의 경험을 위해, 성능 좋은 GPU를 탑재한 기기에서 최신 Chrome 또는 Edge 릴리스를 사용하세요.
결론: 브라우저 네이티브 AI의 이정표
초당 255토큰을 달성한 Gemma 4 E2B WebGPU 데모의 공개는 단순한 인상적인 벤치마크 그 이상을 의미합니다. 이는 AI 커뮤니티의 많은 이들이 수년간 추구해온 비전을 구체화합니다: 사용자가 이미 머물고 있는 곳, 바로 브라우저에서 실행되는 유능하고 빠르며 완전히 로컬인 언어 모델입니다.
Fable 5 커널은 오픈소스 기여의 지속적인 가치를 보여주는 증거로 남아 있습니다. 스튜디오가 문을 닫았음에도 그들의 엔지니어링 전문 지식은 열정적인 커뮤니티에 의해 가속화되어 간단한 URL을 통해 접근 가능하게 살아 숨 쉬고 있습니다. 개발자에게 이 코드베이스는 WebGPU 최적화 기술에 대한 풍부한 학습 자료를 제공합니다. 사용자에게는 AI가 즉각적이고, 사적이며, 클라우드 의존성의 제약에서 자유로운 미래를 엿볼 수 있는 기회를 제공합니다.
데모를 사용해보고, 커널을 연구하고, 초당 255토큰의 추론이 브라우저 탭 하나 거리에 있을 때 무엇을 만들 수 있을지 상상해보세요. 브라우저 내 AI의 시대가 도래했습니다 — 그리고 그것은 빠릅니다.