Gemma 4 E2B ejecutándose en el navegador a 255 tok/s usando núcleos WebGPU — El legado de optimización de Fable 5 explicado
Gemma 4 E2B ejecutándose en el navegador a 255 tok/s usando kernels WebGPU — El legado de optimización de Fable 5 explicado
La barrera entre los modelos de lenguaje alojados en la nube y la inferencia completamente local y nativa del navegador acaba de reducirse drásticamente. El modelo Gemma 4 E2B de Google — una iteración cuantizada y optimizada para dispositivos móviles de la familia Gemma — ahora se ejecuta completamente dentro de un navegador web a una asombrosa velocidad de 255 tokens por segundo en un Apple M4 Max. Este hito se logró utilizando kernels WebGPU personalizados, originalmente desarrollados y refinados por Fable 5, un estudio ya cerrado cuyo trabajo de optimización ha sido liberado como código abierto para la comunidad. Hoy, cualquiera puede probar la demo en vivo en Hugging Face e inspeccionar los kernels que hacen posible este avance.
La convergencia del entrenamiento consciente de cuantización (QAT), las arquitecturas de transformadores orientadas a dispositivos móviles y la potencia de cómputo paralelo bruto de WebGPU ha desbloqueado una nueva frontera: inferencia LLM de grado de producción que nunca abandona tu dispositivo. Sin viajes de ida y vuelta al servidor, sin claves API, sin picos de latencia por congestión de red — solo generación de tokens pura y local a velocidades que rivalizan con aplicaciones de escritorio dedicadas. Y en el corazón de esta historia se encuentra el legado agridulce de Fable 5, un equipo cuya experiencia en ingeniería de kernels de GPU continúa beneficiando al ecosistema de IA de código abierto mucho después de su cierre.
¿Qué es Gemma 4 E2B y por qué es importante?
Gemma 4 E2B es una variante especializada de la familia de modelos de lenguaje Gemma de Google, ajustada y comprimida para su despliegue en el borde. La designación "E2B" se refiere a una arquitectura de puente codificador-decodificador optimizada para la inferencia en el dispositivo, mientras que "QAT" en el nombre completo del modelo — gemma-4-E2B-it-qat-mobile-transformers — significa Entrenamiento Consciente de Cuantización. Esta técnica simula aritmética de menor precisión durante la fase de entrenamiento, produciendo un modelo que maneja con elegancia la cuantización de 8 bits o incluso 4 bits sin una pérdida catastrófica de precisión.
A diferencia de la cuantización post-entrenamiento (PTQ) tradicional, QAT incorpora robustez numérica directamente en los pesos y activaciones del modelo. El resultado es un LLM compacto pero capaz que se ajusta cómodamente dentro de las restricciones de memoria del navegador, manteniendo un sólido comportamiento de seguimiento de instrucciones. Combinado con bloques transformadores optimizados para dispositivos móviles, Gemma 4 E2B se convierte en un candidato ideal para la inferencia de IA en el navegador — un caso de uso que era prácticamente inviable hace apenas dos años.
Especificaciones clave del modelo Gemma 4 E2B
- Arquitectura: Puente codificador-decodificador con capas transformadoras optimizadas para dispositivos móviles
- Cuantización: Habilitado con QAT, robusto en niveles de precisión de 4 y 8 bits
- Despliegue objetivo: Dispositivos de borde, navegadores móviles y entornos acelerados por WebGPU
- Alojado en Hugging Face: google/gemma-4-E2B-it-qat-mobile-transformers
- Licencia: Pesos abiertos, adecuado para investigación y prototipado comercial
El benchmark de velocidad: 255 tokens por segundo en M4 Max
Cuando la comunidad WebML reportó 255 tokens por segundo en un Apple M4 Max ejecutando el modelo Gemma 4 E2B completamente en el navegador, el mundo de la ingeniería de IA tomó nota. Para contextualizar esta cifra:
- La velocidad de lectura humana promedia aproximadamente 5–7 tokens por segundo para una comprensión profunda.
- Las típicas API de LLM alojadas en la nube entregan 20–60 tokens por segundo en condiciones de red ideales.
- Los ejecutores locales de LLM de escritorio (como llama.cpp con descarga a GPU) a menudo alcanzan un pico de 40–100 tok/s en hardware de consumo.
- 255 tok/s significa que el modelo puede generar un ensayo completo de 500 palabras en aproximadamente dos segundos — más rápido de lo que la mayoría de los usuarios pueden desplazarse.
Esta velocidad transforma la experiencia del usuario. La latencia se vuelve imperceptible. Las aplicaciones en tiempo real — agentes conversacionales, autocompletado de código, traducción en vivo — se sienten instantáneas. Y todo esto ocurre dentro de una pestaña estándar del navegador web, sin instalar un solo binario.
Por qué el M4 Max sobresale en cargas de trabajo WebGPU
El M4 Max de Apple cuenta con una arquitectura de memoria unificada, una GPU de alto ancho de banda con trazado de rayos acelerado por hardware y capacidades de sombreado de malla, y un avanzado Neural Engine. Crucialmente, el M4 Max expone estos recursos de GPU al navegador a través de la API WebGPU, una interfaz moderna de gráficos y cómputo que reemplaza a WebGL con menor sobrecarga y un control más detallado sobre los búferes de comandos de la GPU. Los kernels de Fable 5 aprovechan al máximo estas capacidades, minimizando las pausas de sincronización CPU-GPU y maximizando la ocupación de los sombreadores.
Fable 5: El estudio detrás de los kernels WebGPU
Fable 5 era un estudio de desarrollo con profunda experiencia en gráficos en tiempo real, cómputo en GPU y optimización multiplataforma. Antes de su cierre, el equipo dedicó un esfuerzo significativo a la creación de kernels WebGPU diseñados específicamente para la inferencia de modelos de lenguaje de gran tamaño. Su trabajo se centró en:
- Kernels de atención fusionada — Combinar múltiples operaciones de atención en despachos únicos de GPU para reducir el uso de ancho de banda de memoria.
- Sombreadores personalizados de multiplicación de matrices — Código WGSL (Lenguaje de Sombreado WebGPU) ajustado manualmente que supera a las bibliotecas genéricas de álgebra lineal en el contexto del navegador.
- Optimizaciones de diseño de memoria — Reorganizar los tensores de pesos para patrones de acceso a memoria coalescentes en arquitecturas de GPU basadas en teselas como las de Apple.
- Planificación asíncrona de tuberías — Superponer transferencias de datos con cómputo para mantener la GPU alimentada y minimizar los ciclos inactivos.
Cuando Fable 5 cesó sus operaciones, estos kernels podrían haber desaparecido. En cambio, la comunidad WebML intervino, preservando y refinando el código base. Los kernels ahora están disponibles públicamente en Hugging Face Spaces, sirviendo tanto como una herramienta práctica como un recurso educativo para cualquier persona interesada en la aceleración de IA basada en GPU en el navegador.
"Antes de que Fable 5 cerrara, nos ayudó a optimizar nuestros kernels WebGPU de Gemma 4, alcanzando alrededor de 255 tokens por segundo en mi M4 Max. Hoy, estamos publicando la demo y los kernels para que los pruebes tú mismo."
— xenovatech, Colaborador de la Comunidad WebML
WebGPU: El motor que impulsa la aceleración de IA en el navegador
WebGPU es el sucesor de WebGL estandarizado por el W3C, diseñado desde cero para exponer las características modernas de las GPU — sombreadores de cómputo, búferes de almacenamiento y codificación explícita de comandos — a las aplicaciones web. A diferencia de WebGL, que estaba limitado por su herencia de OpenGL ES, WebGPU se asigna directamente a APIs nativas como Metal (en Apple silicon), Vulkan (en Android y Linux) y DirectX 12 (en Windows).
Por qué WebGPU supera a WebGL para la inferencia de LLM
- Soporte de sombreadores de cómputo: WebGPU admite de forma nativa el cómputo de propósito general en GPU, permitiendo que las multiplicaciones de matrices y los mecanismos de atención se ejecuten como despachos de sombreadores.
- Menor sobrecarga del controlador: La gestión explícita de búferes y la codificación de comandos reducen el costo del lado de la CPU al enviar trabajo a la GPU.
- Vinculaciones de búferes de almacenamiento: Los tensores de pesos de gran tamaño pueden vincularse directamente como búferes de almacenamiento, evitando las soluciones basadas en texturas requeridas por WebGL.
- Consultas de marca de tiempo: Los desarrolladores pueden medir con precisión el tiempo de ejecución de la GPU, permitiendo la optimización dirigida de los kernels que constituyen cuellos de botella.
- Consistencia multiplataforma: Una única base de código de sombreadores WGSL se ejecuta en macOS, Windows, ChromeOS y Android con ajustes mínimos específicos de la plataforma.
Los kernels de Fable 5 aprovechan cada una de estas ventajas. Al escribir directamente en WGSL y evitar capas de abstracción intermedias, el equipo logró niveles de ocupación de GPU que los motores de inferencia genéricos luchan por igualar en el contexto del navegador.
Cómo funciona la demo — Un recorrido técnico
La demo WebGPU de Gemma 4 alojada en Hugging Face Spaces proporciona un entorno de inferencia completo y autónomo. Esto es lo que sucede bajo el capó cuando cargas la página:
- Inicialización del adaptador WebGPU: El navegador solicita un adaptador de GPU, prefiriendo rutas de GPU discretas o integradas de alto rendimiento. En el M4 Max, esto se asigna al backend de Metal.
- Carga de pesos del modelo: Los pesos cuantizados de Gemma 4 E2B se obtienen desde la CDN de Hugging Face y se cargan en los búferes de almacenamiento de la GPU. Los pesos entrenados con QAT no requieren calibración en tiempo de ejecución.
- Compilación de kernels: El código fuente de sombreadores WGSL de los kernels de Fable 5 se compila en código binario específico de la GPU. Esto ocurre una sola vez, y la tubería compilada se almacena en caché para las inferencias posteriores.
- Tokenización en JavaScript: Un tokenizador SentencePiece ligero, implementado en JavaScript puro, convierte la entrada del usuario en IDs de token sin llamadas al servidor.
- Bucle de generación autorregresiva: El modelo se ejecuta de forma iterativa — cada paso hacia adelante produce un token, que se retroalimenta como entrada para el siguiente paso. Los kernels de atención fusionada y multiplicación de matrices se ejecutan en cada iteración.
- Salida en streaming: Los tokens se decodifican a texto y se muestran incrementalmente, creando la conocida experiencia de chat en streaming — completamente local, completamente en el navegador.
🚀 Prueba la demo en vivo
Experimenta la inferencia a 255 tok/s en el navegador de primera mano. No requiere instalación — solo un navegador compatible con WebGPU (Chrome 113+, Edge 113+ o equivalente).
🔗 Demo de Kernels WebGPU de Gemma 4 en Hugging Face
El código fuente de los kernels está incluido en el repositorio del Space para que los desarrolladores lo estudien y adapten.
Perspectivas prácticas: Lo que los desarrolladores pueden aprender de los kernels de Fable 5
Los kernels WebGPU de código abierto son más que una demo — son una clase magistral en optimización de GPU basada en navegador. Aquí hay conclusiones concretas para los desarrolladores que construyen sus propias soluciones de inferencia en el navegador:
1. Adopta WGSL para rutas críticas de rendimiento
Si bien los frameworks de alto nivel como TensorFlow.js y ONNX Runtime Web ofrecen conveniencia, los sombreadores WGSL ajustados manualmente superan consistentemente a los kernels autogenerados para operaciones específicas de transformadores. Los kernels de Fable 5 demuestran que la atención fusionada escrita directamente en WGSL puede reducir los viajes de ida y vuelta a memoria en un 30–50% en comparación con las implementaciones genéricas.
2. Prioriza el ancho de banda de memoria sobre los FLOPs
En arquitecturas de memoria unificada como la serie M de Apple, el cuello de botella rara vez es el cómputo bruto. En cambio, el ancho de banda de memoria y la utilización de la caché dictan el rendimiento. Los kernels de Fable 5 utilizan patrones de cómputo en teselas que mantienen los resultados intermedios en la memoria de grupo de hilos de la GPU, reduciendo drásticamente las lecturas desde la memoria global del dispositivo.
3. Aprovecha los modelos QAT para el despliegue en navegadores
El entrenamiento consciente de cuantización produce modelos que son numéricamente estables a baja precisión. Al desplegar en navegadores — donde la memoria se comparte con otras pestañas y aplicaciones — usar un modelo QAT como Gemma 4 E2B evita la degradación de precisión que a menudo se observa con los métodos de cuantización post-entrenamiento.
4. Perfila sin descanso con las consultas de marca de tiempo de WebGPU
El equipo de Fable 5 utilizó la función integrada de consulta de marca de tiempo de WebGPU para identificar con precisión qué despachos de sombreadores consumían la mayor cantidad de ciclos de GPU. Este enfoque basado en datos les permitió centrar el esfuerzo de optimización en los verdaderos cuellos de botella en lugar de adivinar.
Las implicaciones más amplias: La IA en el navegador se vuelve algo habitual
La publicación de Gemma 4 E2B ejecutándose a 255 tok/s en el navegador señala un cambio de paradigma. Durante años, la narrativa sostenía que la inferencia de IA seria requería GPUs en la nube o entornos de ejecución locales dedicados. Esta demo desafía esa suposición directamente. Considera los efectos derivados:
- IA que preserva la privacidad: Los datos sensibles nunca abandonan el dispositivo del usuario. Las aplicaciones médicas, legales y financieras pueden aprovechar LLMs potentes sin riesgos de exfiltración de datos.
- Experiencias sin conexión: Una vez que los pesos del modelo se almacenan en caché, la inferencia funciona sin conectividad a internet — ideal para trabajo de campo, viajes y regiones con banda ancha poco fiable.
- Despliegue sin instalación: Los usuarios acceden a IA de vanguardia a través de una URL. Sin aprobaciones de tiendas de aplicaciones, sin fricción de instalación, sin dolores de cabeza de gestión de versiones.
- Acceso democratizado: A medida que el soporte de WebGPU se expande en navegadores y dispositivos, más usuarios a nivel global obtienen acceso a IA local capaz sin hardware dedicado de alta gama.
Limitaciones y desafíos actuales
A pesar del impresionante rendimiento, persisten varias limitaciones:
- Compatibilidad con navegadores: WebGPU aún no tiene soporte universal. La implementación de Safari va por detrás de Chrome y Edge, y el soporte de Firefox aún está en desarrollo.
- Restricciones de tamaño del modelo: Si bien Gemma 4 E2B está optimizado para el despliegue en el borde, los modelos más grandes (70B+ parámetros) aún exceden los límites prácticos de memoria del navegador, incluso con una cuantización agresiva.
- Latencia de primera carga: Descargar varios gigabytes de pesos del modelo en la primera visita puede tomar minutos en conexiones lentas, aunque el almacenamiento en caché mitiga esto para visitas posteriores.
- Estrangulamiento térmico: La generación sostenida a 255 tok/s en portátiles puede desencadenar estrangulamiento térmico, reduciendo el rendimiento en sesiones prolongadas.
- Carga de mantenimiento de kernels: Los sombreadores WGSL ajustados manualmente requieren mantenimiento continuo para seguir la evolución de la especificación WebGPU y las nuevas arquitecturas de GPU.
Preguntas frecuentes (FAQ)
¿Qué es exactamente Gemma 4 E2B?
Gemma 4 E2B es un modelo de lenguaje de gran tamaño cuantizado y optimizado para dispositivos móviles de Google, basado en la arquitectura Gemma. Utiliza Entrenamiento Consciente de Cuantización (QAT) para mantener la precisión a baja precisión y está específicamente diseñado para despliegue en el dispositivo y en el navegador. El nombre completo del modelo en Hugging Face es gemma-4-E2B-it-qat-mobile-transformers.
¿Cómo logra el navegador 255 tokens por segundo?
La velocidad proviene de una combinación de factores: kernels WebGPU altamente optimizados escritos en WGSL por Fable 5, la potente GPU M4 Max de Apple con su arquitectura de memoria unificada, la eficiencia de los pesos del modelo comprimidos con QAT y la codificación de comandos de baja sobrecarga de la API WebGPU. Juntos, estos eliminan los cuellos de botella que típicamente ralentizan la inferencia basada en navegador.
¿Quién era Fable 5 y por qué son importantes sus kernels?
Fable 5 era un estudio de desarrollo especializado en optimización de GPU y gráficos en tiempo real. Antes de cerrar, colaboraron con la comunidad WebML para crear kernels WebGPU personalizados para la inferencia de LLM. Su trabajo produjo la implementación de transformadores basada en navegador más rápida conocida. Los kernels fueron liberados como código abierto y ahora son mantenidos por la comunidad, asegurando que la experiencia en optimización sobreviva al cierre del estudio.
¿Puedo ejecutar esto en hardware distinto al M4 Max?
Sí. Si bien el benchmark de 255 tok/s se logró en un M4 Max, la demo funciona en cualquier dispositivo con un navegador compatible con WebGPU. El rendimiento variará según la capacidad de la GPU y el ancho de banda de memoria. Las GPUs discretas de alta gama en Windows y Linux, así como otros chips Apple Silicon (series M1, M2, M3), también pueden ejecutar la demo, aunque las tasas de tokens serán diferentes.
¿Es el modelo Gemma 4 E2B adecuado para uso en producción?
El modelo es de pesos abiertos y puede usarse para investigación y prototipado comercial. Sin embargo, el despliegue en producción debe considerar el nivel de cuantización del modelo, los requisitos específicos de la tarea y si la precisión a 4 bits u 8 bits cumple con el estándar de calidad de tu aplicación. La demo WebGPU en sí es principalmente una herramienta educativa y experimental.
¿Cómo empiezo a usar los kernels WebGPU para mi propio proyecto?
Visita el Space de Hugging Face y explora los archivos fuente. El código de sombreadores WGSL está bien comentado y puede adaptarse para otros modelos transformadores. Necesitarás un navegador compatible con WebGPU y una comprensión básica de los conceptos de cómputo en GPU para modificar los kernels para tu propio caso de uso.
¿Qué navegadores admiten WebGPU para esta demo?
A partir de 2025, Google Chrome 113+, Microsoft Edge 113+ y Opera proporcionan un sólido soporte WebGPU. La implementación de WebGPU en Safari está mejorando, pero puede quedarse atrás en rendimiento. El soporte de Firefox está en desarrollo activo. Para la mejor experiencia, usa la última versión de Chrome o Edge en un dispositivo con una GPU capaz.
Conclusión: Un hito para la IA nativa del navegador
La publicación de la demo WebGPU de Gemma 4 E2B alcanzando 255 tokens por segundo representa mucho más que un benchmark impresionante. Cristaliza una visión que muchos en la comunidad de IA han perseguido durante años: modelos de lenguaje capaces, rápidos y completamente locales ejecutándose donde los usuarios ya están — el navegador.
Los kernels de Fable 5 son un testimonio del valor duradero de las contribuciones de código abierto. Aunque el estudio ha cerrado, su experiencia en ingeniería sigue viva, acelerada por una comunidad apasionada y accesible a través de una simple URL. Para los desarrolladores, el código base ofrece un rico recurso de aprendizaje para técnicas de optimización WebGPU. Para los usuarios, proporciona un vistazo a un futuro donde la IA es instantánea, privada y libre de las restricciones de la dependencia de la nube.
Prueba la demo, estudia los kernels y considera lo que podrías construir cuando la inferencia a 255 tokens por segundo está a solo una pestaña del navegador de distancia. La era de la IA en el navegador ha llegado — y es rápida.
🔗 Explora los recursos