Necesitamos urgentemente un modelo de 80–160B: el mercado de dispositivos de memoria unificada necesita más modelos

📅 2026-06-18 Reddit - LocalLLaMA

Necesitamos urgentemente un modelo de 80–160B: El mercado de dispositivos con memoria unificada necesita más modelos

El panorama de la inferencia local de IA ha cambiado drásticamente. Hace apenas unos años, ejecutar un modelo de 70 mil millones de parámetros en hardware de consumo era un sueño lejano. Hoy, sobre nuestros escritorios descansan dispositivos con 96 GB, 128 GB o incluso 192 GB de memoria unificada: los Apple Mac Studio y MacBook Pro con chips M‑series Max/Ultra, las plataformas AMD Ryzen AI Max «Strix Halo», el NVIDIA DGX Spark y equipos multi‑GPU con 4×RTX 3090 o RTX 6000 Pro. Estas máquinas ansían un punto ideal que el ecosistema actual de modelos simplemente no está cubriendo. La comunidad clama: necesitamos urgentemente un modelo de 80–160B. El mercado de dispositivos con memoria unificada necesita más modelos.

En los últimos tres meses, hemos visto una avalancha de modelos pequeños y capaces como Qwen 27B y Gemma 31B, optimizados para velocidad en GPUs con poca VRAM y dispositivos periféricos. En el otro extremo se sitúan los colosales modelos densos y de mezcla de expertos (400B, 600B, incluso 1 billón de parámetros) que exigen servidores multi‑GPU de categoría empresarial. Pero el escalón intermedio —modelos entre 80 mil y 160 mil millones de parámetros— sigue siendo un punto ciego. Estas son precisamente las arquitecturas que podrían saturar los perfiles ricos en memoria y limitados en ancho de banda de los sistemas de memoria unificada, ofreciendo una combinación inédita de inteligencia local, longitud de contexto y capacidad de razonamiento. Este artículo profundiza en por qué existe este desajuste hardware‑modelo, qué dispositivos están hambrientos de gigantes de rango medio y qué podemos hacer como comunidad para acelerar el cambio.

El auge del hardware de consumo con alta memoria unificada

Las arquitecturas de memoria unificada han borrado la línea histórica entre la RAM del sistema y la VRAM de la GPU. Cuando un único conjunto de 96 GB o 128 GB es accesible tanto para el procesador como para el motor neuronal o la GPU integrada, los pesos completos del modelo, la caché KV y la ventana de contexto pueden residir en un mismo espacio contiguo. Esto cambia las reglas del juego para la inferencia local de LLMs. Analicemos las principales plataformas.

Apple Silicon: Macs con 96 GB o más

Los chips M‑series Ultra y Max en configuraciones de Mac Studio y MacBook Pro de gama alta se han convertido en los favoritos de los entusiastas de la IA local. Un M2 Ultra con 192 GB de memoria unificada puede, en teoría, cargar un modelo de 180B profundamente cuantizado completamente en RAM, con anchos de banda que alcanzan los 800 GB/s en el Ultra. Incluso un M3 Max con 96 GB o 128 GB es una máquina de inferencia productiva. Sin embargo, estos dispositivos necesitan modelos que aprovechen al máximo su capacidad de memoria sin requerir la computación de una GPU de centro de datos completa. Un modelo de 100B cuantizado a 4 bits cabe cómodamente en 50–60 GB, dejando espacio de sobra para una ventana de contexto de 128K.

AMD Ryzen AI Max y la era Strix Halo

Los chips AMD Ryzen AI Max (Strix Halo), con hasta 128 GB de memoria unificada LPDDR5X y una potente GPU integrada RDNA 3.5, representan la respuesta x86 a Apple Silicon. Los primeros benchmarks muestran que estas APUs pueden ejecutar modelos de 70B completamente en local. Pero con 128 GB disponibles, están pidiendo a gritos un modelo de mezcla de expertos (MoE) de 120B o 150B que quepa en 100 GB tras una cuantización a 4 bits. Ahora mismo, esos GB permanecen parcialmente inactivos porque el ecosistema de software aún no ha producido los modelos que igualen el apetito del hardware.

NVIDIA DGX Spark y estaciones de trabajo con alta RAM

El NVIDIA DGX Spark (anteriormente Project Digits) pone la arquitectura Grace‑Hopper sobre el escritorio, con 128 GB de memoria unificada LPDDR5X. Está diseñado para el desarrollo de IA. Al mismo tiempo, los usuarios con tarjetas RTX 6000 Pro (48 GB cada una) o equipos con cuatro RTX 3090 (con un total de 96 GB de GDDR6X) están agrupando VRAM mediante paralelismo de modelos. Dichos sistemas pueden albergar un modelo enorme, pero no quieren un coloso de 400B que avance a velocidades de token por token. Quieren un modelo denso de 130B o un MoE de 160B que funcione a una velocidad interactiva de 5–10 tokens por segundo.

Configuraciones multi‑GPU y sistemas con 128 GB DDR4/DDR5

También está ocurriendo una revolución silenciosa entre los usuarios con RAM de sistema de alta capacidad (128 GB DDR4/DDR5) y dGPUs que pueden descargar parte del modelo. A través de la inferencia en modo dividido de llama.cpp, pueden ejecutar modelos grandes entre la RAM del sistema y la VRAM de la GPU. Sin embargo, las opciones de modelos se reducen drásticamente por encima de los 70B. La nota de la comunidad es acertada: «Hay muchísima gente que tiene mucha RAM "lenta", pero no la suficiente». El hardware está esperando.

El panorama actual de modelos: dos extremos

El zoológico de modelos de código abierto y ajustados por la comunidad se ha dividido recientemente en dos bandos distintos, dejando un cráter en el medio.

Modelos pequeños optimizados para velocidad (27B–32B)

En el último trimestre, los lanzamientos más elogiados se han dirigido a máquinas de alta velocidad y baja capacidad. Qwen 27B y Gemma 31B son sobresalientes para su tamaño, ejecutándose sin esfuerzo en GPUs con 24 GB de VRAM e incluso en smartphones al ser cuantizados. Ofrecen un seguimiento rápido de instrucciones, uso de herramientas y un razonamiento aceptable. Pero su conocimiento del mundo, comprensión matizada de instrucciones y estabilidad en contextos largos aún quedan muy por detrás de lo que un modelo de 100B+ puede ofrecer. Están diseñados para la audiencia más amplia posible, no para aquellos que ya han invertido en conjuntos de memoria de 96 GB o más.

Modelos colosales (400B+)

En la orilla opuesta se encuentran gigantes como DeepSeek‑V3 (671B MoE), Llama 3.1 405B y varias fusiones comunitarias de escala 600B. Estos modelos son asombrosamente inteligentes, pero habitualmente requieren múltiples nodos con A100 de 80 GB o H100 para servirse a un ritmo aceptable. Incluso un DGX Spark solo puede ejecutar un modelo 405B agresivamente cuantizado a 1–2 tokens por segundo, lo que lo hace poco práctico para uso interactivo. La brecha de recursos entre 32B y 400B es colosal.

El escalón intermedio ausente: 80–160 mil millones de parámetros

Entre 80 y 160 mil millones de parámetros se encuentra un espacio de diseño perfectamente alineado con los dispositivos de memoria unificada que tienen entre 96 GB y 192 GB de capacidad. Consideremos:

Un modelo denso de 100B en cuantización Q4_K_M necesita aproximadamente 56 GB de memoria. Deja entre 40 y 70 GB libres para la caché KV, permitiendo hasta 100K tokens de contexto en un sistema de 128 GB.
Un modelo MoE de 140B (con ~20B de parámetros activos por token) podría ejecutarse a velocidades impresionantes en un M3 Max, usando solo una fracción del ancho de banda de memoria de un modelo denso comparable, manteniendo un razonamiento sofisticado.
Un modelo de 160B cuantizado a 3 bits cabe en 65 GB, dejando un generoso margen para multitarea en un MacBook de 96 GB.

La demanda es acuciante. La publicación de la comunidad que suscitó este debate no era solo un deseo: era el reflejo de miles de usuarios con dispositivos Apple de más de 96 GB, sistemas Ryzen AI 395, unidades DGX Spark y estaciones de trabajo multi‑GPU que están colectivamente cansados de ejecutar modelos «pequeños» de 70B que no saturan su hardware, o modelos de 400B+ que hacen rugir los ventiladores para un goteo de 0,3 tokens/segundo.

Por qué necesitamos urgentemente modelos de 80–160B para dispositivos de memoria unificada

Ajuste perfecto para búferes de VRAM/RAM de 96 GB–192 GB

Un modelo de 80B cuantizado a 4 bits ocupa aproximadamente 45 GB; uno de 160B, alrededor de 85 GB. Estos tamaños son la «zona Ricitos de Oro» para las configuraciones de 96 GB, 128 GB y 192 GB que están inundando el mercado prosumidor. Los usuarios pueden asignar los pesos del modelo, una ventana de contexto enorme e incluso un segundo modelo para decodificación especulativa o un codificador de visión, todo dentro del mismo conjunto de memoria unificada sin recurrir al swap en SSD.

Equilibrio entre inteligencia y velocidad de inferencia

La calidad del modelo escala con el número de parámetros. El salto de 70B a 130B a menudo supone un avance cuántico en razonamiento lógico, generación de código, planificación en varios pasos y recuperación de hechos. Al mismo tiempo, un modelo de 130B en una APU Strix Halo aún puede alcanzar de 8 a 12 tokens/segundo con backends optimizados de frameworks de ML como MLC‑LLM o llama.cpp con aceleración Metal/CUDA/ROCm. Esto es lo bastante rápido para chat en tiempo real, bucles agénticos y asistentes locales de copilotaje, sin la latencia prohibitiva de un monstruo de 405B.

Habilitar flujos de trabajo agénticos sofisticados en local

El futuro de la IA local es agéntico: modelos que pueden navegar de forma autónoma, escribir código, gestionar archivos y ejecutar tareas en varios pasos. Dichos agentes exigen una gran memoria de trabajo (caché KV) y la capacidad de manejar esquemas complejos de uso de herramientas. Un modelo de 70B a menudo tiene dificultades para mantener planes coherentes en horizontes largos; un modelo de 400B es demasiado lento. Un modelo de 80–160B podría ser el cerebro perfecto de agente autónomo para un asistente privado siempre activo en el dispositivo.

Ideas prácticas: Cómo puede la comunidad impulsar más modelos

Los lanzamientos de modelos están impulsados por las señales del mercado y el ruido de la comunidad. Así es como podemos hacer que el rango medio ausente sea imposible de ignorar:

Expresar la demanda en plataformas de código abierto – Abrir incidencias y debates en GitHub en los principales proyectos (llama.cpp, MLC‑LLM, vLLM) mostrando la capacidad del hardware y la brecha de modelos.
Evaluar y demostrar la preparación del hardware – Publicar benchmarks de inferencia para modelos grandes existentes en dispositivos de 96 GB+, señalando explícitamente cuánto margen queda sin utilizar.
Animar a los laboratorios a publicar puntos de control intermedios – Pedir a las empresas líderes en IA (Meta, Qwen, DeepSeek, Mistral) que publiquen no solo las variantes de 7B‑30B y 400B+, sino también puntos de control de entrenamiento de 80B‑160B que la comunidad pueda ajustar.
Financiar y patrocinar ajustes finos comunitarios – Agrupar recursos mediante financiación colectiva para tomar un modelo base de código abierto de 80B y crear versiones instruct, de código y agénticas optimizadas para inferencia en memoria unificada a 4 bits.
Crear una tabla de clasificación unificada – Clasificar modelos específicamente según el benchmark de rendimiento de «inferencia local en 96 GB‑192 GB», dando visibilidad a los modelos que se ajustan a este perfil de hardware.

Consideraciones técnicas para ejecutar modelos de 80–160B en memoria unificada

Cuantización, Q4_K_M y requisitos de memoria

Para un despliegue local práctico, la cuantización es innegociable. Aquí hay una referencia rápida del uso de memoria (aproximado) con un conjunto de memoria unificada de 128 GB:

Modelo de 80B, Q4_K_M: ~45 GB. Deja 83 GB libres, ideal para ventanas de contexto de 100K+.
Modelo de 120B, Q4_K_M: ~67 GB. Permite 60 GB para caché KV y sobrecarga del sistema, suficiente para un contexto de 64K.
Modelo de 160B, IQ3_XXS: ~65 GB con buena retención de calidad. Permite ejecutar un modelo de 160B incluso en Macs de 96 GB con un contexto moderado.

La tecnología para una cuantización eficiente ya existe hoy. Lo que falta es la base de modelos que maximice la relación calidad‑por‑GB en este rango de parámetros.

Ancho de banda de memoria vs. Computación: El cuello de botella

Los sistemas de memoria unificada suelen estar limitados por el ancho de banda, no por la computación. Un M2 Ultra ofrece 800 GB/s, y una APU Strix Halo ofrece alrededor de 500 GB/s. Un modelo denso de 100B a 4 bits lee 50 GB por paso de generación de token. A 800 GB/s, la salida teórica de tokens es de aproximadamente 16 tokens/s, perfectamente interactiva. Las arquitecturas MoE pueden mejorar esto aún más manteniendo bajos los parámetros activos (por ejemplo, 20B de 140B), reduciendo así la lectura de memoria por token. La industria necesita modelos MoE o dispersos en el rango de 80–160B diseñados teniendo en cuenta esta característica de ancho de banda.

Preguntas frecuentes

¿Por qué no simplemente ejecutar un modelo de 70B con una ventana de contexto enorme?

Aunque los modelos de 70B pueden ampliarse a contextos largos, su capacidad fundamental de razonamiento alcanza un límite. Un modelo de 100B–130B posee inherentemente más profundidad factual, mejor cadena de pensamiento y un uso de herramientas más fiable, incluso antes de cualquier extensión de contexto. Es la diferencia entre un modelo que puede resumir un documento de 200 páginas y uno que también puede hacer referencias cruzadas y razonar profundamente sobre él sin alucinar.

¿Puedo ejecutar actualmente un modelo de 120B en un Mac con 128 GB de RAM?

Técnicamente sí: puedes descargar Goliath 120B o una fusión cuantizada basada en Llama‑2. Pero la diferencia de calidad en comparación con las arquitecturas modernas es enorme porque esos modelos más antiguos no se han beneficiado de los últimos datos de preentrenamiento ni de las técnicas de alineación. El objetivo es tener modelos modernos de 80–160B con recetas de entrenamiento de clase Qwen‑2, clase DeepSeek o clase Gemma.

¿Qué framework es mejor para la inferencia de modelos de 80–160B en memoria unificada?

llama.cpp (con backends Metal, CUDA o ROCm) es el favorito de la comunidad por su eficiencia de memoria. MLC‑LLM ofrece un rendimiento excelente en Metal y Vulkan. Para flujos de trabajo agénticos, LM Studio y Ollama proporcionan envoltorios fáciles de usar. El cuello de botella no es el entorno de ejecución, sino la disponibilidad de archivos de modelos bien cuantizados.

¿Hay algún modelo anunciado de 80–160B que vaya a salir pronto?

Aunque ocasionalmente surgen rumores en el Twitter de IA y en los blogs de laboratorios de investigación, no se ha confirmado ningún lanzamiento importante de código abierto en este rango exacto en el momento de escribir estas líneas. Este silencio subraya la urgencia. Cuanto más señale la comunidad que el mercado existe, más rápido pivotará el ciclo de lanzamientos.

Conclusión: La revolución de la memoria unificada necesita sus modelos estrella

Nos encontramos en un punto de inflexión del hardware. Por primera vez, los potentes dispositivos de memoria unificada capaces de ejecutar IA no están confinados en bastidores de servidores: están en escritorios, en portátiles y en mini‑clústeres de categoría de desarrollo. Pero toda esta capacidad permanece a medio utilizar sin los cerebros de software adecuados. La petición es clara: Necesitamos urgentemente un modelo de 80–160B. El mercado de dispositivos con memoria unificada necesita más modelos. Esta es una llamada a los laboratorios de IA, a los contribuidores de código abierto y a las comunidades de entusiastas del hardware para colaborar, financiar y desarrollar el rango medio ausente. Solo así desbloquearemos el verdadero potencial de nuestras máquinas con alta RAM, convirtiendo gigabytes inactivos en agentes de IA locales inteligentes, receptivos y profundamente capaces.

Si eres desarrollador de modelos, fabricante de hardware o simplemente alguien con 128 GB de RAM y el deseo de impulsar la IA local, es hora de cerrar la brecha. Construyamos juntos el futuro de la clase 100B.