Какие модели вы запускаете на 8 ГБ? 16 ГБ VRAM? 24 ГБ? 32 ГБ? 48 ГБ? — Полное руководство по локальным AI-стекам
Какие модели вы, ребята, запускаете на 8 ГБ? 16 ГБ VRAM? 24 ГБ? 32 ГБ? 48 ГБ? — Полное руководство по стекам локального ИИ
Ландшафт локального ИИ развивается с головокружительной скоростью. В одном месяце модель доминирует во всех рейтингах, а в следующем — новая техника квантизации или движок для инференса меняют представление о возможностях на потребительском оборудовании. Эта статья — живой снимок, агрегирующий реальный опыт сообщества о том, какие модели люди действительно запускают на каждом уровне VRAM — от бюджетных карт на 8 ГБ до мощных рабочих станций с 48 ГБ. Мы рассматриваем выбор моделей, конфигурации KV-кэша, компромиссы по длине контекста, производительность в токенах в секунду, базовое оборудование и разнообразные сценарии использования, лежащие в основе этих конфигураций. Создаете ли вы конфиденциального ассистента для кодинга, конвейер для анализа исследований или компаньона для творческого написания историй — это руководство поможет вам уверенно настроить свой стек.
📋 В Этом Руководстве
- Уровень 8 ГБ VRAM — «Золотая середина» эффективности
- Уровень 16 ГБ VRAM — Массовая рабочая лошадка
- Уровень 24 ГБ VRAM — Игровая площадка энтузиаста
- Уровень 32 ГБ VRAM — Мост между prosumer и мульти-GPU
- Уровень 48 ГБ VRAM — Класс рабочих станций
- Глубокое погружение в KV-кэш и длину контекста
- Матрица выбора модели с учетом оборудования
- Реальные тесты производительности
- Для чего люди на самом деле используют эти модели?
- Часто задаваемые вопросы
- Заключение и мудрость сообщества
Уровень 8 ГБ VRAM — «Золотая середина» эффективности
Восемь гигабайт видеопамяти — это та отправная точка, которая все еще открывает доступ к по-настоящему полезному локальному ИИ. С 8 ГБ вы не запустите неквантизированных «монстров» на 70B, но волна высокооптимизированных моделей с 7B–13B параметрами при 4-битной или 5-битной квантизации (Q4_K_M, Q5_K_M) дает на удивление хорошие результаты. Сообщество сошлось на нескольких выдающихся моделях, которые сочетают в себе интеллект, скорость и объем памяти.
Лучшие модели для 8 ГБ VRAM
- Mistral-7B-Instruct (v0.3 / v0.4) — Q5_K_M — Действующий чемпион для общих чатов, суммаризации и легкого кодинга на ограниченном оборудовании. Быстрый вывод, отличное следование инструкциям.
- Llama-3-8B-Instruct — Q4_K_M — 8B модель от Meta предлагает замечательную глубину рассуждений для своего размера. Q4_K_M удобно помещается, оставляя место для контекстного окна 4K–8K.
- Gemma-2-9B-Instruct — Q4_K_M или IQ4_NL — 9B от Google превосходит ожидания от своего класса, особенно в воспроизведении фактов и структурированном выводе. Квант IQ4_NL экономит драгоценную VRAM с минимальными потерями качества.
- Phi-3-mini-4k (3.8B) — Q8_0 или FP16 — Когда скорость и низкая задержка имеют первостепенное значение, крошечная мощная модель Microsoft работает полностью без квантизации на 8 ГБ и отлично справляется с RAG, классификацией и легковесными вызовами инструментов.
- Qwen2.5-7B-Instruct — Q5_K_M — Исключительна для многоязычных задач и генерации кода; Qwen 7B на Q5_K_M помещается в 8 ГБ со здоровым контекстным буфером.
KV-кэш и настройки контекста для 8 ГБ
Память KV-кэша — это скрытый налог на ваш бюджет VRAM. На картах с 8 ГБ каждый токен контекста потребляет значительное пространство — примерно от 0,5 МБ до 1,2 МБ на 1K токенов для модели 7B при 4-битном квантовании, в зависимости от реализации внимания. Мудрость сообщества советует:
- Контекст по умолчанию: 4096–8192 токенов для моделей 7B–8B на квантах Q4/Q5.
- Квантизация KV-кэша (FP8 / Q8_0 cache): Включение квантования KV-кэша в
llama.cppилиexllamav2может вернуть 30–40% кэш-памяти, позволяя расширить контекст до 12K–16K на 8 ГБ. - Flash Attention: Если ваш бэкенд поддерживает его, Flash Attention значительно снижает пиковое использование памяти во время предзагрузки, улучшая запас по контексту.
- Перенос в общую память GPU (системный резерв CUDA): Некоторые пользователи позволяют переполнению перетекать в общую память, но это снижает скорость генерации токенов ниже 5 т/с — обычно не рекомендуется для интерактивного использования.
Типичное оборудование для 8 ГБ
- NVIDIA RTX 3070 / RTX 3060 Ti / RTX 4060 Ti 8GB
- NVIDIA RTX 2070 Super / GTX 1080
- AMD Radeon RX 6600 XT / RX 7600 (через ROCm или Vulkan бэкенды)
- Apple M1/M2 с 8 ГБ унифицированной памяти (Metal-ускорение через llama.cpp)
Ожидаемая производительность
| Модель | Квантизация | Контекст | Оборудование | Токенов/сек |
|---|---|---|---|---|
| Mistral-7B-Instruct | Q5_K_M | 4096 | RTX 3070 8GB | 45–55 т/с |
| Llama-3-8B-Instruct | Q4_K_M | 8192 | RTX 4060 Ti 8GB | 38–48 т/с |
| Gemma-2-9B | IQ4_NL | 6144 | RTX 3070 8GB | 40–50 т/с |
| Phi-3-mini (3.8B) | FP16 | 4096 | RTX 3060 Ti 8GB | 90–120 т/с |
| Qwen2.5-7B | Q5_K_M | 4096 | AMD RX 7600 (Vulkan) | 25–35 т/с |
Уровень 16 ГБ VRAM — Массовая рабочая лошадка
Шестнадцать гигабайт — это когда локальный ИИ по-настоящему раскрывается. Это самый распространенный объем VRAM среди серьезных любителей, и он с комфортом вмещает модели 7B–13B с высокой квантизацией (Q6_K, Q8_0) или модели меньшего размера в полном FP16, а также открывает доступ к классу моделей 20B–34B с агрессивными квантами (IQ3_XXS, Q3_K_M). Уровень 16 ГБ — это также первая ступень, на которой становится жизнеспособным запуск моделей Mixture of Experts (MoE), таких как квантованный Mixtral.
Лучшие модели для 16 ГБ VRAM
- Llama-3.1-8B-Instruct — Q8_0 — Запуск 8B класса с почти без потерь качеством Q8_0 и с достаточным пространством для контекста. Фантастически подходит для написания длинных текстов и сложных многошаговых бесед.
- Mistral-Nemo-12B (Mistral + Nvidia) — Q5_K_M — Совместная 12B модель с нативным контекстным окном 128K. На Q5_K_M она помещается в 16 ГБ с используемым контекстом 8K–16K и демонстрирует отличную многоязычную производительность.
- Qwen2.5-14B-Instruct — Q4_K_M — 14B Qwen находится в «золотой середине»: значительно умнее 7B моделей, но все еще помещается в 16 ГБ на Q4 с комфортным контекстом 8K.
- Phi-3-medium-14B — Q4_K_M — Модель Phi среднего уровня от Microsoft отлично справляется с задачами, требующими рассуждений, и помещается в 16 ГБ с запасом.
- Mixtral-8x7B-Instruct — IQ3_XXS или Q2_K — Архитектура MoE означает, что на каждый токен активно только ~12.9B параметров, но полная модель занимает ~46B. Агрессивные кванты запускаются на 16 ГБ, выдавая удивительно связный вывод для творческого письма и мозгового штурма.
- CodeQwen1.5-7B-Chat — Q8_0 — Для разработчиков запуск специализированной модели кода на Q8_0 на 16 ГБ оставляет VRAM для интеграции с LSP и большого контекста кодовой базы.
KV-кэш и настройки контекста для 16 ГБ
- Модели 8B на Q8_0: Комфортно при контексте 16K–32K с включенным квантованием KV-кэша.
- Модели 12B–14B на Q4/Q5: Контекст 8K–16K — это «золотая середина»; расширение до 32K требует агрессивного квантования KV-кэша (Q4_0 cache) и может немного замедлить генерацию.
- MoE модели (Mixtral): Накладные расходы KV-кэша пропорциональны общему количеству параметров, а не активным. Держите контекст на уровне 4K–8K для плавной работы на 16 ГБ.
- Выбор инструмента:
exllamav2с его 8-битным кэшем широко рекомендуется сообществом для максимизации контекста на 16 ГБ картах.
Типичное оборудование для 16 ГБ
- NVIDIA RTX 4080 / RTX 4070 Ti Super / RTX 3080
- NVIDIA RTX 4060 Ti 16GB
- AMD Radeon RX 6800 / RX 6900 XT / RX 7800 XT
- Apple M2 Pro / M3 с 16 ГБ унифицированной памяти
- Intel Arc A770 16GB (через IPEX-LLM или llama.cpp Vulkan)
Ожидаемая производительность
| Модель | Квантизация | Контекст | Оборудование | Токенов/сек |
|---|---|---|---|---|
| Llama-3.1-8B | Q8_0 | 16K | RTX 4080 16GB | 55–70 т/с |
| Mistral-Nemo-12B | Q5_K_M | 12K | RTX 4070 Ti Super 16GB | 35–45 т/с |
| Qwen2.5-14B | Q4_K_M | 8K | RTX 3080 16GB (мод.) | 30–40 т/с |
| Mixtral-8x7B | IQ3_XXS | 4K | RTX 4080 16GB | 25–35 т/с |
| CodeQwen1.5-7B | Q8_0 | 32K | RX 7800 XT (ROCm) | 40–50 т/с |
Уровень 24 ГБ VRAM — Игровая площадка энтузиаста
Двадцать четыре гигабайта — это «золотая середина» для энтузиастов — домен RTX 3090, RTX 4090 и высокопроизводительных рабочих карт. Здесь модели класса 13B–20B работают на Q6_K или Q8_0 с щедрым контекстом 16K–32K, а модели класса 34B становятся жизнеспособными на Q4_K_M. Этот уровень также поддерживает запуск Mixtral-8x7B на Q4_K_M и подобных моделей MoE с комфортным контекстом, что делает его фаворитом для тех, кто ставит качество выше чистой скорости.
Лучшие модели для 24 ГБ VRAM
- Llama-3.1-70B — IQ2_XXS / IQ3_XXS (на 24 ГБ) — Да, модель 70B на 24 ГБ. С новейшими сверхнизкими квантами серии IQ, 70B Llama может едва поместиться на 24 ГБ карте с контекстом 2K–4K. Качество ухудшается, но все еще превосходит многие меньшие модели в определенных задачах на рассуждение.
- Qwen2.5-32B-Instruct — Q4_K_M — 32B Qwen, возможно, лучшая модель для одиночной карты на 24 ГБ для сложных рассуждений, продвинутой генерации кода и длинного структурированного вывода. На Q4_K_M помещается с контекстом 8K–16K.
- Gemma-2-27B-Instruct — Q4_K_M — 27B от Google превосходно следует инструкциям и обеспечивает точность фактов. Помещается в 24 ГБ на Q4 с контекстом 8K и показывает высокую производительность.
- Mixtral-8x7B-Instruct — Q5_K_M — Идеальный баланс для MoE: Q5_K_M на 24 ГБ с контекстом 8K–12K. Отлично подходит для творческого письма, ролевых игр и многоязычных задач.
- Command-R-Plus (Cohere, 104B) — IQ2_XXS — Еще один эксперимент с ультра-квантом, помещающийся в 24 ГБ. В первую очередь для исследований и экспериментов; не рекомендуется для продакшна, но интересен для проверки границ возможного.
- CodeLlama-34B-Instruct — Q4_K_M — Выделенная 34B модель для кода, предназначенная для серьезных задач программной инженерии, помещается в 24 ГБ с комфортным контекстом для анализа больших кодовых баз.
KV-кэш и настройки контекста для 24 ГБ
- Модели 32B на Q4: Контекст 8K–16K является стандартом; 32K достижимо с кэшем Q8_0 KV и Flash Attention.
- MoE модели на Q5: Практический предел — контекст 8K–12K, прежде чем скорость генерации упадет ниже 15 т/с.
- Ультра-кванты 70B: Только контекст 2K–4K; KV-кэш потребляет огромную долю оставшейся VRAM. Считайте это экспериментальной площадкой, а не основным рабочим инструментом.
- Предпросмотр мульти-GPU разгрузки: Некоторые владельцы 24 ГБ добавляют вторую карту (например, RTX 3060 12 ГБ) для разгрузки слоев, открывая доступ к большим моделям с более высокими квантами — мост к уровню 32 ГБ+.
Типичное оборудование для 24 ГБ
- NVIDIA RTX 4090 / RTX 3090 / RTX 3090 Ti
- NVIDIA RTX A5000 / A5500 (рабочие карты)
- NVIDIA Titan RTX
- AMD Radeon RX 7900 XTX (24GB, через ROCm)
- Связки из двух RTX 3060 12GB (в сумме 24GB через разделение слоев llama.cpp)
Ожидаемая производительность
| Модель | Квантизация | Контекст | Оборудование | Токенов/сек |
|---|---|---|---|---|
| Qwen2.5-32B | Q4_K_M | 12K | RTX 4090 24GB | 28–38 т/с |
| Gemma-2-27B | Q4_K_M | 8K | RTX 3090 24GB | 25–35 т/с |
| Mixtral-8x7B | Q5_K_M | 10K | RTX 4090 24GB | 22–32 т/с |
| Llama-3.1-70B | IQ3_XXS | 3K | RTX 4090 24GB | 6–10 т/с |
| CodeLlama-34B | Q4_K_M | 8K | RTX 3090 24GB | 20–30 т/с |
Уровень 32 ГБ VRAM — Мост между prosumer и мульти-GPU
Уровень 32 ГБ — это меньше об одиночных потребительских GPU и больше о мульти-GPU конфигурациях, Apple Silicon Mac с большим объемом унифицированной памяти и профессиональных рабочих картах. Две RTX 3090 в NVLink или объединенные через llama.cpp, Apple M2 Ultra с 32 ГБ+ унифицированной памяти, или одна карта класса RTX 5000 Ada / A6000 — все они попадают сюда. Эта емкость с комфортом запускает модели 34B–70B на Q4_K_M – Q5_K_M с контекстом 16K+.
Лучшие модели для 32 ГБ VRAM
- Llama-3.1-70B-Instruct — Q4_K_M — Самый часто упоминаемый сообществом «повседневный инструмент» для 32 ГБ. Полная мощность 70B на Q4 с контекстом 8K–16K. Отлично подходит для исследований, продвинутого анализа и профессионального письма.
- Qwen2.5-72B-Instruct — Q4_K_M — Сильная альтернатива класса 70B с исключительными многоязычными возможностями и способностями к кодингу. Помещается в 32 ГБ с контекстом 8K–12K.
- Command-R-Plus (104B) — Q3_K_M — Массивная модель от Cohere на Q3_K_M умещается в 32 ГБ с контекстом 4K–6K. Впечатляет для корпоративных задач в стиле RAG.
- Mixtral-8x22B-Instruct — Q4_K_M — Старший «брат» MoE с экспертами по 22B. Всего ~141B параметров, но только ~39B активны. Помещается в 32 ГБ на Q4 с контекстом 6K–8K и обеспечивает первоклассное многоязычное рассуждение.
- DeepSeek-V2-Lite-Chat (16B MoE) — Q6_K — Эффективная архитектура DeepSeek роскошно работает на 32 ГБ с высоким квантом и длинным контекстом для кодинга и математики.
KV-кэш и настройки контекста для 32 ГБ
- 70B на Q4: Контекст 8K–16K — стандарт; 32K возможно с кэшем Q8_0 KV и Flash Attention, хотя скорость генерации может упасть до 8–12 т/с на длинных контекстах.
- MoE 141B на Q4: Контекст 6K–10K; KV-кэш — главное ограничение из-за общего количества параметров.
- Разделение на несколько GPU: При использовании llama.cpp с тензорным параллелизмом на двух GPU по 16 ГБ, KV-кэш обычно реплицируется (а не шардируется), поэтому бюджет кэша на GPU составляет половину от общего — планируйте соответственно.
- Унифицированная память Apple Silicon: На M2 Ultra с 32 ГБ, llama.cpp с поддержкой Metal плавно обрабатывает 70B Q4 с контекстом 8K; архитектура унифицированной памяти полностью устраняет узкие места PCIe.
Типичное оборудование для 32 ГБ
- Две RTX 3090 24GB (объединенные, всего 48 ГБ, но часто сообщается о конфигурациях с 32 ГБ для модели + KV-кэш)
- Одна RTX A6000 / RTX 5000 Ada (рабочая карта на 32 ГБ)
- Apple M2 Ultra с 32 ГБ унифицированной памяти (или M3 Max с 36 ГБ)
- Две RTX 4060 Ti 16GB (в сумме 32GB через разделение слоев)
- AMD Radeon Pro W6800 32GB
Ожидаемая производительность
| Модель | Квантизация | Контекст | Оборудование | Токенов/сек |
|---|---|---|---|---|
| Llama-3.1-70B | Q4_K_M | 12K | Две RTX 3090 (всего 48GB) | 14–22 т/с |
| Qwen2.5-72B | Q4_K_M | 8K | Две RTX 3090 | 12–20 т/с |
| Mixtral-8x22B | Q4_K_M | 8K | RTX A6000 32GB | 15–22 т/с |
| Command-R-Plus (104B) | Q3_K_M | 4K | Apple M2 Ultra 32GB | 6–10 т/с |
Уровень 48 ГБ VRAM — Класс рабочих станций
Сорок восемь гигабайт — это сфера двойных RTX 3090/4090 в NVLink, RTX A6000 Ada (48 ГБ) и высококлассного Apple Silicon (M2 Ultra 48 ГБ+). Этот уровень с комфортом запускает модели 70B на Q6_K или Q8_0 с контекстом 16K–32K и может даже вместить модели на 120B+ на Q4. Это цель для тех, кто использует локальный ИИ как основной рабочий инструмент — исследователей, независимых разработчиков, создающих AI-приложения, и предприятия, хранящие данные локально.
Лучшие модели для 48 ГБ VRAM
- Llama-3.1-70B-Instruct — Q6_K или Q8_0 — При почти без потерь квантизации с контекстом 32K, это опыт локального ИИ, наиболее сопоставимый с облачными API. Потрясающее качество для профессионального письма, анализа и агентных рабочих процессов.
- Qwen2.5-72B-Instruct — Q6_K — Запуск 72B на Q6_K с контекстом 16K+ — это премиальный опыт для кодинга, математики и задач со структурированными данными.
- Command-R-Plus (104B) — Q4_K_M — Помещается в 48 ГБ с контекстом 6K–10K; хороший выбор для корпоративных RAG-конвейеров и суммирования длинных документов.
- Falcon-40B-Instruct — Q8_0 или FP16 — Хотя и старая, Falcon 40B на полной точности на 48 ГБ — любимица исследователей для экспериментов по файнтюнингу и структурированному выводу.
- Yi-34B-200K — Q5_K_M — Огромное нативное контекстное окно Yi в 200K становится практически используемым на 48 ГБ. На Q5_K_M с контекстом 32K–64K идеально подходит для проверки юридических документов и академических исследований.
- DeepSeek-V2-Chat (236B MoE) — IQ3_XXS — Полная MoE от DeepSeek на сверхнизких квантах как раз помещается в 48 ГБ с контекстом 2K–4K. Проблеск передовых рубежей локального MoE-инференса.
KV-кэш и настройки контекста для 48 ГБ
- 70B на Q6/Q8: Комфортен контекст 16K–32K; с Flash Attention и квантованием KV-кэша для некоторых архитектур достижимы 64K+.
- Модели 100B+ на Q4: Практический диапазон — контекст 6K–12K; большее количество параметров означает больший размер записи KV-кэша на токен.
- Модели с нативным контекстом 200K (Yi): Истинный контекст 200K требует отключения квантования KV-кэша и смирения с низкой скоростью (5–10 т/с), но 32K–64K отлично работают на полной скорости.
- Преимущества NVLink: На связках из двух 3090/4090 с NVLink, прямой доступ к памяти peer-to-peer снижает накладные расходы на репликацию KV-кэша, эффективно увеличивая используемый кэш на 15–25% по сравнению с объединением без NVLink.
Типичное оборудование для 48 ГБ
- Две RTX 4090 24GB (NVLink) или Две RTX 3090 24GB
- Одна NVIDIA RTX A6000 Ada 48GB
- NVIDIA L40 / L40S 48GB (ЦОД-видеокарты)
- Apple M2 Ultra с 48–64 ГБ унифицированной памяти
- Две AMD Radeon Pro W7900 24GB (в сумме 48GB)
Ожидаемая производительность
| Модель | Квантизация | Контекст | Оборудование | Токенов/сек |
|---|---|---|---|---|
| Llama-3.1-70B | Q8_0 | 32K | Две RTX 4090 48GB | 18–28 т/с |
| Qwen2.5-72B | Q6_K | 16K | RTX A6000 Ada 48GB | 15–24 т/с |
| Command-R-Plus (104B) | Q4_K_M | 8K | Две RTX 3090 48GB | 10–16 т/с |
| Yi-34B-200K | Q5_K_M | 48K | Две RTX 4090 48GB | 12–18 т/с |
| DeepSeek-V2 (236B MoE) | IQ3_XXS | 3K | Apple M2 Ultra 64GB | 3–6 т/с |
KV-кэш и длина контекста — Тихий рычаг производительности
Если размер модели — это двигатель, то конфигурация KV-кэша — это трансмиссия. Кэш «ключ-значение» хранит ключи и значения механизма внимания для каждого токена в вашем контекстном окне, и он растет линейно как с размером модели, так и с длиной контекста. Неправильно его сконфигурировав, вы либо получите крах из-за нехватки памяти, либо оставите значительную часть VRAM бездействующей.
Сколько VRAM потребляет KV-кэш?
Примерная формула, используемая в сообществе для модели с N слоями, H размерностями скрытого слоя и G KV-головами, работающей с C токенами контекста при B байтах на элемент кэша:
KV_cache_bytes ≈ 2 × N × G × (H / total_heads) × C × B × 2 (для матриц K и V)
На практике для модели 7B с контекстом 4K и кэшем FP16 KV ожидайте, что один только кэш займет ~0,8–1,2 ГБ. При контексте 32K эта цифра раздувается до 6–10 ГБ. Вот почему квантование KV-кэша (FP8, Q8_0, Q4_0) является самой эффективной оптимизацией после квантования самой модели.
Стратегии сообщества по работе с KV-кэшем
- Flash Attention 2/3: Снижает пиковое потребление памяти во время этапа предзагрузки (prefill), избегая материализации полной матрицы внимания. Поддерживается в exllamav2, vLLM и последних сборках llama.cpp.
- Квантизация KV-кэша (FP8 / Q8_0 / Q4_0): Небольшая потеря качества вывода в обмен на 30–60% экономии кэш-памяти. На картах 8 ГБ и 16 ГБ это часто является разницей между контекстным окном в 4K и 12K.
- Внимание со скользящим окном (Sliding Window Attention): Некоторые модели (Mistral, некоторые варианты Qwen) используют внимание со скользящим окном, которое ограничивает рост кэша и позволяет работать с более длинными эффективными контекстами без линейного масштабирования памяти.
- Разгрузка контекста (Context Offloading): В llama.cpp неиспользуемые части KV-кэша могут быть выгружены в системную RAM, но это приводит к значительным задержкам при генерации токенов — лучше всего подходит для пакетной обработки, а не для интерактивного чата.
- Политики сокращения/вытеснения кэша: Продвинутые бэкенды, такие как vLLM, реализуют интеллектуальное вытеснение менее важных записей KV, поддерживая качество при ограничении использования памяти — все чаще применяется для обслуживания длинных контекстов.
Матрица выбора модели с учетом оборудования
Используйте эту краткую справочную таблицу, чтобы сопоставить ваше оборудование с оптимальным классом модели и ожидаемым уровнем опыта:
| Ваша VRAM | Рекомендуемый класс модели | Диапазон квантизации | Комфортный контекст | Уровень опыта / Применение |
|---|---|---|---|---|
| 8GB | 3B–8B | Q4_K_M до Q8_0 (для <5B) | 4K–12K | Повседневный ассистент, легкий кодинг, суммирование |
| 16GB | 8B–14B (или MoE на IQ3) | Q4_K_M до Q8_0 | 8K–32K | Серьезный любитель, профессиональное письмо, кодинг средней сложности |
| 24GB | 14B–34B (или 70B на IQ2) | Q4_K_M до Q6_K | 8K–32K | Энтузиаст, продвинутый кодинг, исследования, творческая работа |
| 32GB | 34B–72B | Q4_K_M до Q5_K_M | 8K–32K | Prosumer, корпоративный RAG, многоязычный анализ |
| 48GB | 70B–104B (или MoE на Q4+) | Q4_K_M до Q8_0 | 16K–64K | Рабочая станция, файнтюнинг, агентные системы, юридические/академические исследования |
Реальные тесты производительности — Токены в секунду и компромиссы качества
Производительность в локальном ИИ — понятие многогранное. Количество токенов в секунду — это лишь одна ось; время до первого токена (TTFT), скорость обработки промпта и качество вывода при заданном кванте — все это имеет значение. Тесты сообщества последовательно показывают:
- TTFT становится узким местом на длинных контекстах: Обработка промпта в 32K токенов на модели 70B может занять 30–90 секунд до появления первого токена, даже на двух-GPU системах с 48 ГБ. Flash Attention и кэширование промптов в бэкендах типа vLLM смягчают эту проблему.
- Кванты IQ против K-квантов: Новая серия IQ (Integer Quantization) от llama.cpp обычно сохраняет больше качества при эквивалентной битовой ширине по сравнению со старой серией K-квантов, особенно на уровнях 2-бит и 3-бит. Для 70B на 24 ГБ, IQ3_XXS часто превосходит Q3_K_S в тестах на человеческие предпочтения.
- exllamav2 против llama.cpp: Для чисто GPU-инференса на оборудовании NVIDIA, exllamav2 стабильно выдает на 10–25% более высокую пропускную способность и меньшую задержку. llama.cpp остается королем кроссплатформенной совместимости (Apple Silicon, AMD, Intel, CPU fallback).
- Размер батча важен для пропускной способности: Если вы обслуживаете нескольких пользователей или запускаете пакетные оценки, vLLM с непрерывной пакетной обработкой может увеличить эффективную пропускную способность в 3–5 раз по сравнению с однопоточным инференсом в llama.cpp.
Для чего люди на самом деле используют эти модели?
Вопрос «Для чего вы используете свои модели?» раскрывает невероятное разнообразие применений локального ИИ. Основываясь на агрегированных ответах сообщества, вот наиболее распространенные сценарии использования на каждом уровне:
Уровень 8 ГБ — Повседневные ИИ-ассистенты
- Конфиденциальность Личный дневник и рефлексия с локальным чатом (данные не покидают устройство)
- Кодинг Легковесное автодополнение кода и встроенные подсказки (Continue.dev + Ollama)
- Образование Партнеры для изучения языков, генерация карточек, вопросы и ответы по учебникам
- Творчество Написание коротких рассказов, заметки для D&D кампаний, генерация диалогов NPC
- Домашняя автоматизация Локальный парсинг намерений для голосового управления Home Assistant
Уровень 16 ГБ — Профессиональные и творческие рабочие лошадки
- Разработка Полноценная генерация кода, рефакторинг и написание тестов с помощью специализированных моделей
- Письмо Создание длинных текстов, редактирование и перенос стиля (романы, сценарии, маркетинговые тексты)
- Исследования Суммирование статей, извлечение цитат, помощь в обзоре литературы
- Многоязычность Перевод и создание контента на разных языках с Qwen или Mistral-Nemo
- Игры NPC, управляемые ИИ, в модифицированных играх (Skyrim, Mount & Blade) через локальные API-серверы
Уровень 24 ГБ+ — Продвинутые и корпоративные рабочие нагрузки
- Агентный ИИ Многошаговые автономные агенты для исследований, анализа данных и автоматизации задач
- Юриспруденция Проверка контрактов, извлечение пунктов, проверка соответствия с помощью моделей с длинным контекстом
- Академия Полный анализ статей, перекрестная проверка ссылок, генерация гипотез
- Корпоративный RAG Вопросы и ответы по внутренней базе знаний с моделями 70B+ на проприетарных документах
- Файнтюнинг Тонкая настройка LoRA/QLoRA моделей 7B–13B для доменно-специфичных задач, с использованием большого GPU для обучения, в то время как инференс запускается отдельно
- Медицина / Здоровье Локальный анализ клинических заметок (соответствие HIPAA, без доступа в облако)
Часто задаваемые вопросы
Какую абсолютно лучшую модель я могу запустить на 8 ГБ VRAM прямо сейчас?
По состоянию на середину 2025 года, консенсус сообщества указывает на Llama-3.1-8B-Instruct на Q4_K_M или Gemma-2-9B-Instruct на IQ4_NL как на главных претендентов. Gemma-2-9B предлагает немного лучшую точность фактов, в то время как Llama-3.1-8B превосходит в творческих задачах и нюансах общения. Обе помещаются в 8 ГБ с контекстом 4K–8K. Для чистой скорости, Phi-3-mini (3.8B) на FP16 демонстрирует молниеносные 90+ т/с на RTX 3070.
Могу ли я запустить модель 70B на одной GPU с 24 ГБ?
Да, но со значительными оговорками. Используя квантизацию IQ2_XXS или IQ3_XXS из последней версии llama.cpp, модель 70B может загрузиться на 24 ГБ, оставив около 2–4 ГБ для KV-кэша — достаточно для контекстного окна 2K–4K. Качество вывода снижено по сравнению с Q4, но для некоторых аналитических задач, выигрывающих от более глубоких рассуждений 70B, она все еще может превзойти меньшие модели. Это экспериментальная конфигурация, а не повседневный инструмент для большинства пользователей.
Как мне выбрать между exllamav2, llama.cpp и vLLM?
exllamav2: Лучшая чистая производительность на GPU NVIDIA. Поддерживает Flash Attention, кэш FP8 KV и эффективный тензорный параллелизм. Идеален для интерактивного инференса одного пользователя на NVIDIA картах от 8 ГБ до 48 ГБ.
llama.cpp: Универсальный выбор. Работает на NVIDIA, AMD, Apple Silicon, Intel и даже только на CPU. Поддерживает самый широкий спектр форматов квантизации (GGUF, серия IQ). Лучший вариант для кроссплатформенных систем и пользователей Apple Silicon.
vLLM: Создан для обслуживания. Если вам нужна конечная точка API, совместимая с OpenAI, с непрерывной пакетной обработкой для нескольких одновременных пользователей, vLLM — это золотой стандарт. Требует большей настройки, но обеспечивает непревзойденную пропускную способность для производственных развертываний.
Какие настройки KV-кэша мне следует использовать для работы с длинным контекстом (32K+)?
Включите Flash Attention и установите квантование KV-кэша на Q8_0 или FP8. На карте 16 ГБ с моделью 8B на Q8_0 это обычно позволяет работать с контекстом 32K без переполнения. Следите за использованием VRAM во время предзагрузки (prefill) — если вы видите скачки до 95% утилизации, уменьшите контекст с шагом 2K–4K до стабилизации. Для систем 48 ГБ+, запускающих модели 70B на Q6+, контекст 32K–64K обычно достижим с этими оптимизациями.
Конкурентоспособен ли Apple Silicon для локального ИИ?
Безусловно. Архитектура унифицированной памяти на M2 Ultra (48–64 ГБ) и M3 Max (36 ГБ+) меняет правила игры. Хотя чистая вычислительная мощность GPU ниже, чем у RTX 4090, возможность выделить всю унифицированную память под модель устраняет узкие места PCIe и позволяет запускать модели 70B на Q4 с контекстом 8K+ на скорости 8–15 т/с. Для разработчиков, предпочитающих Mac, это бесшовный и тихий опыт локального ИИ. Бэкенд Metal в llama.cpp значительно повзрослел.
В чем особенность моделей Mixture of Experts (MoE) и VRAM?
MoE-модели, такие как Mixtral-8x7B и DeepSeek-V2, имеют большое общее количество параметров, но активируют лишь их часть на каждый токен. Это означает, что VRAM должна вмещать всю модель (всех экспертов), но вычислительные затраты на токен значительно ниже. Требование к VRAM диктуется общим количеством параметров, а не активными. Вот почему 46B-общий Mixtral на Q4 помещается в 24 ГБ, а плотная 46B модель на Q4 — нет. MoE-модели — это отличный способ «прыгнуть выше головы» вашего класса VRAM по качеству генерации, но они не уменьшают объем занимаемой памяти.
Заключение — Мудрость сообщества по построению вашего стека локального ИИ
Вопрос «Какие модели вы, ребята, запускаете?» получает разный ответ каждые несколько месяцев — и в этом прелесть движения за локальный ИИ. Оборудование, которое вчера казалось ограниченным, сегодня запускает улучшенные модели 8B с контекстом 32K. Коллективные эксперименты, бенчмаркинг и расширение границ квантизации со стороны open-source сообщества постоянно пересматривают то, что возможно на потребительском «кремнии».
Если и есть одна мета-идея из сотен ответов сообщества, то она такова: начните с лучшей модели, которую ваш объем VRAM комфортно вмещает на Q4_K_M или выше, настройте KV-кэш на контекст 8K–16K и сопротивляйтесь желанию гнаться за передовыми ультра-квантами, если только вам действительно не нужна глубина рассуждений большей модели. Шустрая, надежная установка на 8B часто превосходит медленную, испытывающую нехватку памяти 70B для ежедневного использования.
Ключевые выводы, чтобы сделать ваше путешествие в локальный ИИ перспективным:
- Квантизация — ваш лучший друг. Серия IQ и K-кванты делают модели в 2–4 раза меньше с минимальной потерей качества. Всегда предпочитайте Q4_K_M или Q5_K_M как базовый уровень; переходите ниже только при необходимости.
- Настройка KV-кэша не является опциональной. Потратьте время на настройку длины контекста, квантования кэша и Flash Attention. Это разница между плавной работой и постоянными крахами с нехваткой памяти (OOM).
- Выбор бэкенда имеет значение. exllamav2 для скорости на NVIDIA, llama.cpp для универсальной совместимости, vLLM для обслуживания. Не стесняйтесь менять бэкенды по мере изменения ваших потребностей.
- Знания сообщества накапливаются. Конфигурации, задокументированные здесь, представляют собой снимок середины 2025 года. Следите за активными темами, Discord-серверами и обсуждениями на GitHub — следующий прорывной квант или архитектура, вероятно, появятся через несколько недель.
- Сначала определите свой сценарий использования. Модель для кода в интеграции с Cursor, творческая модель для написания романа и модель для рассуждений в исследованиях — это разные инструменты. Стройте свой стек вокруг того, что вы делаете ежедневно, а не вокруг показателей в бенчмарках.
Это руководство агрегирует опыт сообщества и периодически обновляется по мере появления новых моделей, методов квантизации и бэкендов для инференса. Последнее обновление: Июнь 2025. Ваши результаты могут отличаться в зависимости от версий драйверов, сборок бэкендов и конкретных аппаратных конфигураций. Всегда тестируйте с вашей собственной рабочей нагрузкой, прежде чем внедрять в производственный стек.