Indigo
Пушистая пуська
**Совет:** Если вы скачали какую-то модель с названием "Gemma 4" с неофициального ресурса, будьте осторожны — скорее всего, это просто переименованная Gemma 2 или Llama 3. Всегда проверяйте источник (например, официальный репозиторий `google/gemma-2` на Hugging Face).
...синдром Утёнка, Gemma4 даже не допускает, что она может существовать 🙂
Тема самоидентификации зато раскрывается понемножку 🙂
Чату задал тот-же вопрос -
Порекомендуй LLM для локального запуска на видеоплате с 24 ГБ памяти - для вайб-кодинга и просто общего назначения
Если у тебя 24 ГБ VRAM (RTX 3090 / 4090 / 5090 и т.п.), то сейчас это «sweet spot» для локальных LLM: можно комфортно запускать хорошие 27B–35B модели в Q4/Q5-квантизации без сильных компромиссов. (LocalVRAM)
Для твоего сценария — вайб-кодинг + общее использование — я бы разделил модели так:
Лучший баланс: одна модель «на всё»
Если нужен именно «ежедневный локальный ChatGPT» — это, вероятно, лучший старт.
- Qwen3 32B
Сейчас это один из лучших универсальных вариантов под 24 ГБ:
- хорошо пишет код;
- нормально держит длинный контекст;
- адекватен в русском;
- годится для обычного общения, анализа, RAG и агентных задач.
- В Q4_K_M обычно помещается в 20–22 ГБ VRAM. (LLMHardware.io)
Лучший для кодинга
Для «вайб-кодинга» через Continue или Cline — отличный выбор.
- Qwen2.5-Coder-32B
До сих пор считается одним из самых сильных локальных кодеров на одной видеокарте. Особенно:
- рефакторинг;
- генерация файлов;
- понимание проекта;
- Python/JS/TS/C++;
- Continue/Cline/OpenWebUI.
- Многие до сих пор считают его лучшим practical coding model для 24 ГБ. (OSSAlt)
Лучший для reasoning и «подумать»
Но:
- DeepSeek-R1-Distill-Qwen-32B
Сильнее в:
- логике;
- сложной отладке;
- архитектурных рассуждениях;
- алгоритмах.
Как «вторую модель» держать очень полезно. (LLMHardware.io)
- медленнее;
- иногда слишком многословен;
- хуже как everyday assistant.
Очень приятный general-purpose вариант
Минусы:
- Gemma 3 27B
Сильные стороны:
- естественный стиль;
- хороший multilingual;
- быстро работает;
- меньше «шизотеоретизирует».
Но как домашний ассистент — очень приятная модель. (IntuitionLabs)
- код слабее Qwen Coder;
- хуже tool use и agentic workflows.
Что бы я реально поставил на 24 ГБ сегодня
Вариант 1 — одна модель
- Qwen3 32B Q4_K_M
Вариант 2 — лучший practical набор
- Qwen2.5-Coder-32B — кодинг
- Gemma 3 27B — общение/тексты
- DeepSeek-R1-Distill-32B — reasoning
Для вайб-кодинга важнее не только модель
Связка обычно важнее самой LLM:
Компонент Что сейчас популярно Backend Ollama / llama.cpp / vLLM IDE integration Continue.dev Agentic coding Cline UI Open WebUI Fast inference KoboldCpp Что НЕ рекомендую под 24 ГБ
- 70B модели с сильной квантизацией — качество/скорость обычно уже неприятные.
- Маленькие 7B как main model — после 32B ощущаются слишком «тупыми».
- Старые CodeLlama/Mistral 7B — уже заметно устарели.
Практический совет по quantization
Для 24 ГБ обычно оптимальны:
- Q4_K_M — лучший баланс;
- Q5_K_M — если хватает VRAM и хочешь качество;
- IQ4_XS — иногда хороший компромисс для больших моделей.
Если коротко
(LocalVRAM)
Задача Модель Лучший универсальный выбор Qwen3 32B Лучший локальный кодинг Qwen2.5-Coder-32B Лучший reasoning DeepSeek-R1-Distill-Qwen-32B Самый приятный assistant Gemma 3 27B
То есть про Гемму 4 он не знает.
Уже вышла гемма 4
(чат пошел искать в инете)
Да, ты прав — Gemma 4 уже вышла официально в апреле 2026. (Google DeepMind)
И тогда мой предыдущий список стоит немного обновить.
Для 24 ГБ VRAM сейчас ситуация примерно такая:
Что изменилось с выходом Gemma 4:
Сценарий Что сейчас выглядит сильнее Универсальная модель Gemma 4 31B или Qwen3 32B Вайб-кодинг Qwen2.5-Coder-32B Агентность / tool use Gemma 4 31B Самый «живой» assistant-style Gemma 4 31B Сложный reasoning DeepSeek-R1-Distill-Qwen-32B
По benchmark’ам Gemma 4 31B уже конкурирует с топовыми open-weight моделями, а по некоторым тестам — обгоняет. Например:
- Google сильно подтянул:
- reasoning;
- код;
- agentic workflows;
- multimodal;
- long context.
- Лицензия теперь Apache 2.0.
- 31B версия очень хорошо работает локально. (blog.google)
Но есть важный практический момент:
- LiveCodeBench ≈ 80%;
- AIME 2026 ≈ 89%;
- сильный tool use. (Google DeepMind)
Для «вайб-кодинга» Qwen всё ещё часто удобнее
Несмотря на хайп вокруг Gemma 4, у Qwen2.5-Coder-32B пока остаются сильные стороны:
На Reddit и в LocalLLaMA многие сейчас держат именно связку:
- лучше понимает структуру проектов;
- стабильнее редактирует большие файлы;
- меньше «креативит» там, где нужен точный код;
- лучше ecosystem compatibility с Continue/Cline/Aider.
- Gemma 4 — assistant/general/agents;
- Qwen Coder — coding. (Reddit)
Если бы у меня была одна 24 ГБ карта под Windows + Ollama/LM Studio сегодня, я бы сделал так:
Основная модель
- Gemma 4 31B Q4_K_M
Для IDE и coding-agent
- Qwen2.5-Coder-32B Q4_K_M
Под твой сценарий особенно хорошо зайдут:
И ещё важная вещь:
Gemma 4 заметно лучше предыдущих Gemma в:
Для Квебека это приятно 🙂
- русском;
- французском;
- смешанных multilingual диалогах. (Google DeepMind)