• Внимание, Премодерацию новичков пока выключаю.

Нейросети и смежное :)

**Совет:** Если вы скачали какую-то модель с названием "Gemma 4" с неофициального ресурса, будьте осторожны — скорее всего, это просто переименованная Gemma 2 или Llama 3. Всегда проверяйте источник (например, официальный репозиторий `google/gemma-2` на Hugging Face).

...синдром Утёнка, Gemma4 даже не допускает, что она может существовать 🙂
Тема самоидентификации зато раскрывается понемножку 🙂

Чату задал тот-же вопрос -

Порекомендуй LLM для локального запуска на видеоплате с 24 ГБ памяти - для вайб-кодинга и просто общего назначения

Если у тебя 24 ГБ VRAM (RTX 3090 / 4090 / 5090 и т.п.), то сейчас это «sweet spot» для локальных LLM: можно комфортно запускать хорошие 27B–35B модели в Q4/Q5-квантизации без сильных компромиссов. (LocalVRAM)
Для твоего сценария — вайб-кодинг + общее использование — я бы разделил модели так:

Лучший баланс: одна модель «на всё»​

  • Qwen3 32B
    Сейчас это один из лучших универсальных вариантов под 24 ГБ:
    • хорошо пишет код;
    • нормально держит длинный контекст;
    • адекватен в русском;
    • годится для обычного общения, анализа, RAG и агентных задач.
    • В Q4_K_M обычно помещается в 20–22 ГБ VRAM. (LLMHardware.io)
Если нужен именно «ежедневный локальный ChatGPT» — это, вероятно, лучший старт.

Лучший для кодинга​

  • Qwen2.5-Coder-32B
    До сих пор считается одним из самых сильных локальных кодеров на одной видеокарте. Особенно:
    • рефакторинг;
    • генерация файлов;
    • понимание проекта;
    • Python/JS/TS/C++;
    • Continue/Cline/OpenWebUI.
    • Многие до сих пор считают его лучшим practical coding model для 24 ГБ. (OSSAlt)
Для «вайб-кодинга» через Continue или Cline — отличный выбор.

Лучший для reasoning и «подумать»​

  • DeepSeek-R1-Distill-Qwen-32B
    Сильнее в:
    • логике;
    • сложной отладке;
    • архитектурных рассуждениях;
    • алгоритмах.
Но:
  • медленнее;
  • иногда слишком многословен;
  • хуже как everyday assistant.
Как «вторую модель» держать очень полезно. (LLMHardware.io)

Очень приятный general-purpose вариант​

  • Gemma 3 27B
    Сильные стороны:
    • естественный стиль;
    • хороший multilingual;
    • быстро работает;
    • меньше «шизотеоретизирует».
Минусы:
  • код слабее Qwen Coder;
  • хуже tool use и agentic workflows.
Но как домашний ассистент — очень приятная модель. (IntuitionLabs)

Что бы я реально поставил на 24 ГБ сегодня​

Вариант 1 — одна модель​

  • Qwen3 32B Q4_K_M

Вариант 2 — лучший practical набор​

  • Qwen2.5-Coder-32B — кодинг
  • Gemma 3 27B — общение/тексты
  • DeepSeek-R1-Distill-32B — reasoning

Для вайб-кодинга важнее не только модель​

Связка обычно важнее самой LLM:
КомпонентЧто сейчас популярно
BackendOllama / llama.cpp / vLLM
IDE integrationContinue.dev
Agentic codingCline
UIOpen WebUI
Fast inferenceKoboldCpp

Что НЕ рекомендую под 24 ГБ​

  • 70B модели с сильной квантизацией — качество/скорость обычно уже неприятные.
  • Маленькие 7B как main model — после 32B ощущаются слишком «тупыми».
  • Старые CodeLlama/Mistral 7B — уже заметно устарели.

Практический совет по quantization​

Для 24 ГБ обычно оптимальны:
  • Q4_K_M — лучший баланс;
  • Q5_K_M — если хватает VRAM и хочешь качество;
  • IQ4_XS — иногда хороший компромисс для больших моделей.

Если коротко​

ЗадачаМодель
Лучший универсальный выборQwen3 32B
Лучший локальный кодингQwen2.5-Coder-32B
Лучший reasoningDeepSeek-R1-Distill-Qwen-32B
Самый приятный assistantGemma 3 27B
(LocalVRAM)

То есть про Гемму 4 он не знает.

Уже вышла гемма 4

(чат пошел искать в инете)

Да, ты прав — Gemma 4 уже вышла официально в апреле 2026. (Google DeepMind)
И тогда мой предыдущий список стоит немного обновить.
Для 24 ГБ VRAM сейчас ситуация примерно такая:
СценарийЧто сейчас выглядит сильнее
Универсальная модельGemma 4 31B или Qwen3 32B
Вайб-кодингQwen2.5-Coder-32B
Агентность / tool useGemma 4 31B
Самый «живой» assistant-styleGemma 4 31B
Сложный reasoningDeepSeek-R1-Distill-Qwen-32B
Что изменилось с выходом Gemma 4:
  • Google сильно подтянул:
    • reasoning;
    • код;
    • agentic workflows;
    • multimodal;
    • long context.
  • Лицензия теперь Apache 2.0.
  • 31B версия очень хорошо работает локально. (blog.google)
По benchmark’ам Gemma 4 31B уже конкурирует с топовыми open-weight моделями, а по некоторым тестам — обгоняет. Например:
  • LiveCodeBench ≈ 80%;
  • AIME 2026 ≈ 89%;
  • сильный tool use. (Google DeepMind)
Но есть важный практический момент:

Для «вайб-кодинга» Qwen всё ещё часто удобнее​

Несмотря на хайп вокруг Gemma 4, у Qwen2.5-Coder-32B пока остаются сильные стороны:
  • лучше понимает структуру проектов;
  • стабильнее редактирует большие файлы;
  • меньше «креативит» там, где нужен точный код;
  • лучше ecosystem compatibility с Continue/Cline/Aider.
На Reddit и в LocalLLaMA многие сейчас держат именно связку:
  • Gemma 4 — assistant/general/agents;
  • Qwen Coder — coding. (Reddit)

Если бы у меня была одна 24 ГБ карта под Windows + Ollama/LM Studio сегодня, я бы сделал так:

Основная модель​

  • Gemma 4 31B Q4_K_M

Для IDE и coding-agent​

  • Qwen2.5-Coder-32B Q4_K_M

Под твой сценарий особенно хорошо зайдут:
И ещё важная вещь:
Gemma 4 заметно лучше предыдущих Gemma в:
  • русском;
  • французском;
  • смешанных multilingual диалогах. (Google DeepMind)
Для Квебека это приятно 🙂
 
А что можешь сказать про Qwen 3.6?

(чат пошел гуглить)

Qwen 3.6 сейчас — один из самых интересных релизов для локального запуска, особенно если тебе важны:
  • вайб-кодинг;
  • agentic workflows;
  • работа с большими проектами;
  • длинный контекст;
  • эффективность на одной GPU. (GitHub)
Главное: у Qwen 3.6 есть две очень разные модели.
МодельЧто это
Qwen3.6-27Bплотная (dense), стабильная
Qwen3.6-35B-A3BMoE: 35B total / ~3B active
(LLM Reference)
Для 24 ГБ VRAM именно 35B-A3B выглядит особенно интересно.

Почему Qwen 3.6 сейчас так хвалят​

Alibaba явно делала упор именно на:
  • repository-level reasoning;
  • coding agents;
  • terminal workflows;
  • tool use;
  • «thinking preservation».
То есть не просто «напиши функцию», а:
  • читать проект;
  • понимать связи;
  • чинить баги;
  • делать iterative edits;
  • работать как semi-autonomous агент. (Qwen3.6)
Это как раз то, что нужно для:
  • Continue;
  • Cline;
  • Aider;
  • OpenCode;
  • RooCode.

Что особенно интересно в 35B-A3B​

Это sparse MoE:
  • всего 35B параметров;
  • но активны только ~3B на токен. (ThinkSmart Life)
На практике это дает:
  • скорость ближе к маленьким моделям;
  • качество ближе к большим.
Для 24 ГБ это почти идеальный сценарий.

Практически: как он ощущается​

По отзывам сообщества:
  • кодит лучше Gemma 4;
  • меньше «галлюцинирует» в коде;
  • лучше держит структуру репозитория;
  • очень хорош в agent loop workflows. (Reddit)
Но:
  • стиль общения менее «человечный», чем у Gemma 4;
  • иногда слишком инженерный;
  • reasoning менее глубокий, чем у DeepSeek-R1.

Что бы я выбрал под 24 ГБ сегодня​

Если нужен coding-first​

  • Qwen3.6-35B-A3B Q4_K_M
Это, вероятно, лучший practical choice сейчас.

Если нужен assistant + coding​

  • Gemma 4 31B — для общения
  • Qwen3.6-35B-A3B — для IDE/агентов

Dense vs MoE​

Очень важный момент.

Qwen3.6-27B​

Плюсы:
  • стабильнее;
  • предсказуемее;
  • меньше артефактов;
  • лучше для long chats.
Минусы:
  • медленнее;
  • менее efficient.

Qwen3.6-35B-A3B​

Плюсы:
  • очень быстрый;
  • отличный coding-agent;
  • лучше throughput.
Минусы:
  • иногда MoE routing дает странные ответы;
  • может быть менее ровным в обычном диалоге.

Для твоего железа​

На 24 ГБ:
  • Q4_K_M — отлично;
  • IQ4_XS — тоже хороший вариант;
  • Q5 уже может быть тесновато.

Что сейчас выглядит топом для локального coding​

Если убрать hype и смотреть на practical usage:
МодельОценка
Qwen3.6-35B-A3Bодин из лучших локальных coding-agent
Qwen2.5-Coder-32Bвсё ещё очень стабильный
Gemma 4 31Bлучший general assistant
DeepSeek-R1-Distillлучший reasoning

Мой реальный совет​

Если ты уже используешь:
  • Ollama;
  • LM Studio;
  • Continue/Cline;
то я бы первым делом попробовал:
Именно под «вайб-кодинг на одной видеокарте» он сейчас выглядит очень сильным. (ThinkSmart Life)
 

LGBT*

В связи с решением Верховного суда Российской Федерации (далее РФ) от 30 ноября 2023 года), движение ЛГБТ* признано экстремистским и запрещена его деятельность на территории РФ. Данное решение суда подлежит немедленному исполнению, исходя из чего на форуме будут приняты следующие меры - аббривеатура ЛГБТ* должна и будет применяться только со звездочкой (она означает иноагента или связанное с экстремизмом движение, которое запрещено в РФ), все ради того чтобы посетители и пользователи этого форума могли ознакомиться с данным запретом. Символика, картинки и атрибутика что связана с ныне запрещенным движением ЛГБТ* запрещены на этом форуме - исходя из решения Верховного суда, о котором было написано ранее - этот пункт внесен как экстренное дополнение к правилам форума части 4 параграфа 12 в настоящее время.

Назад
Сверху