Нейросети и смежное :)

Indigo · Сегодня в 03:28

dok34.ru написал(а):
**Совет:** Если вы скачали какую-то модель с названием "Gemma 4" с неофициального ресурса, будьте осторожны — скорее всего, это просто переименованная Gemma 2 или Llama 3. Всегда проверяйте источник (например, официальный репозиторий `google/gemma-2` на Hugging Face).

...синдром Утёнка, Gemma4 даже не допускает, что она может существовать 🙂
Тема самоидентификации зато раскрывается понемножку 🙂

Чату задал тот-же вопрос -

Порекомендуй LLM для локального запуска на видеоплате с 24 ГБ памяти - для вайб-кодинга и просто общего назначения

Если у тебя 24 ГБ VRAM (RTX 3090 / 4090 / 5090 и т.п.), то сейчас это «sweet spot» для локальных LLM: можно комфортно запускать хорошие 27B–35B модели в Q4/Q5-квантизации без сильных компромиссов. (LocalVRAM)
Для твоего сценария — вайб-кодинг + общее использование — я бы разделил модели так:

Лучший баланс: одна модель «на всё»

Qwen3 32B
Сейчас это один из лучших универсальных вариантов под 24 ГБ:

хорошо пишет код;

нормально держит длинный контекст;

адекватен в русском;

годится для обычного общения, анализа, RAG и агентных задач.

В Q4_K_M обычно помещается в 20–22 ГБ VRAM. (LLMHardware.io)

Если нужен именно «ежедневный локальный ChatGPT» — это, вероятно, лучший старт.

Лучший для кодинга

Qwen2.5-Coder-32B
До сих пор считается одним из самых сильных локальных кодеров на одной видеокарте. Особенно:

рефакторинг;

генерация файлов;

понимание проекта;

Python/JS/TS/C++;

Continue/Cline/OpenWebUI.

Многие до сих пор считают его лучшим practical coding model для 24 ГБ. (OSSAlt)

Для «вайб-кодинга» через Continue или Cline — отличный выбор.

Лучший для reasoning и «подумать»

DeepSeek-R1-Distill-Qwen-32B
Сильнее в:

логике;

сложной отладке;

архитектурных рассуждениях;

алгоритмах.

Но:

медленнее;

иногда слишком многословен;

хуже как everyday assistant.

Как «вторую модель» держать очень полезно. (LLMHardware.io)

Очень приятный general-purpose вариант

Gemma 3 27B
Сильные стороны:

естественный стиль;

хороший multilingual;

быстро работает;

меньше «шизотеоретизирует».

Минусы:

код слабее Qwen Coder;

хуже tool use и agentic workflows.

Но как домашний ассистент — очень приятная модель. (IntuitionLabs)

Что бы я реально поставил на 24 ГБ сегодня
Вариант 1 — одна модель

Qwen3 32B Q4_K_M

Вариант 2 — лучший practical набор

Qwen2.5-Coder-32B — кодинг

Gemma 3 27B — общение/тексты

DeepSeek-R1-Distill-32B — reasoning

Для вайб-кодинга важнее не только модель
Связка обычно важнее самой LLM:

Компонент Что сейчас популярно
Backend Ollama / llama.cpp / vLLM
IDE integration Continue.dev
Agentic coding Cline
UI Open WebUI
Fast inference KoboldCpp

Что НЕ рекомендую под 24 ГБ

70B модели с сильной квантизацией — качество/скорость обычно уже неприятные.

Маленькие 7B как main model — после 32B ощущаются слишком «тупыми».

Старые CodeLlama/Mistral 7B — уже заметно устарели.

Практический совет по quantization
Для 24 ГБ обычно оптимальны:

Q4_K_M — лучший баланс;

Q5_K_M — если хватает VRAM и хочешь качество;

IQ4_XS — иногда хороший компромисс для больших моделей.

Если коротко

Задача Модель
Лучший универсальный выбор Qwen3 32B
Лучший локальный кодинг Qwen2.5-Coder-32B
Лучший reasoning DeepSeek-R1-Distill-Qwen-32B
Самый приятный assistant Gemma 3 27B

(LocalVRAM)

То есть про Гемму 4 он не знает.

Уже вышла гемма 4

(чат пошел искать в инете)

Да, ты прав — Gemma 4 уже вышла официально в апреле 2026. (Google DeepMind)
И тогда мой предыдущий список стоит немного обновить.
Для 24 ГБ VRAM сейчас ситуация примерно такая:

Сценарий Что сейчас выглядит сильнее
Универсальная модель Gemma 4 31B или Qwen3 32B
Вайб-кодинг Qwen2.5-Coder-32B
Агентность / tool use Gemma 4 31B
Самый «живой» assistant-style Gemma 4 31B
Сложный reasoning DeepSeek-R1-Distill-Qwen-32B

Что изменилось с выходом Gemma 4:

Google сильно подтянул:

reasoning;

код;

agentic workflows;

multimodal;

long context.

Лицензия теперь Apache 2.0.

31B версия очень хорошо работает локально. (blog.google)

По benchmark’ам Gemma 4 31B уже конкурирует с топовыми open-weight моделями, а по некоторым тестам — обгоняет. Например:

LiveCodeBench ≈ 80%;

AIME 2026 ≈ 89%;

сильный tool use. (Google DeepMind)

Но есть важный практический момент:

Для «вайб-кодинга» Qwen всё ещё часто удобнее
Несмотря на хайп вокруг Gemma 4, у Qwen2.5-Coder-32B пока остаются сильные стороны:

лучше понимает структуру проектов;

стабильнее редактирует большие файлы;

меньше «креативит» там, где нужен точный код;

лучше ecosystem compatibility с Continue/Cline/Aider.

На Reddit и в LocalLLaMA многие сейчас держат именно связку:

Gemma 4 — assistant/general/agents;

Qwen Coder — coding. (Reddit)

Если бы у меня была одна 24 ГБ карта под Windows + Ollama/LM Studio сегодня, я бы сделал так:

Основная модель

Gemma 4 31B Q4_K_M

Для IDE и coding-agent

Qwen2.5-Coder-32B Q4_K_M

Под твой сценарий особенно хорошо зайдут:

Ollama

Continue.dev

Cline

Open WebUI

И ещё важная вещь:
Gemma 4 заметно лучше предыдущих Gemma в:

русском;

французском;

смешанных multilingual диалогах. (Google DeepMind)

Для Квебека это приятно 🙂

Indigo · Сегодня в 03:35

А что можешь сказать про Qwen 3.6?

(чат пошел гуглить)

Qwen 3.6 сейчас — один из самых интересных релизов для локального запуска, особенно если тебе важны:

вайб-кодинг;

agentic workflows;

работа с большими проектами;

длинный контекст;

эффективность на одной GPU. (GitHub)

Главное: у Qwen 3.6 есть две очень разные модели.

Модель Что это
Qwen3.6-27B плотная (dense), стабильная
Qwen3.6-35B-A3B MoE: 35B total / ~3B active

(LLM Reference)
Для 24 ГБ VRAM именно 35B-A3B выглядит особенно интересно.

Почему Qwen 3.6 сейчас так хвалят
Alibaba явно делала упор именно на:

repository-level reasoning;

coding agents;

terminal workflows;

tool use;

«thinking preservation».

То есть не просто «напиши функцию», а:

читать проект;

понимать связи;

чинить баги;

делать iterative edits;

работать как semi-autonomous агент. (Qwen3.6)

Это как раз то, что нужно для:

Continue;

Cline;

Aider;

OpenCode;

RooCode.

Что особенно интересно в 35B-A3B
Это sparse MoE:

всего 35B параметров;

но активны только ~3B на токен. (ThinkSmart Life)

На практике это дает:

скорость ближе к маленьким моделям;

качество ближе к большим.

Для 24 ГБ это почти идеальный сценарий.

Практически: как он ощущается
По отзывам сообщества:

кодит лучше Gemma 4;

меньше «галлюцинирует» в коде;

лучше держит структуру репозитория;

очень хорош в agent loop workflows. (Reddit)

Но:

стиль общения менее «человечный», чем у Gemma 4;

иногда слишком инженерный;

reasoning менее глубокий, чем у DeepSeek-R1.

Что бы я выбрал под 24 ГБ сегодня
Если нужен coding-first

Qwen3.6-35B-A3B Q4_K_M

Это, вероятно, лучший practical choice сейчас.

Если нужен assistant + coding

Gemma 4 31B — для общения

Qwen3.6-35B-A3B — для IDE/агентов

Dense vs MoE
Очень важный момент.

Qwen3.6-27B
Плюсы:

стабильнее;

предсказуемее;

меньше артефактов;

лучше для long chats.

Минусы:

медленнее;

менее efficient.

Qwen3.6-35B-A3B
Плюсы:

очень быстрый;

отличный coding-agent;

лучше throughput.

Минусы:

иногда MoE routing дает странные ответы;

может быть менее ровным в обычном диалоге.

Для твоего железа
На 24 ГБ:

Q4_K_M — отлично;

IQ4_XS — тоже хороший вариант;

Q5 уже может быть тесновато.

Что сейчас выглядит топом для локального coding
Если убрать hype и смотреть на practical usage:

Модель Оценка
Qwen3.6-35B-A3B один из лучших локальных coding-agent
Qwen2.5-Coder-32B всё ещё очень стабильный
Gemma 4 31B лучший general assistant
DeepSeek-R1-Distill лучший reasoning

Мой реальный совет
Если ты уже используешь:

Ollama;

LM Studio;

Continue/Cline;

то я бы первым делом попробовал:

Qwen3.6 GitHub

модель Qwen3.6-35B-A3B

Именно под «вайб-кодинг на одной видеокарте» он сейчас выглядит очень сильным. (ThinkSmart Life)

dok34.ru · Сегодня в 11:17

Indigo написал(а):
А что можешь сказать про Qwen 3.6?

(чат пошел гуглить)

О, спасибо!
Новый qwen я увидел, но не пробовал пока, подсказка про модель мне прямо пригодится, спасибо!!

Нейросети и смежное :)

Indigo

Пушистая пуська

Лучший баланс: одна модель «на всё»

Лучший для кодинга

Лучший для reasoning и «подумать»

Очень приятный general-purpose вариант

Что бы я реально поставил на 24 ГБ сегодня

Вариант 1 — одна модель

Вариант 2 — лучший practical набор

Для вайб-кодинга важнее не только модель

Что НЕ рекомендую под 24 ГБ

Практический совет по quantization

Если коротко

Для «вайб-кодинга» Qwen всё ещё часто удобнее

Основная модель

Для IDE и coding-agent

Indigo

Пушистая пуська

Почему Qwen 3.6 сейчас так хвалят

Что особенно интересно в 35B-A3B

Практически: как он ощущается

Что бы я выбрал под 24 ГБ сегодня

Если нужен coding-first

Если нужен assistant + coding

Dense vs MoE

Qwen3.6-27B

Qwen3.6-35B-A3B

Для твоего железа

Что сейчас выглядит топом для локального coding

Мой реальный совет

dok34.ru

Moderator

LGBT*

We value your privacy

Компонент	Что сейчас популярно
Backend	Ollama / llama.cpp / vLLM
IDE integration	Continue.dev
Agentic coding	Cline
UI	Open WebUI
Fast inference	KoboldCpp

Задача	Модель
Лучший универсальный выбор	Qwen3 32B
Лучший локальный кодинг	Qwen2.5-Coder-32B
Лучший reasoning	DeepSeek-R1-Distill-Qwen-32B
Самый приятный assistant	Gemma 3 27B

Сценарий	Что сейчас выглядит сильнее
Универсальная модель	Gemma 4 31B или Qwen3 32B
Вайб-кодинг	Qwen2.5-Coder-32B
Агентность / tool use	Gemma 4 31B
Самый «живой» assistant-style	Gemma 4 31B
Сложный reasoning	DeepSeek-R1-Distill-Qwen-32B

Модель	Что это
Qwen3.6-27B	плотная (dense), стабильная
Qwen3.6-35B-A3B	MoE: 35B total / ~3B active

Модель	Оценка
Qwen3.6-35B-A3B	один из лучших локальных coding-agent
Qwen2.5-Coder-32B	всё ещё очень стабильный
Gemma 4 31B	лучший general assistant
DeepSeek-R1-Distill	лучший reasoning

Нейросети и смежное :)

Indigo

Пушистая пуська

Лучший баланс: одна модель «на всё»​

Лучший для кодинга​

Лучший для reasoning и «подумать»​

Очень приятный general-purpose вариант​

Что бы я реально поставил на 24 ГБ сегодня​

Вариант 1 — одна модель​

Вариант 2 — лучший practical набор​

Для вайб-кодинга важнее не только модель​

Что НЕ рекомендую под 24 ГБ​

Практический совет по quantization​

Если коротко​

Для «вайб-кодинга» Qwen всё ещё часто удобнее​

Основная модель​

Для IDE и coding-agent​

Indigo

Пушистая пуська

Почему Qwen 3.6 сейчас так хвалят​

Что особенно интересно в 35B-A3B​

Практически: как он ощущается​

Что бы я выбрал под 24 ГБ сегодня​

Если нужен coding-first​

Если нужен assistant + coding​

Dense vs MoE​

Qwen3.6-27B​

Qwen3.6-35B-A3B​

Для твоего железа​

Что сейчас выглядит топом для локального coding​

Мой реальный совет​

dok34.ru

Moderator

LGBT*

We value your privacy

Лучший баланс: одна модель «на всё»

Лучший для кодинга

Лучший для reasoning и «подумать»

Очень приятный general-purpose вариант

Что бы я реально поставил на 24 ГБ сегодня

Вариант 1 — одна модель

Вариант 2 — лучший practical набор

Для вайб-кодинга важнее не только модель

Что НЕ рекомендую под 24 ГБ

Практический совет по quantization

Если коротко

Для «вайб-кодинга» Qwen всё ещё часто удобнее

Основная модель

Для IDE и coding-agent

Почему Qwen 3.6 сейчас так хвалят

Что особенно интересно в 35B-A3B

Практически: как он ощущается

Что бы я выбрал под 24 ГБ сегодня

Если нужен coding-first

Если нужен assistant + coding

Dense vs MoE

Qwen3.6-27B

Qwen3.6-35B-A3B

Для твоего железа

Что сейчас выглядит топом для локального coding

Мой реальный совет