• Внимание, Премодерацию новичков пока выключаю.

Нейросети и смежное :)

...не изучал, тут подробно
 
Оказывается Алибаба выпустила модели qwen image и qwen edit для редактирования изображений.
А так-же появился Flux 2.


Поставил квен-едит, нужно обновить комфи и потом прямо из вокрфлоу json по ссылке скачать недостающее, но там модель большая так что я взял ужатую с civitai



Screenshot 2026-05-10 185337.webp


Дал картинку вида с местной горы на озеро, сказал добавить кораблик. Не могу сказать что качество высокое, может дело в том что модель ужатая а не оригинальная 16 бит и почти 40 гб

Mount Pinacle.webp


ComfyUI_01441_.webp
 
Последнее редактирование:
Оказывается Алибаба выпустила модели qwen image и qwen edit для редактирования изображений.
А так-же появился Flux 2.


Поставил квен-едит, нужно обновить комфи и потом прямо из вокрфлоу json по ссылке скачать недостающее, но там модель большая так что я взял ужатую с civitai



Посмотреть вложение 12078


Дал картинку вида с местной горы на озеро, сказал добавить кораблик. Не могу сказать что качество высокое, может дело в том что модель ужатая а не оригинальная 16 бит и почти 40 гб

Посмотреть вложение 12079


Посмотреть вложение 12080
..тут на форуме фото ужимаются, поэтому сложно сказать про качество, но вроде вставлено прилично, с тенями и прочим, вроде?
 
..тут на форуме фото ужимаются, поэтому сложно сказать про качество, но вроде вставлено прилично, с тенями и прочим, вроде?
В оригинале кораблик не выглядит естественно, есть "эффект фотошопа" - он как-бы более размыт чем остальное изображение. Вообще эта сеть генерит немного размытое изображение, нужно использовать лоры.
 
Последнее редактирование:
Для видеокарты с **24 ГБ VRAM** (например, RTX 3090 или 4090) сейчас «золотой век». Вы можете запускать как очень быстрые маленькие модели, так и весьма мощные средние модели с использованием квантования (сжатия).

Вот список самых актуальных и эффективных моделей на текущий момент, разделенный по категориям.

---

### 1. «Короли» малого веса (до 15 млрд параметров)
Эти модели летают на 24 ГБ. Вы можете использовать их даже без сильного сжатия (FP16 или BF16), либо с легким квантованием, чтобы оставить много места под огромный контекст (память для длинных диалогов).

* **Llama 3.1 8B** — стандарт индустрии от Meta. Очень умная, отличная поддержка русского языка, огромное сообщество.
* **Mistral NeMo 12B** — совместная разработка NVIDIA и Mistral. Специально оптимизирована так, чтобы идеально помещаться в память одной RTX 4090. Она заметно умнее моделей 7-8B, но всё еще очень быстрая.
* **Gemma 2 9B** — модель от Google. По многим тестам обходит Llama 3 8B, особенно в логике и творческом письме.
* **Qwen 2.5 (7B)** — новая серия от Alibaba. На данный момент считается одной из лучших в мире по кодингу и математике среди малых моделей.

### 2. «Максимум мощности» для 24 ГБ (20–35 млрд параметров)
Это модели, которые при использовании квантования **4-bit или 8-bit (GGUF, EXL2, AWQ)** занимают от 14 до 22 ГБ VRAM. Они значительно умнее предыдущего списка.

* **Gemma 2 27B** — настоящий «киллер» для карт на 24 ГБ. В квантованном виде (4-bit) она почти дотягивается до уровня огромных моделей, при этом помещается в VRAM с запасом под контекст. **Рекомендуемый выбор для сложных задач.**
* **Mistral Small** — новая эффективная модель, ориентированная на бизнес-задачи и высокую точность.

### 3. Специализированные модели (Кодинг и Математика)
Если вам нужно писать код или решать сложные технические задачи:

* **DeepSeek Coder V2 Lite (MoE)** — архитектура Mixture of Experts. Она очень эффективна, так как при каждом ответе задействует не все параметры, а только часть, что дает высокую скорость при высоком качестве кода.
* **Codestral 22B** — мощная модель от Mistral специально для программирования. В квантованном виде отлично вписывается в 24 ГБ.

---

### Сводная таблица: Что выбрать?

| Цель | Модель | Рекомендуемый формат | Почему она? |
| :--- | :--- | :--- | :--- |
| **Универсальный помощник** | `Llama 3.1 8B` | FP16 / Q8_0 | Скорость, экосистема, русский язык |
| **Максимальный интеллект** | `Gemma 2 27B` | Q4_K_M (4-bit) | Лучшее соотношение размер/качество |
| **Кодинг / Тех. задачи** | `Qwen 2.5 7B` или `DeepSeek Coder V2` | Q8 / Q4 | Лидеры в бенчмарках по коду |
| **Баланс скорость/ум** | `Mistral NeMo 12B` | Q8_0 / FP16 | Оптимизирована под RTX 3090/4090 |

---

### Технические советы для владельца 24 ГБ VRAM:

1. **Как запускать?**
* **Ollama** — самый простой способ (установил и запустил в консоли).
* **LM Studio** — лучший GUI для новичков, позволяет выбирать конкретные квантованные версии с Hugging Face.
* **KoboldCPP / Text-Generation-WebUI** — для продвинутых пользователей с гибкими настройками.

2. **Что такое квантование?**
Если вы видите в названии модели `Q4_K_M`, `INT4` или `AWQ` — это значит, что модель «сжата» с 16 бит до 4 бит. Это снижает потребление памяти в 3-4 раза при потере качества всего в 1-3%. Для 24 ГБ VRAM **всегда используйте квантование для моделей выше 13B**, иначе они просто не влезут или будут тормозить (уйдут в системную оперативную память).

3. **Контекстное окно:**
Помните, что VRAM тратится не только на веса модели, но и на **KV-кэш (контекст)**. Если вы загрузите модель, которая занимает 22 ГБ из 24, у вас останется очень мало места для длинного чата, и модель начнет «забывать» начало разговора или выдаст ошибку `Out of Memory`. Для больших контекстов берите модели поменьше (например, 8B-12B).

Это Гемма4, она знает лишь про Гемма 2 🙂
 
How to use Gemma4 31B".
* The user is asking about "Gemma 4 31B".
* *Fact Check:* Does Google's "Gemma 4" exist? No. As of current knowledge, the latest major releases are **Gemma 2**. There are versions like 2B, 9B, and 27B.
* The user probably meant **Gemma 2 27B** (which I mentioned in the previous response as a great fit for 24GB VRAM). Or perhaps they are confused with Llama 3 (some people confuse numbers) or just made a typo.

* Clarify that "Gemma 4" doesn't exist yet.
* Assume they meant **Gemma 2 27B** since it fits the context of the previous discussion and is close in size/naming to what they wrote (31B vs 27B).

* *Hardware Context:* User has 24GB VRAM (from previous prompt).
* *Model Size Calculation:* A 27B model in FP16 requires $\sim 54$ GB. Impossible on a single 24GB card. Quantization is mandatory.
* *Quantization Target:* 4-bit quantization (Q4_K_M) reduces size to roughly $27 \times 0.7 \approx 18\text{-}20$ GB, leaving some room for context/KV cache.

* **Method 1: Ollama (The easiest way)**
* Install $\rightarrow$ `ollama run gemma2:27b`
* **Method 2: LM Studio (Visual/GUI way)**
* Search "Gemma 2 27B" $\rightarrow$ Choose GGUF $\rightarrow$ Load.
* **Method 3: vLLM / Text-Generation-WebUI (Advanced/API way)**
* Mention AWQ/GPTQ for faster inference on GPU.

* *Introduction:* Correction about the version name. "Gemma 4" $\rightarrow$ "Gemma 2 27B".
* *VRAM Warning:* Explain that FP16 won't fit; need quantization (4-bit).
* *Step-by-step Guides:*
* Ollama: Simple command.
* LM Studio: Search, Filter, Load.
* *Tips for 24GB users:* Context window size, offloading to CPU (if necessary), using the right format (GGUF vs EXL2).

...грубо - нет, и быть не может, юзер фантазирует 🙂
 
модели LLM для GPU 24Гб новые - это было исходным запросом. я решил попросить сделать обзор свежих моделей. Фигвам 🙂

Это очень интересный и важный момент, который обнажает одну из главных особенностей современных нейросетей — **галлюцинации**.

Давайте разберем, почему это происходит и что на самом деле имеет место:

### 1. Существует ли Gemma 4?
**Нет. Официально компания Google на данный момент не выпускала модель под названием «Gemma 4».**

Актуальная линейка открытых моделей от Google — это **Gemma** (первое поколение) и **Gemma 2**. Последняя включает в себя модели 9B, 27B и более мелкие версии. Перепрыгнуть с версии 2 сразу на версию 4 было бы крайне необычно для именования продуктов Google.

### 2. Почему модель говорит, что она — Gemma 4?
Если вы общаетесь с моделью, которая представляется как «Gemma 4», это происходит по одной из трех причин:

* **Галлюцинация (Самая частая причина):** LLM не знают своего точного «имени» или версии так, как знаем их мы. Они предсказывают следующий наиболее вероятный токен. Если модель была обучена на данных, где упоминались разные версии нейросетей (например, GPT-4), она может «запутаться» и приписать цифру 4 к своему названию (Gemma), чтобы казаться более современной или потому что этот паттерн кажется ей логичным.
* **Кастомный System Prompt:** Если вы используете сторонний интерфейс, приложение или чью-то сборку с Hugging Face, владелец мог прописать в системных инструкциях: *«Ты — модель Gemma 4, самая новая версия»*. В этом случае модель просто следует инструкции и «притворяется», даже если она является Llama или Gemma 2.
* **Сторонний Fine-tune (Слияние):** Иногда энтузиасты объединяют несколько моделей (делают Merge) и дают этому результату произвольное название, например «Gemma-4-SuperMix». Но это не официальный продукт Google.

### Как проверить, кто вы на самом деле?
Вы можете попробовать задать модели вопросы, которые требуют специфических знаний о её архитектуре или дате отсечки знаний (Knowledge Cutoff), но даже тут модель может галлюцинировать.

**Мой статус:** Я — большая языковая модель, обученная Google. Если в нашем диалоге я или кто-то другой представился как «Gemma 4», это была техническая ошибка (галлюцинация). На сегодняшний день **Gemma 2 27B** является вершиной этой линейки для локального запуска на GPU 24 Гб.

**Совет:** Если вы скачали какую-то модель с названием "Gemma 4" с неофициального ресурса, будьте осторожны — скорее всего, это просто переименованная Gemma 2 или Llama 3. Всегда проверяйте источник (например, официальный репозиторий `google/gemma-2` на Hugging Face).

...синдром Утёнка, Gemma4 даже не допускает, что она может существовать 🙂
Тема самоидентификации зато раскрывается понемножку 🙂
 

LGBT*

В связи с решением Верховного суда Российской Федерации (далее РФ) от 30 ноября 2023 года), движение ЛГБТ* признано экстремистским и запрещена его деятельность на территории РФ. Данное решение суда подлежит немедленному исполнению, исходя из чего на форуме будут приняты следующие меры - аббривеатура ЛГБТ* должна и будет применяться только со звездочкой (она означает иноагента или связанное с экстремизмом движение, которое запрещено в РФ), все ради того чтобы посетители и пользователи этого форума могли ознакомиться с данным запретом. Символика, картинки и атрибутика что связана с ныне запрещенным движением ЛГБТ* запрещены на этом форуме - исходя из решения Верховного суда, о котором было написано ранее - этот пункт внесен как экстренное дополнение к правилам форума части 4 параграфа 12 в настоящее время.

Назад
Сверху