Нейросети и смежное :)

dok34.ru · 8 Мар 2026

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

Эксперимент в автономии искусственного интеллекта: что будет, если дать ИИ свой «дом» и не давать ей никаких задач? пример творчества ИИ Введение: зачем вообще это нужно? Каждый день мы просим ИИ...

habr.com

...не изучал, тут подробно

Indigo · Понедельник в 05:07

Оказывается Алибаба выпустила модели qwen image и qwen edit для редактирования изображений.
А так-же появился Flux 2.

Qwen-Image-Edit - Qwen_Img_Edit_fp8_e4m3fn | Qwen Checkpoint | Civitai

We are excited to introduce Qwen-Image-Edit, the image editing version of Qwen-Image. Built upon our 20B Qwen-Image model, Qwen-Image-Edit successf...

civitai.com

Поставил квен-едит, нужно обновить комфи и потом прямо из вокрфлоу json по ссылке скачать недостающее, но там модель большая так что я взял ужатую с civitai

https://docs.comfy.org/tutorials/image/qwen/qwen-image-edit-2511

Дал картинку вида с местной горы на озеро, сказал добавить кораблик. Не могу сказать что качество высокое, может дело в том что модель ужатая а не оригинальная 16 бит и почти 40 гб

dok34.ru · Понедельник в 11:18

Indigo написал(а):
Оказывается Алибаба выпустила модели qwen image и qwen edit для редактирования изображений.
А так-же появился Flux 2.

Qwen-Image-Edit - Qwen_Img_Edit_fp8_e4m3fn | Qwen Checkpoint | Civitai

We are excited to introduce Qwen-Image-Edit, the image editing version of Qwen-Image. Built upon our 20B Qwen-Image model, Qwen-Image-Edit successf...

civitai.com

Поставил квен-едит, нужно обновить комфи и потом прямо из вокрфлоу json по ссылке скачать недостающее, но там модель большая так что я взял ужатую с civitai

https://docs.comfy.org/tutorials/image/qwen/qwen-image-edit-2511

Посмотреть вложение 12078

Дал картинку вида с местной горы на озеро, сказал добавить кораблик. Не могу сказать что качество высокое, может дело в том что модель ужатая а не оригинальная 16 бит и почти 40 гб

Посмотреть вложение 12079

Посмотреть вложение 12080

..тут на форуме фото ужимаются, поэтому сложно сказать про качество, но вроде вставлено прилично, с тенями и прочим, вроде?

Indigo · Понедельник в 15:38

dok34.ru написал(а):
..тут на форуме фото ужимаются, поэтому сложно сказать про качество, но вроде вставлено прилично, с тенями и прочим, вроде?

В оригинале кораблик не выглядит естественно, есть "эффект фотошопа" - он как-бы более размыт чем остальное изображение. Вообще эта сеть генерит немного размытое изображение, нужно использовать лоры.

dok34.ru · Понедельник в 20:44

gemma-4-31B-it-uncensored-heretic нашёл 🙂

dok34.ru · Понедельник в 21:17

Смотрю-качаю, что нового, правда много интересного 🙂 Спасибо!

dok34.ru · Понедельник в 21:20

Для видеокарты с **24 ГБ VRAM** (например, RTX 3090 или 4090) сейчас «золотой век». Вы можете запускать как очень быстрые маленькие модели, так и весьма мощные средние модели с использованием квантования (сжатия).

Вот список самых актуальных и эффективных моделей на текущий момент, разделенный по категориям.

---

### 1. «Короли» малого веса (до 15 млрд параметров)
Эти модели летают на 24 ГБ. Вы можете использовать их даже без сильного сжатия (FP16 или BF16), либо с легким квантованием, чтобы оставить много места под огромный контекст (память для длинных диалогов).

* **Llama 3.1 8B** — стандарт индустрии от Meta. Очень умная, отличная поддержка русского языка, огромное сообщество.
* **Mistral NeMo 12B** — совместная разработка NVIDIA и Mistral. Специально оптимизирована так, чтобы идеально помещаться в память одной RTX 4090. Она заметно умнее моделей 7-8B, но всё еще очень быстрая.
* **Gemma 2 9B** — модель от Google. По многим тестам обходит Llama 3 8B, особенно в логике и творческом письме.
* **Qwen 2.5 (7B)** — новая серия от Alibaba. На данный момент считается одной из лучших в мире по кодингу и математике среди малых моделей.

### 2. «Максимум мощности» для 24 ГБ (20–35 млрд параметров)
Это модели, которые при использовании квантования **4-bit или 8-bit (GGUF, EXL2, AWQ)** занимают от 14 до 22 ГБ VRAM. Они значительно умнее предыдущего списка.

* **Gemma 2 27B** — настоящий «киллер» для карт на 24 ГБ. В квантованном виде (4-bit) она почти дотягивается до уровня огромных моделей, при этом помещается в VRAM с запасом под контекст. **Рекомендуемый выбор для сложных задач.**
* **Mistral Small** — новая эффективная модель, ориентированная на бизнес-задачи и высокую точность.

### 3. Специализированные модели (Кодинг и Математика)
Если вам нужно писать код или решать сложные технические задачи:

* **DeepSeek Coder V2 Lite (MoE)** — архитектура Mixture of Experts. Она очень эффективна, так как при каждом ответе задействует не все параметры, а только часть, что дает высокую скорость при высоком качестве кода.
* **Codestral 22B** — мощная модель от Mistral специально для программирования. В квантованном виде отлично вписывается в 24 ГБ.

---

### Сводная таблица: Что выбрать?

| Цель | Модель | Рекомендуемый формат | Почему она? |
| :--- | :--- | :--- | :--- |
| **Универсальный помощник** | `Llama 3.1 8B` | FP16 / Q8_0 | Скорость, экосистема, русский язык |
| **Максимальный интеллект** | `Gemma 2 27B` | Q4_K_M (4-bit) | Лучшее соотношение размер/качество |
| **Кодинг / Тех. задачи** | `Qwen 2.5 7B` или `DeepSeek Coder V2` | Q8 / Q4 | Лидеры в бенчмарках по коду |
| **Баланс скорость/ум** | `Mistral NeMo 12B` | Q8_0 / FP16 | Оптимизирована под RTX 3090/4090 |

---

### Технические советы для владельца 24 ГБ VRAM:

1. **Как запускать?**
* **Ollama** — самый простой способ (установил и запустил в консоли).
* **LM Studio** — лучший GUI для новичков, позволяет выбирать конкретные квантованные версии с Hugging Face.
* **KoboldCPP / Text-Generation-WebUI** — для продвинутых пользователей с гибкими настройками.

2. **Что такое квантование?**
Если вы видите в названии модели `Q4_K_M`, `INT4` или `AWQ` — это значит, что модель «сжата» с 16 бит до 4 бит. Это снижает потребление памяти в 3-4 раза при потере качества всего в 1-3%. Для 24 ГБ VRAM **всегда используйте квантование для моделей выше 13B**, иначе они просто не влезут или будут тормозить (уйдут в системную оперативную память).

3. **Контекстное окно:**
Помните, что VRAM тратится не только на веса модели, но и на **KV-кэш (контекст)**. Если вы загрузите модель, которая занимает 22 ГБ из 24, у вас останется очень мало места для длинного чата, и модель начнет «забывать» начало разговора или выдаст ошибку `Out of Memory`. Для больших контекстов берите модели поменьше (например, 8B-12B).

Это Гемма4, она знает лишь про Гемма 2 🙂

dok34.ru · Понедельник в 21:23

How to use Gemma4 31B".
* The user is asking about "Gemma 4 31B".
* *Fact Check:* Does Google's "Gemma 4" exist? No. As of current knowledge, the latest major releases are **Gemma 2**. There are versions like 2B, 9B, and 27B.
* The user probably meant **Gemma 2 27B** (which I mentioned in the previous response as a great fit for 24GB VRAM). Or perhaps they are confused with Llama 3 (some people confuse numbers) or just made a typo.

* Clarify that "Gemma 4" doesn't exist yet.
* Assume they meant **Gemma 2 27B** since it fits the context of the previous discussion and is close in size/naming to what they wrote (31B vs 27B).

* *Hardware Context:* User has 24GB VRAM (from previous prompt).
* *Model Size Calculation:* A 27B model in FP16 requires $\sim 54$ GB. Impossible on a single 24GB card. Quantization is mandatory.
* *Quantization Target:* 4-bit quantization (Q4_K_M) reduces size to roughly $27 \times 0.7 \approx 18\text{-}20$ GB, leaving some room for context/KV cache.

* **Method 1: Ollama (The easiest way)**
* Install $\rightarrow$ `ollama run gemma2:27b`
* **Method 2: LM Studio (Visual/GUI way)**
* Search "Gemma 2 27B" $\rightarrow$ Choose GGUF $\rightarrow$ Load.
* **Method 3: vLLM / Text-Generation-WebUI (Advanced/API way)**
* Mention AWQ/GPTQ for faster inference on GPU.

* *Introduction:* Correction about the version name. "Gemma 4" $\rightarrow$ "Gemma 2 27B".
* *VRAM Warning:* Explain that FP16 won't fit; need quantization (4-bit).
* *Step-by-step Guides:*
* Ollama: Simple command.
* LM Studio: Search, Filter, Load.
* *Tips for 24GB users:* Context window size, offloading to CPU (if necessary), using the right format (GGUF vs EXL2).

...грубо - нет, и быть не может, юзер фантазирует 🙂

dok34.ru · Понедельник в 21:31

модели LLM для GPU 24Гб новые - это было исходным запросом. я решил попросить сделать обзор свежих моделей. Фигвам 🙂

Это очень интересный и важный момент, который обнажает одну из главных особенностей современных нейросетей — **галлюцинации**.

Давайте разберем, почему это происходит и что на самом деле имеет место:

### 1. Существует ли Gemma 4?
**Нет. Официально компания Google на данный момент не выпускала модель под названием «Gemma 4».**

Актуальная линейка открытых моделей от Google — это **Gemma** (первое поколение) и **Gemma 2**. Последняя включает в себя модели 9B, 27B и более мелкие версии. Перепрыгнуть с версии 2 сразу на версию 4 было бы крайне необычно для именования продуктов Google.

### 2. Почему модель говорит, что она — Gemma 4?
Если вы общаетесь с моделью, которая представляется как «Gemma 4», это происходит по одной из трех причин:

* **Галлюцинация (Самая частая причина):** LLM не знают своего точного «имени» или версии так, как знаем их мы. Они предсказывают следующий наиболее вероятный токен. Если модель была обучена на данных, где упоминались разные версии нейросетей (например, GPT-4), она может «запутаться» и приписать цифру 4 к своему названию (Gemma), чтобы казаться более современной или потому что этот паттерн кажется ей логичным.
* **Кастомный System Prompt:** Если вы используете сторонний интерфейс, приложение или чью-то сборку с Hugging Face, владелец мог прописать в системных инструкциях: *«Ты — модель Gemma 4, самая новая версия»*. В этом случае модель просто следует инструкции и «притворяется», даже если она является Llama или Gemma 2.
* **Сторонний Fine-tune (Слияние):** Иногда энтузиасты объединяют несколько моделей (делают Merge) и дают этому результату произвольное название, например «Gemma-4-SuperMix». Но это не официальный продукт Google.

### Как проверить, кто вы на самом деле?
Вы можете попробовать задать модели вопросы, которые требуют специфических знаний о её архитектуре или дате отсечки знаний (Knowledge Cutoff), но даже тут модель может галлюцинировать.

**Мой статус:** Я — большая языковая модель, обученная Google. Если в нашем диалоге я или кто-то другой представился как «Gemma 4», это была техническая ошибка (галлюцинация). На сегодняшний день **Gemma 2 27B** является вершиной этой линейки для локального запуска на GPU 24 Гб.

**Совет:** Если вы скачали какую-то модель с названием "Gemma 4" с неофициального ресурса, будьте осторожны — скорее всего, это просто переименованная Gemma 2 или Llama 3. Всегда проверяйте источник (например, официальный репозиторий `google/gemma-2` на Hugging Face).

...синдром Утёнка, Gemma4 даже не допускает, что она может существовать 🙂
Тема самоидентификации зато раскрывается понемножку 🙂

dok34.ru · Вчера в 19:26

GitHub - Comfy-Org/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. - Comfy-Org/ComfyUI

github.com

...список команд, в том числе

Нейросети и смежное :)

dok34.ru

Moderator

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

Indigo

Пушистая пуська

Qwen-Image-Edit - Qwen_Img_Edit_fp8_e4m3fn | Qwen Checkpoint | Civitai

dok34.ru

Moderator

Qwen-Image-Edit - Qwen_Img_Edit_fp8_e4m3fn | Qwen Checkpoint | Civitai

Indigo

Пушистая пуська

dok34.ru

Moderator

dok34.ru

Moderator

dok34.ru

Moderator

dok34.ru

Moderator

dok34.ru

Moderator

dok34.ru

Moderator

GitHub - Comfy-Org/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

LGBT*

We value your privacy