Для видеокарты с **24 ГБ VRAM** (например, RTX 3090 или 4090) сейчас «золотой век». Вы можете запускать как очень быстрые маленькие модели, так и весьма мощные средние модели с использованием квантования (сжатия).
Вот список самых актуальных и эффективных моделей на текущий момент, разделенный по категориям.
---
### 1. «Короли» малого веса (до 15 млрд параметров)
Эти модели летают на 24 ГБ. Вы можете использовать их даже без сильного сжатия (FP16 или BF16), либо с легким квантованием, чтобы оставить много места под огромный контекст (память для длинных диалогов).
* **Llama 3.1 8B** — стандарт индустрии от Meta. Очень умная, отличная поддержка русского языка, огромное сообщество.
* **Mistral NeMo 12B** — совместная разработка NVIDIA и Mistral. Специально оптимизирована так, чтобы идеально помещаться в память одной RTX 4090. Она заметно умнее моделей 7-8B, но всё еще очень быстрая.
* **Gemma 2 9B** — модель от Google. По многим тестам обходит Llama 3 8B, особенно в логике и творческом письме.
* **Qwen 2.5 (7B)** — новая серия от Alibaba. На данный момент считается одной из лучших в мире по кодингу и математике среди малых моделей.
### 2. «Максимум мощности» для 24 ГБ (20–35 млрд параметров)
Это модели, которые при использовании квантования **4-bit или 8-bit (GGUF, EXL2, AWQ)** занимают от 14 до 22 ГБ VRAM. Они значительно умнее предыдущего списка.
* **Gemma 2 27B** — настоящий «киллер» для карт на 24 ГБ. В квантованном виде (4-bit) она почти дотягивается до уровня огромных моделей, при этом помещается в VRAM с запасом под контекст. **Рекомендуемый выбор для сложных задач.**
* **Mistral Small** — новая эффективная модель, ориентированная на бизнес-задачи и высокую точность.
### 3. Специализированные модели (Кодинг и Математика)
Если вам нужно писать код или решать сложные технические задачи:
* **DeepSeek Coder V2 Lite (MoE)** — архитектура Mixture of Experts. Она очень эффективна, так как при каждом ответе задействует не все параметры, а только часть, что дает высокую скорость при высоком качестве кода.
* **Codestral 22B** — мощная модель от Mistral специально для программирования. В квантованном виде отлично вписывается в 24 ГБ.
---
### Сводная таблица: Что выбрать?
| Цель | Модель | Рекомендуемый формат | Почему она? |
| :--- | :--- | :--- | :--- |
| **Универсальный помощник** | `Llama 3.1 8B` | FP16 / Q8_0 | Скорость, экосистема, русский язык |
| **Максимальный интеллект** | `Gemma 2 27B` | Q4_K_M (4-bit) | Лучшее соотношение размер/качество |
| **Кодинг / Тех. задачи** | `Qwen 2.5 7B` или `DeepSeek Coder V2` | Q8 / Q4 | Лидеры в бенчмарках по коду |
| **Баланс скорость/ум** | `Mistral NeMo 12B` | Q8_0 / FP16 | Оптимизирована под RTX 3090/4090 |
---
### Технические советы для владельца 24 ГБ VRAM:
1. **Как запускать?**
* **Ollama** — самый простой способ (установил и запустил в консоли).
* **LM Studio** — лучший GUI для новичков, позволяет выбирать конкретные квантованные версии с Hugging Face.
* **KoboldCPP / Text-Generation-WebUI** — для продвинутых пользователей с гибкими настройками.
2. **Что такое квантование?**
Если вы видите в названии модели `Q4_K_M`, `INT4` или `AWQ` — это значит, что модель «сжата» с 16 бит до 4 бит. Это снижает потребление памяти в 3-4 раза при потере качества всего в 1-3%. Для 24 ГБ VRAM **всегда используйте квантование для моделей выше 13B**, иначе они просто не влезут или будут тормозить (уйдут в системную оперативную память).
3. **Контекстное окно:**
Помните, что VRAM тратится не только на веса модели, но и на **KV-кэш (контекст)**. Если вы загрузите модель, которая занимает 22 ГБ из 24, у вас останется очень мало места для длинного чата, и модель начнет «забывать» начало разговора или выдаст ошибку `Out of Memory`. Для больших контекстов берите модели поменьше (например, 8B-12B).
Это Гемма4, она знает лишь про Гемма 2 🙂