Нейросети и смежное :)

dok34.ru · 14 Авг 2025

Indigo написал(а):
У вас должны хорошо работать чат и гемма 27b. Так-же хорошая сеть qwen3, тоже думающая как и чат (гемма оказывается нет, отсюда наверно и странные траблы в переводе время от времени). Думающая сеть перед переводом анализирует текст, а потом начинает переводить. -

Гемма стоит без Олламы, сейчас как раз Оллама обновилась, пробую.
А чат - что имеете в виду?
ChatGPT вроде нет локальных, или есть???!

Indigo · 14 Авг 2025

dok34.ru написал(а):
Попрбую Qwen3‑30B сейчас, качаю

Да, я как раз скриншот сделал

dok34.ru · 14 Авг 2025

Indigo написал(а):
qwen3

Qwen3 is the latest generation of large language models in Qwen series, offering a comprehensive suite of dense and mixture-of-experts (MoE) models.

ollama.com

Посмотреть вложение 10522

Да. 80% скачалось, норм.

dok34.ru · 14 Авг 2025

Indigo написал(а):
Да, я как раз скриншот сделал

Вижу, спасибо! Я прямо из Олламы выбирал, навскидку 🙂
Что не пробовал пока 🙂

Indigo · 14 Авг 2025

dok34.ru написал(а):
Гемма стоит без Олламы, сейчас как раз Оллама обновилась, пробую.
А чат - что имеете в виду?
ChatGPT вроде нет локальных, или есть???!

Если я не путаю, то вот

gpt-oss

OpenAI’s open-weight models designed for powerful reasoning, agentic tasks, and versatile developer use cases.

ollama.com

Он на 20 и 120 миллиардов параметров, вывод текста (форматирование) выглядит очень похожим на чат. 20 миллиардов даже на моей 12гб запускается но медленно (переводил текст минуты три и перевел не все).

Indigo · 14 Авг 2025

То есть это опенсорс от OpenAI - разработчика чата.

dok34.ru · 14 Авг 2025

Indigo написал(а):
Посмотреть вложение 10523

То есть это опенсорс от OpenAI - разработчика чата.

О, спасибо!!!
20б наверное можно
:))

dok34.ru · 14 Авг 2025

Для вашего компьютера с 24 ГБ VRAM и 64 ГБ ОЗУ оптимальны квантованные (4-битные) языковые модели (LLM), которые эффективно используют ресурсы и работают без перегрузки памяти. Вот рекомендации:

Рекомендуемые модели (4-битное квантование)
Модель
Размер
Требуемая VRAM
Особенности
Llama 3 8B
8B
~10–12 ГБ
Лучший баланс между производительностью и качеством. Подходит для большинства задач (генерация текста, ответы на вопросы).
Mistral 7B
7B
~8–10 ГБ
Высокая эффективность, быстрая обработка. Идеален для задач с низким потреблением ресурсов.
Mixtral 8x7B
56B*
~20–25 ГБ
Mixture of Experts (MoE) — более мощная, но требует 24 ГБ VRAM на пределе. Хорошо подходит для сложных задач.
Qwen 7B
7B
~8–10 ГБ
Отличная поддержка русского языка, оптимизирована для локального использования.
Примечание:
Mixtral 8x7B — это 56B параметров, но благодаря MoE и квантованию он помещается в 24 ГБ. Однако скорость будет ниже, чем у 7B–8B моделей.
Не рекомендуется модели >13B (например, Llama 3 70B) — они требуют >30 ГБ VRAM даже в 4-битном виде.

Инструменты для запуска
Ollama
Простой интерфейс, поддержка автоматической загрузки квантованных моделей.
Пример: ollama run llama3:8b или ollama run mistral:7b.
Плюс: Автоматическая оптимизация под вашу систему.
LM Studio
Графический интерфейс для загрузки моделей в формате GGUF (4-битное квантование).
Поддерживает все рекомендованные модели.
Плюс: Возможность настраивать параметры (например, threads, batch size).
Llama.cpp
Для продвинутых пользователей.
Удобен для ручной настройки квантования (например, Q4_K_M для баланса скорости и качества).

Советы для оптимизации
Используйте 4-битное квантование (Q4_K_M, Q4_0), чтобы сэкономить VRAM.
Пример: Qwen-7B-Chat-Q4_K_M.gguf (доступен на Hugging Face).
Не используйте 16-битные версии — они потребуют 2–3× больше VRAM.
Для Mixtral 8x7B настройте num_experts_chosen=2 (в Llama.cpp), чтобы снизить нагрузку.
Проверяйте потребление VRAM через nvidia-smi (Linux) или Task Manager (Windows).

Чего избегать
Llama 3 70B, Qwen 72B — требуют >35 ГБ VRAM.
Модели >13B без квантования — перегрузят память.
Генерация изображений (Stable Diffusion и т.д.) — не оптимальны для вашей конфигурации (требуют 12–16 ГБ VRAM на саму модель + 8–10 ГБ на текстовые токены).

Сравнение производительности (пример)
Модель
Время генерации (100 токенов)
Требуемая VRAM
Mistral 7B
~1.5 сек
~10 ГБ
Llama 3 8B
~2 сек
~12 ГБ
Mixtral 8x7B
~4 сек
~22 ГБ

Где взять модели?
Hugging Face (поиск по GGUF):
Пример: Llama 3 8B GGUF.
Ollama Hub:
Автоматическая загрузка через ollama pull (например, ollama pull mistral).

Итог
Лучший выбор для вас:
Ежедневные задачи → Mistral 7B (быстро, легко, 8–10 ГБ VRAM).
Сложные запросы → Llama 3 8B (качество выше, 10–12 ГБ).
Максимальная мощность → Mixtral 8x7B (20–25 ГБ, но на пределе).
Все модели легко запустятся через Ollama или LM Studio без перегрузки системы. Для начала рекомендую Mistral 7B — он оптимален для вашей конфигурации.

Indigo · 14 Авг 2025

dok34.ru написал(а):
Для вашего компьютера с 24 ГБ VRAM и 64 ГБ ОЗУ оптимальны квантованные (4-битные) языковые модели (LLM), которые эффективно используют ресурсы и работают без перегрузки памяти. Вот рекомендации:

В реальности все лучше чем советуют, для 24 гиг можно и помощьнее, в общем, это чисто пробовать надо.

dok34.ru · 14 Авг 2025

Indigo написал(а):
В реальности все лучше чем советуют, для 24 гиг можно и помощьнее, в общем, это чисто пробовать надо.

Ага, уже 🙂
Давно не запускал как-то, подзабыл малость 🙂
Спасибо, что меня расшевелили! Кайфую уже :))

Нейросети и смежное :)

dok34.ru

Moderator

Indigo

Пушистая пуська

dok34.ru

Moderator

qwen3

dok34.ru

Moderator

Indigo

Пушистая пуська

gpt-oss

Indigo

Пушистая пуська

dok34.ru

Moderator

dok34.ru

Moderator

Indigo

Пушистая пуська

dok34.ru

Moderator

LGBT*

We value your privacy