• Внимание, на некоторое время вводится премодерация новичков.

Нейросети и смежное :)

У вас должны хорошо работать чат и гемма 27b. Так-же хорошая сеть qwen3, тоже думающая как и чат (гемма оказывается нет, отсюда наверно и странные траблы в переводе время от времени). Думающая сеть перед переводом анализирует текст, а потом начинает переводить. -
Гемма стоит без Олламы, сейчас как раз Оллама обновилась, пробую.
А чат - что имеете в виду?
ChatGPT вроде нет локальных, или есть???!
 
Гемма стоит без Олламы, сейчас как раз Оллама обновилась, пробую.
А чат - что имеете в виду?
ChatGPT вроде нет локальных, или есть???!
Если я не путаю, то вот


Он на 20 и 120 миллиардов параметров, вывод текста (форматирование) выглядит очень похожим на чат. 20 миллиардов даже на моей 12гб запускается но медленно (переводил текст минуты три и перевел не все).
 
1755194596507.webp

То есть это опенсорс от OpenAI - разработчика чата.
 
Для вашего компьютера с 24 ГБ VRAM и 64 ГБ ОЗУ оптимальны квантованные (4-битные) языковые модели (LLM), которые эффективно используют ресурсы и работают без перегрузки памяти. Вот рекомендации:

Рекомендуемые модели (4-битное квантование)
Модель
Размер
Требуемая VRAM
Особенности
Llama 3 8B
8B
~10–12 ГБ
Лучший баланс между производительностью и качеством. Подходит для большинства задач (генерация текста, ответы на вопросы).
Mistral 7B
7B
~8–10 ГБ
Высокая эффективность, быстрая обработка. Идеален для задач с низким потреблением ресурсов.
Mixtral 8x7B
56B*
~20–25 ГБ
Mixture of Experts (MoE) — более мощная, но требует 24 ГБ VRAM на пределе. Хорошо подходит для сложных задач.
Qwen 7B
7B
~8–10 ГБ
Отличная поддержка русского языка, оптимизирована для локального использования.
Примечание:
Mixtral 8x7B — это 56B параметров, но благодаря MoE и квантованию он помещается в 24 ГБ. Однако скорость будет ниже, чем у 7B–8B моделей.
Не рекомендуется модели >13B (например, Llama 3 70B) — они требуют >30 ГБ VRAM даже в 4-битном виде.

Инструменты для запуска
Ollama
Простой интерфейс, поддержка автоматической загрузки квантованных моделей.
Пример: ollama run llama3:8b или ollama run mistral:7b.
Плюс: Автоматическая оптимизация под вашу систему.
LM Studio
Графический интерфейс для загрузки моделей в формате GGUF (4-битное квантование).
Поддерживает все рекомендованные модели.
Плюс: Возможность настраивать параметры (например, threads, batch size).
Llama.cpp
Для продвинутых пользователей.
Удобен для ручной настройки квантования (например, Q4_K_M для баланса скорости и качества).

Советы для оптимизации
Используйте 4-битное квантование (Q4_K_M, Q4_0), чтобы сэкономить VRAM.
Пример: Qwen-7B-Chat-Q4_K_M.gguf (доступен на Hugging Face).
Не используйте 16-битные версии — они потребуют 2–3× больше VRAM.
Для Mixtral 8x7B настройте num_experts_chosen=2 (в Llama.cpp), чтобы снизить нагрузку.
Проверяйте потребление VRAM через nvidia-smi (Linux) или Task Manager (Windows).

Чего избегать
Llama 3 70B, Qwen 72B — требуют >35 ГБ VRAM.
Модели >13B без квантования — перегрузят память.
Генерация изображений (Stable Diffusion и т.д.) — не оптимальны для вашей конфигурации (требуют 12–16 ГБ VRAM на саму модель + 8–10 ГБ на текстовые токены).

Сравнение производительности (пример)
Модель
Время генерации (100 токенов)
Требуемая VRAM
Mistral 7B
~1.5 сек
~10 ГБ
Llama 3 8B
~2 сек
~12 ГБ
Mixtral 8x7B
~4 сек
~22 ГБ

Где взять модели?
Hugging Face (поиск по GGUF):
Пример: Llama 3 8B GGUF.
Ollama Hub:
Автоматическая загрузка через ollama pull (например, ollama pull mistral).

Итог
Лучший выбор для вас:
Ежедневные задачи → Mistral 7B (быстро, легко, 8–10 ГБ VRAM).
Сложные запросы → Llama 3 8B (качество выше, 10–12 ГБ).
Максимальная мощность → Mixtral 8x7B (20–25 ГБ, но на пределе).
Все модели легко запустятся через Ollama или LM Studio без перегрузки системы. Для начала рекомендую Mistral 7B — он оптимален для вашей конфигурации.
 
Для вашего компьютера с 24 ГБ VRAM и 64 ГБ ОЗУ оптимальны квантованные (4-битные) языковые модели (LLM), которые эффективно используют ресурсы и работают без перегрузки памяти. Вот рекомендации:
В реальности все лучше чем советуют, для 24 гиг можно и помощьнее, в общем, это чисто пробовать надо.
 
В реальности все лучше чем советуют, для 24 гиг можно и помощьнее, в общем, это чисто пробовать надо.
Ага, уже 🙂
Давно не запускал как-то, подзабыл малость 🙂
Спасибо, что меня расшевелили! Кайфую уже :))
 

LGBT*

В связи с решением Верховного суда Российской Федерации (далее РФ) от 30 ноября 2023 года), движение ЛГБТ* признано экстремистским и запрещена его деятельность на территории РФ. Данное решение суда подлежит немедленному исполнению, исходя из чего на форуме будут приняты следующие меры - аббривеатура ЛГБТ* должна и будет применяться только со звездочкой (она означает иноагента или связанное с экстремизмом движение, которое запрещено в РФ), все ради того чтобы посетители и пользователи этого форума могли ознакомиться с данным запретом. Символика, картинки и атрибутика что связана с ныне запрещенным движением ЛГБТ* запрещены на этом форуме - исходя из решения Верховного суда, о котором было написано ранее - этот пункт внесен как экстренное дополнение к правилам форума части 4 параграфа 12 в настоящее время.

Назад
Сверху