• Внимание, на некоторое время вводится премодерация новичков.

Нейросети и смежное :)

Какие самые подходящие модели для локального компьютера с 24 гб VRAM, ранжируй по дате выпуска модели и по другим значимым параметрам
edit
Thought for 143.7 seconds



































































Вот список самых подходящих моделей для локального запуска на компьютере с 24 ГБ VRAM, ранжированный по дате выпуска и ключевым параметрам (качество, эффективность, поддержка, оптимизация под локальные ресурсы). Модели оптимизированы под 4-битное квантование (GPTQ/AWQ), что позволяет уместиться в лимит 24 ГБ.

Ранжирование по дате выпуска и ключевым параметрам
Модель Год выпуска Размер (параметры) Требуемая VRAM (4-bit) Качество Особенности Рекомендация
Llama 3 70B 2024 70B ~20–24 ГБ ***** Новая, лучшая в классе (код, диалоги, мультиязычность). Оптимизирована для локального запуска с квантованием. Поддержка llama.cpp, GPTQ. Лучший выбор
Qwen2 72B 2024 72B ~22–25 ГБ **** От Alibaba, хорошая поддержка китайского языка и специфических задач. Менее тестируется в западном сообществе. Второй выбор
Mixtral 8x7B 2023 56B (MoE) ~15–18 ГБ *** MoE-архитектура (Mixture of Experts) — эффективнее использует ресурсы. Быстрее Llama 3 70B, но качество чуть ниже. Хорошая альтернатива
Llama 2 70B 2023 70B ~20–24 ГБ *** Старая модель, но проверена. Нет поддержки новых функций (код, мультимодальность). Для базовых задач
Ключевые пояснения
Llama 3 70B (2024)

Почему лучший? Новая, самая продвинутая модель от Meta. Подходит для сложных задач (код, анализ текста, диалоги).
Ограничения: Требует точного квантования (GPTQ/AWQ), иначе выйдет за 24 ГБ.
Инструменты: llama.cpp, text-generation-webui, GPTQ.
Qwen2 72B (2024)

Почему не первый? Хорошо оптимизирована, но менее популярна в западном сообществе. Подходит для задач на китайском языке.
Ограничения: Требует ~22–25 ГБ, что близко к пределу (24 ГБ). Может быть нестабильной на некоторых конфигурациях.
Mixtral 8x7B (2023)

Почему эффективна? MoE-архитектура снижает потребление памяти. Легко вписывается в 24 ГБ.
Ограничения: Качество немного ниже, чем у Llama 3 70B. Подходит для быстрых задач (например, генерация текста без глубокого анализа).
Llama 2 70B (2023)

Почему не рекомендуется? Старая, не поддерживает современные функции (код, мультимодальность). Используется только для базовых задач.
Советы по запуску
Инструменты: Используйте llama.cpp (для CPU/GPU) или GPTQ (для GPU).
Квантование: Всегда используйте 4-битное квантование (например, GPTQ-4bit), иначе модели не поместятся в 24 ГБ.
Проверка: Для Llama 3 70B и Qwen2 72B убедитесь, что используется правильная версия квантования (например, Q4_K_M в llama.cpp).
Пример конфигурации:
./main -m llama3-70b.Q4_K_M.gguf -n 512 --temp 0.7
Почему другие модели не подходят?
Falcon 40B/180B: Требуют >24 ГБ даже с квантованием.
Mistral 7B: Слишком мала для 24 ГБ (можно запустить, но не оптимально).
Phi-3/4: Новые, но не опубликованы для локального запуска.
Итог
Лучший выбор: Llama 3 70B (2024) — новейшая, качественная, оптимизированная под локальный запуск.
Второй выбор: Qwen2 72B (2024) — если нужна поддержка китайского языка.
Альтернатива: Mixtral 8x7B (2023) — для быстрого запуска с меньшим потреблением памяти.

Примечание: Убедитесь, что ваша видеокарта (например, RTX 4090 с 24 ГБ) поддерживает квантование. Для Llama 3 70B рекомендуется использовать GPTQ или AWQ для максимальной производительности.
...коротко - модель не знает про то, что сделано недавно, и пытается сорри словоблудием это замаскировать 🙂 То есть - я спрашиваю насчёт Qwen3:30, которую выбрал вчера, а мне говорят, что такой модели не существует, и предлагает qwen 2 разные варианты 🙂
 
Поставил LM Studio и выяснил что она может использовать память компа для нейросети, то есть может запускать сеть большую чем память видеоплаты. (т.е. дает мне 64+12 гб памяти для запуска сети). Потом там есть опции перенести часть обработки на процессор (экспериментальная опция, но можно попробовать, он у меня с 24 потоками, 12 ядер) Для сравнения с олламой поставил тот-же чат gpt-oss 20b который у меня еле ползал на олламе, и он заработал с приличной скоростью, правда есть вопрос насчет контекстного окна - оно заполнилось слишком быстро.
 
Поставил LM Studio и выяснил что она может использовать память компа для нейросети, то есть может запускать сеть большую чем память видеоплаты. (т.е. дает мне 64+12 гб памяти для запуска сети). Потом там есть опции перенести часть обработки на процессор (экспериментальная опция, но можно попробовать, он у меня с 24 потоками, 12 ядер) Для сравнения с олламой поставил тот-же чат gpt-oss 20b который у меня еле ползал на олламе, и он заработал с приличной скоростью, правда есть вопрос насчет контекстного окна - оно заполнилось слишком быстро.
Там и настроек побольше, не только в командной строке
:))

Мне тоже понравилась 🙂
 

LGBT*

В связи с решением Верховного суда Российской Федерации (далее РФ) от 30 ноября 2023 года), движение ЛГБТ* признано экстремистским и запрещена его деятельность на территории РФ. Данное решение суда подлежит немедленному исполнению, исходя из чего на форуме будут приняты следующие меры - аббривеатура ЛГБТ* должна и будет применяться только со звездочкой (она означает иноагента или связанное с экстремизмом движение, которое запрещено в РФ), все ради того чтобы посетители и пользователи этого форума могли ознакомиться с данным запретом. Символика, картинки и атрибутика что связана с ныне запрещенным движением ЛГБТ* запрещены на этом форуме - исходя из решения Верховного суда, о котором было написано ранее - этот пункт внесен как экстренное дополнение к правилам форума части 4 параграфа 12 в настоящее время.

Назад
Сверху