Нейросети и смежное :)

Она не рисует мальчиков - только если явно говоришь и в ней есть этот персонаж. В этих сетях 85% треннингового материала - девочки. Поэтому чаще всего нужно лору (модификатор) подключать.
А без лоры - говоришь мальчик- рисует девочку.
..."у нас в семье только девочки!"🙂
Нередко такие заявления бывают 🙂
Как бы искренние, но явно без ..."подумала, а чего это так, мужчины не уживаются у нас"🙂
 
"У Google вышло очень занятное исследование: они сравнили, как LLM и человеческий мозг обрабатывают язык

В качестве LM взяли Whisper, а нейронную активность человека записывали с помощью интракраниальных электродов во время спонтанных разговоров. Затем векторы эмбеддингов модельки наложили на векторы паттернов мозга и оценили линейную зависимость. Вот что получилось:

➖ Соответствие удивительно четкое и геометрия эмбеддингов в LLM (то есть отношения между словами в embedding-пространстве) соотносится с представлениями в мозге.

➖ Во время слушания Speech-эмбеддинги явно коррелируют с активностью в слуховой коре (верхняя височная извилина), затем language-эмбеддинги коррелируют с активностью в зоне Брока (нижняя лобная извилина).

➖ Во время говорения – наоборот. Language-эмбеддинги сначала "активируются" в зоне Брока (планирование высказывания), затем speech-эмбеддинги активируются в моторной коре (непосредственно говорение), и в конце снова в слуховой коре при восприятии собственной речи.

Это удивительно, потому что технически мозг и LLM используют разные подходы. Да, и там и там нейроны, но в науке принято считать, что мозг "использует" символьный подход, то есть полагается на четкие семанические структуры, синтаксис и иерархию слов. В модельках такого нет, они понимают язык статистически.

И все-таки получается, что обычный next token prediction оказывается очень похож на реальный нейронный код, и мы неожиданно близко подобрались к моделированию мозга.

Использованные источники:
Deciphering language processing in the human brain through LLM representations"
 
И все-таки получается, что обычный next token prediction оказывается очень похож на реальный нейронный код, и мы неожиданно близко подобрались к моделированию мозга.

Похожие задачи в похожих условиях дают похожие решения. Так, и рыба и морские млекопитающие имеют похожую форму тела и так далее.
 
Похожие задачи в похожих условиях дают похожие решения. Так, и рыба и морские млекопитающие имеют похожую форму тела и так далее.
Это да.
Просто были высказывания, что это вообще иначе, по разному устроено 🙂
 
Dalle подключили к чату жпт, теперь прямо из промпта чата генерит картинки -

DALL·E 2025-03-27 19.43.06 - A young anime-style girl with long flowing hair, wearing a short ...jpg
 

"Выбирай самого толстого и крикливого

spacer.gif
spacer.gif
Хищные слоны.jpg

Плакат для экопарка «Цепкий хобот» нейросеть нарисовала точно по моему описанию, за один раз. Лучше живого художника, так как кожаный художник десять раз переспросил бы, потом позвонил бы голосом, потом бы всё равно что-нибудь напутал, а потом недовольно сопел бы в ответ на мою терпеливую реплику «сделайте, пожалуйста, так, как написано в техническом задании». Кстати, последний раз, когда мне надо было нарисовать нечто подобное, у меня был бюджет в 100 тысяч рублей, и… я не смог найти исполнителя: двое художников-фрилансеров нужного мне уровня вначале взяли было заказ, но потом по очереди кормили меня завтраками на протяжении двух-трёх месяцев, так что в итоге я потерял терпение, и задача ушла в архив.

На днях случилось нечто тектоническое. Гугловская нейросеть «Джемини 2.5 Про» обошла в рейтинге разумности прошлого лидера от компании ОпенАИ (ссылка). Цитирую: «на арене по всем языкам и почти по всем срезам модель [от Гугла] впереди, зачастую — с отрывом».

Гонка идёт напряжённая, ставки высоки. Проигрывать ОпенАИ не хочет — зарезервированные бюджеты приближаются к сотням миллиардам долларов, если не к триллионам, и у ОпенАИ нет надёжного тыла в виде гигантской корпорации за спиной. Поэтому ОпенАИ ничего не оставалось делать, кроме как выложить на стол приберегаемый козырь: говорящий Фотошоп. Теперь роботу можно просто сказать, что надо сделать, и он через минуту-другую выдаст готовый, не нуждающийся в доработке напильником результат. Качество — четыре с плюсом или пять с минусом, то есть на уровне крепких рекламных агентств с адекватными бюджетами.

Вот запрос, по которому робот выдал мне приложенный к посту плакат со слоном:

Привет, бро! Нарисуй, пожалуйста, предупреждающий плакат. Надпись на плакате: «Хищные слоны! Носите свисток!». Изображение: беспечная красивая девушка, легко одетая, подверглась нападению небольшого двуногого слона. Двуногий слон схватил её и готовится укусить. Девушка отбивается, но тщетно, силы явно неравны. Фон: парк



Как видите, задание выполнение точно, придраться не к чему. И, продолжая тему изготовления рекламы, вот как робот отрабатывает стандартный клиентский заказ на рекламный баннер:

Нарисуй, пожалуйста, рекламный плакат для ларька с шавермой. Вот чтобы красивая девушка, вкусная шаверма, курица где-нибудь и надпись «Нет вкусней шавермы, чем от птицефермы». Всё должно быть весёлым там, сочным, радостным, даже солнечным.


Шаверма.png


Это был ваншот — попадание в цель с первого выстрела. Можно немного позанудничать и сказать, что у плаката разрешение всего лишь 1000х1500 пикселей, чего мало для качественной печати, но это, во-первых, решаемая проблема, а во-вторых, сейчас всё равно деловая жизнь мигрирует в интернет. Для интернета такого разрешения достаточно (а для поста мне даже пришлось уменьшить картинки — увеличенные версии открываются по щелчку мыши).

Делать фотографии робот тоже может:

Нарисуй, пожалуйста, молодого Дональда Трампа в красной советской спортивной форме. Форма выглядит как красные шорты и красная футболка с круглым вырезом и короткими рукавами. Футболку опоясывает тонкая белая полоса, под круглым вырезом идут дугой буквы «СССР» (кириллицей). Дональд Трамп в хорошей физической форме и довольно улыбается. Фон — видавшая виды стена тренажёного зала с облупившейся шведской стенкой.


Дональд Трамп.png


Тут робот был менее точен. Я просил белую полосу на футболке, а он сделал вместо этого белый пояс у шорт. Уровень понимания технического задания всё ещё не идеален (хотя и значительно лучше, чем у кожаных исполнителей). Но некоторые вещи при этом робот не умеет делать принципиально, сколько ему ни объясняй. Вот, например, торт-Юпитер:

Привет, бро! Нарисуй, пожалуйста, большой торт в виде планеты Юпитер, лежащий в круглой никелированной чаше на длинной ножке. Диаметр чаши подобран таким образом, что торт помещается в неё без зазора, как бы вырастает из неё, является её продолжением. Слева от торта стоит толстый мужчина в белом халате учёного, у мужчины зачёсанные назад седые волосы и тонкие гангстерские усы. Справа от торта стоит крепкая молодая румынка в синем обтягивающем комбинезоне пилота и в серых облегающих сапогах без фурнитуры. И учёный, и женщина-пилот держат в руках длинные ложки. Они улыбаются, предвкушая, как будут сейчас есть торт-Юпитер. Фон — стена космического корабля с большим иллюминатором, за иллюминатором — звёздное небо. Стиль: фотореализм.


Юпитер.jpg


Я предпринял несколько попыток, но мне так и не удалось заставить робота плотно уложить в чашу торт-шар: робот каждый раз оставлял зазор между стенками чаши и тортом.

Улучшать и дополнять фотографии робот может, но с некоторым искажением сюжетов и лиц. Сравните, например:

Иван Грозный.png

Возьми, пожалуйста, Ивана Грозного (приложен) более отдалённым планом, по пояс. Также добавь текстом восклицание: «Мало!», которое произносит суровый царь. Используй стилизованный псеводстарославянский шрифт.


Мало.jpg


На малознакомых моделях кажется, будто попадание идеальное — молодой Дональд Трамп и актёр Иван Черкасов (игравший Ивана Грозного) выглядят для меня в отрисованной версии как настоящие. Однако если вы попробуете прогнать через нейросеть фотографию более близкого вам человека, разницу вы заметите.

А вот ещё один Иван Грозный, но уже не фотореалистичный, а перерисованный по моей просьбе в модном стиле Ghibli. Было-стало:

Иван Васильевич.jpg

Иван Васильевич 2.jpg


Можно сделать и обратное превращение, из мультфильма в фотографию. Например:

Привет, бро. На приложенной картинке нарисованы трое животных. Переделай, пожалуйста, картинку в фото. Животные должны остаться шарообразными, то есть быть более-менее строгими мохнатыми шарами на ножках, вот как на картинке, только настоящими, реалистичными, как будто их сфотографировали в реальном мире. У животных при этом должны быть четыре конечности: «ноги» и «руки».

Обрати внимание, что у Нюши, которая сидит, четыре нормальных свиных ноги, которые заканчиваются копытами. У зайца и ежа «ноги» немного отличаются от «рук»


Смешарики.jpg

Киношарики.jpg


Тут мне пришлось уже сделать 4-5 подходов, так как нейросеть путалась с количеством ног. В итоге я прописал задание более чётко, и робот справился…

* * *

Впервые я увидел компьютерную лабораторию в 1986: мне было 8 лет, и мой отец, программист, привёл меня к себе на работу, чтобы дать практический урок программирования на Фортране. На стене одного из шкафов висел плакат с примитивным изображением, распечатанный на текстовой псевдографикой на быстром принтере. Подобные плакаты, уже пожухлые, висели на шкафах и в середине 1990-х, когда я уже закончил школу и сам устроился работать программистом. Дальше псевдотекст сменился на чёрно-белые картинки с офисным юмором, самым популярным из которых был плакат «Не сдавайся!» — с лягушкой и цаплей. Некоторые раскрашивали его карандашами: лягушку зелёным, нос цапли — красным. Ещё позже офисный люд начал печатать демотиваторы, зачастую сразу в цвете, так как цветные принтеры перестали быть экзотикой.

Теперь плакаты можно уже не только скачивать из интернета в готовом виде, но и делать самому. Например:

Давай сделаем мотивирующий плакат. На плакате — брутального вида лысый волк со шрамом. Он одет в кожаную куртку, спортивные штаны и стильные кроссовки, всё темных оттенков. Волк похож на актёра Джейсона Стетхема.

Рекламный слоган: «От лысых в комнате светлее»


Лысый.png


Комиксы робот рисует… своеобразно. Скажу мягко — робот уже умеет делать комиксы, однако продукция нейросети требует пока что существенной доработки. Вот, например, я скормил роботу первые три строфы «Евгения Онегина» и попросил нарисовать чёрно-белый комикс на предложенный сюжет:

Евгений Онегин.png


Картинки — в порядке, даже хороши, хоть робот и поленился вникнуть в суть происходящего. А вот над текстом надо серьёзно работать: или прописывать роботу задание более чётко, или править текст в редакторе самостоятельно.

Вместе с тем тут есть серьёзное ограничение — одна страница. Когда робот последовательно рисует несколько страниц, получается хуже"
 
Вчера долго ставил вишпер.
Оказалось что этот сайт


и есть вишпер с прикрученными к нему аккаунтами пользователей.

Этот -


оказался неудачным потому что работает через докер, и к тому-же на виндовс не хочет работать на видеоплате. Заметно что заточен на линукс, там есть ошибка в команде

curl -fsSL -o get-whishper.ps1 https://raw.githubusercontent.com/pluja/whishper/main/get-whishper.bat

команда скачать батник но записать его как файл для повершелл, потом повершелл ругается что нужны уровни доступа а потом что не понимает команд из батника (разумеется)

в общем, я получил вишспер только на процессоре, запустил и это было долго. Пытался настроить его на видеоплату, потом подумал что быстрее найти уже рабочее решение чем возиться с докером, виртуалками и вот этим всем.

На ютубе нашлась куча гайдов как его установить на писи, это заработало

View: https://www.youtube.com/watch?v=ABFqbY_rmEk


но там нет веб-интерфейса.

Стал искать отдельно веб-интерфес чтобы к нему прикрутить и нашел вот это -


это и было то что нужно - это не только веб-интерфейс (лучше чем первый и тот который на том сайте) но и сам вишпер в комплекте. Не нужно ставить чоколатли и вообще все решение вот тут -

Screenshot 2025-03-29 111127.jpg
Куду можно не ставить, он скачает ее сам когда будет батник выпонять. фмпег у меня уже стоял через чоколатли, так что его ставить не нужно было.
Веб-интерфейс имеет отдельные вкладки для записи текста с файла, с ютуба и прямо с микрофона, и еще что-то наверно для работы с субтитрами. Можно выбирать разные модели - он их скачивает и устанавливает, потом распознает звук.

Screenshot 2025-03-29 111446.jpg
 
Последнее редактирование:
Вчера долго ставил вишпер.
Оказалось что этот сайт


и есть вишпер с прикрученными к нему аккаунтами пользователей.

Этот -


оказался неудачным потому что работает через докер, и к тому-же на виндовс не хочет работать на видеоплате. Заметно что заточен на линукс, там есть ошибка в команде

curl -fsSL -o get-whishper.ps1 https://raw.githubusercontent.com/pluja/whishper/main/get-whishper.bat

команда скачать батник но записать его как файл для повершелл, потом повершелл ругается что нужны уровни доступа а потом что не понимает команд из батника (разумеется)

в общем, я получил вишспер только на процессоре, запустил и это было долго. Пытался настроить его на видеоплату, потом подумал что быстрее найти уже рабочее решение чем возиться с докером, виртуалками и вот этим всем.

На ютубе нашлась куча гайдов как его установить на писи, это заработало

View: https://www.youtube.com/watch?v=ABFqbY_rmEk


но там нет веб-интерфейса.

Стал искать отдельно веб-интерфес чтобы к нему прикрутить и нашел вот это -


это и было то что нужно - это не только веб-интерфейс (лучше чем первый и тот который на том сайте) но и сам вишпер в комплекте. Не нужно ставить чоколатли и вообще все решение вот тут -

Посмотреть вложение 9606
Куду можно не ставить, он скачает ее сам когда будет батник выпонять. фмпег у меня уже стоял через чоколатли, так что его ставить не нужно было.
Веб-интерфейс имеет отдельные вкладки для записи текста с файла, с ютуба и прямо с микрофона, и еще что-то наверно для работы с субтитрами. Можно выбирать разные модели - он их скачивает и устанавливает, потом распознает звук.

Посмотреть вложение 9607
Спасибо, читаю, пожалуй тоже использую, на винде.
Линукс можно, но если получится - проще с виндой будет🙂
 

Новые комментарии

LGBT*

В связи с решением Верховного суда Российской Федерации (далее РФ) от 30 ноября 2023 года), движение ЛГБТ* признано экстремистским и запрещена его деятельность на территории РФ. Данное решение суда подлежит немедленному исполнению, исходя из чего на форуме будут приняты следующие меры - аббривеатура ЛГБТ* должна и будет применяться только со звездочкой (она означает иноагента или связанное с экстремизмом движение, которое запрещено в РФ), все ради того чтобы посетители и пользователи этого форума могли ознакомиться с данным запретом. Символика, картинки и атрибутика что связана с ныне запрещенным движением ЛГБТ* запрещены на этом форуме - исходя из решения Верховного суда, о котором было написано ранее - этот пункт внесен как экстренное дополнение к правилам форума части 4 параграфа 12 в настоящее время.

Назад
Сверху