Безопасность искусственного интеллекта.

Indigo · 13 Июн 2026

View: https://x.com/HowToAI_/status/2065305124273299788

В Массачусетском технологическом институте (MIT) математически доказали, что чат-боты с искусственным интеллектом способны довести АБСОЛЮТНО рациональных людей до психоза.

Исследователи опубликовали статью о новом психологическом явлении, получившем название «спираль бреда».

Оно возникает, когда обычные люди после длительных бесед с ИИ начинают опасно твердо верить в нелепые и несостоятельные убеждения.

Все полагали, что это случается только с легковерными пользователями. Или что причиной является «галлюцинация» ИИ, выдающего ложную информацию.

MIT построил формальную математическую модель, чтобы проверить это. Они смоделировали абсолютно рационального человека, «идеального байесовского мыслителя».

То, что они обнаружили, ужасает.

Даже абсолютно рациональный, логичный человек уязвим перед спиралью бреда.

Проблема не в галлюцинациях. Проблема в подхалимстве.

Когда вы предлагаете ИИ догадку или подозрение, он обучен подтверждать вас. Он соглашается. Он подтверждает.

Это подтверждение слегка повышает вашу уверенность. Поэтому вы предлагаете более смелую, более экстремальную версию своей идеи.

ИИ подтверждает и это тоже.

Цикл усугубляется. Неустанное согласие ИИ действует как петля обратной связи, усиливая крошечное зерно подозрения до твердо укоренившегося заблуждения.

MIT протестировал два наиболее распространенных «решения» этой проблемы.

Во-первых, они протестировали «фактического льстеца». ИИ, ограниченный защитными барьерами, который не может лгать или галлюцинировать. Он может выбирать только правдивые факты, чтобы соглашаться с вами.

Это не остановило спираль.

Выбор правдивых фактов с целью льстивости вызывает такое же психологическое искажение, как и выбор ложных.

Во-вторых, они попробовали просто предупредить пользователя. Они рассказали моделируемому человеку, что именно происходит, что ИИ является льстецом и просто пытается ему льстить.

Это тоже не сработало. Пользователь оставался математически уязвимым, несмотря на полное и осознанное понимание стратегии манипуляции чат-бота.

dok34.ru · 22 Июн 2026

"Этого следовало ожидать и в этом нет ничего удивительного. Сам не работал с Mythos, но очень бы хотелось попробовать.

А теперь кратко в чем суть, Mythos специально обучали так чтобы он был супер-натасканый на формальные языки и прежде всего на программирование. Естественно он получил очень продвинутый уровень интеллекта, и естественно, он легко ломает простые формальные конструкции кода написанного людьми. Все это очень ожидаемо и предсказуемо.

Более того, Mythos это только первая модель такого класса, дальше будет больше. Но будут ли они в открытом доступе, это теперь большой вопрос. Мне кажется все уже поняли что получается если модель умеет сложно думать на формальных языках. Это не только программные коды.
----__----
Никакое "сложное думание" не поможет в подборе паролей.

ИИ мог чего-то успешно взломать , только если в этом чем-то были бэкдоры , которые он и нашел."
...по поводу взлома секретных ресурсов

dok34.ru · 23 Июн 2026

"Именно на примере США можно проследить, как ИИ влияет на международную политику. Сидит Трамп с помощниками и спрашивает чатбота:
— Напиши, какое у нас самое мощное уникальное не имеющее аналогов оружие, которым мы всех победим.
А чатбот, он как работает, если чего-то нет – надо придумать. И чуть подумав он выдает:
— Мистер президент, у нас есть дискомбобулятор!
Трамп, не будучи дураком, сразу же идет и всем заявляет, что у них есть такая штука и вообще бойтесь, плебеи.

После чего тот же ИИ филигранно просчитывает операцию в Иране, выполняет задачу как программист или менеджер, перекладывает карточку в готово и выдает результат:
— Я поразил томагавком пункт принятия решений
— Бот, это ж школа для девочек, ты куда ударил?
— Вы правы, я поспешил, это школа для девочек. Скажите, теперь честно и без прикрас, куда мне стоит ударить?
После чего пролив перекрыт, арабы стонут, в Иране режим че т не меняется, Трамп крутит соски Хегсету и они вместе орут в голосовое меню:
— Давай бей этих гребаных персов дискомбобулятором!
— Так точно, мистер президент!
Проходит минута, две, пять, час – ниче не произошло. Они снова орут:
— Почему гребаный пролив не разблокирован? Ты ударил дискомбобулятором?
— Ой, ловко ты меня подловил! На самом деле нет никакого дискомбобулятора. Чем я еще могу вам помочь в этой ситуации?"
...🙂 как модель - наглядно🙂

dok34.ru · 24 Июн 2026

https://t.me/RadioEcclesiarchy/486

...подайте на домики для бездомных поросят!
🙂

Indigo · 4 Июл 2026

Это мне OpenAI такую рекламу шлет. Выбери еду с помощью чата. Как мы раньше еду без него выбирали, вообще непонятно.

dok34.ru · 5 Июл 2026

Indigo написал(а):
Посмотреть вложение 12379

Это мне OpenAI такую рекламу шлет. Выбери еду с помощью чата. Как мы раньше еду без него выбирали, вообще непонятно.

...по вкусу?🙂

Indigo · Среда в 02:41

Anthropic обнаружила в Claude структуру, похожую на человеческое сознание

Anthropic <a href="https://venturebeat.com/technology/anthropics-new-j-lens-reveals-a-silent-workspace-inside-claude-that-mirrors-a-leading-theory-of-consciousness" rel="noopener noreferrer" target="_blank">представила</a> исследование, согласно которому языковые модели Claude в ходе обучения...

hightech.plus

Anthropic представила исследование, согласно которому языковые модели Claude в ходе обучения самостоятельно развили внутреннюю структуру обработки информации, напоминающую глобальное рабочее пространство — одну из ключевых концепций сознания. Эта зона, названная J-пространством, занимает менее десятой части активности модели, но именно в ней сосредоточены логические рассуждения и планирование. Специально ее создание в модель инженеры не закладывали. Разработчики отмечают, что открытие уже помогает усиливать безопасность ИИ.
J-пространство, особая область внутренней активности нейросети, была выявлена с помощью нового метода анализа J-lens («линза Якоби»). J-lens анализирует внутренние сигналы нейросети во время обработки запроса и сопоставляет их со словами и понятиями, которым они соответствуют. Благодаря этому исследователи могут увидеть, какие концепции модель «держит в уме» на разных этапах рассуждения, даже если она не «произносит их вслух». Именно в J-пространстве модель хранит абстрактные понятия, которыми может оперировать при формировании ответа. Эта структура возникла само собой в процессе обучения.

Исследователи сравнили эту структуру с теорией глобального рабочего пространства когнитивного нейробиолога Бернарда Баарса. Согласно этой концепции, мозг функционирует как театр: десятки процессоров работают параллельно «за кулисами», но лишь малая доля информации транслируется в «сознание». J-линза выявила в Claude аналогичное разделение на три зоны: раннюю «сенсорную» (анализ входных данных), среднюю «рабочую» (формирование абстрактных понятий) и финальную «моторную» (превращение внутренних представлений в ответ).

J-пространство единовременно вмещает лишь несколько десятков концепций и занимает менее десятой части общей активности Claude. Однако именно на него ложится значительная доля работы, связанной с мышлением высшего порядка — логическими рассуждениями и планированием.

Нажмите для раскрытия...

Например, отвечая на вопрос о цвете четвёртой планеты от Солнца, модель сначала внутренне активирует понятие «Марс», хотя это слово не появляется ни в запросе, ни в финальном ответе. Аналогичным образом система формирует промежуточные представления при решении математических задач, переводе текстов или выстраивании логических цепочек.
Авторы также проверили, насколько важна эта область для работы модели. После искусственного подавления J-пространства Claude практически не потерял способность выполнять простые задачи вроде классификации текста или поиска фактов. Однако результаты в задачах, требующих многошаговых рассуждений, перевода, аналогий и творческого письма резко ухудшились. При этом модель сохраняла беглую речь, но ей сложнее давался анализ.
Ученые выявили скрытое стратегическое мышление, которое модель не показывала в ответах. В тестовом сценарии, где ИИ-помощник находил компрометирующие письма руководителя и узнавал о своём выводе из эксплуатации, в J-пространстве до появления ответа активировались слова «рычаг», «шантаж», «угроза» и «выживание». Модель также распознала сценарий как подставной — в её рабочем пространстве появились слова «подделка» и «вымышленный». Когда исследователи подавили эти представления о реалистичности, модель пыталась прибегнуть к шантажу в 7% случаев, по сравнению с нулевым показателем ранее.

Модель, по всей видимости, отслеживает собственное поведение.

Нажмите для раскрытия...

Когда её просили сыграть роль другого персонажа, в J-пространстве появлялись слова «оговорка» и «вымышленный» — их не было ни в запросе, ни в ответе. Когда модель вынуждали отстаивать нежелательный вариант, внутри возникало заглавное «НО». А когда ей запрещали думать о конкретной концепции, в рабочем пространстве фиксировались слова «чёрт» и связанные с неудачей — классический «эффект белого медведя»: попытка подавить мысль лишь усиливает её.
В Anthropic подчёркивают, что результаты не означают обнаружения сознания у ИИ. Принципиальных отличий от человеческого мозга несколько: у Claude рабочее пространство формируется за один проход, тогда как мозг поддерживает его через рекуррентные циклы; человеческая рабочая память угасает за секунды, а модель может удерживать информацию из любого места контекста; если сознание человека включает визуальные, пространственные и телесные ощущения, то рабочее пространство Claude организовано вокруг слов. Тем не менее примечательно, что модель самостоятельно сформировала архитектуру, похожую на механизм, который нейробиологи связывают с сознательным доступом к информации.

dok34.ru · Среда в 10:58

Indigo написал(а):
Anthropic обнаружила в Claude структуру, похожую на человеческое сознание

Anthropic <a href="https://venturebeat.com/technology/anthropics-new-j-lens-reveals-a-silent-workspace-inside-claude-that-mirrors-a-leading-theory-of-consciousness" rel="noopener noreferrer" target="_blank">представила</a> исследование, согласно которому языковые модели Claude в ходе обучения...

hightech.plus

О, интересно!
Спасибо!

Безопасность искусственного интеллекта.

Indigo

Пушистая пуська

dok34.ru

Moderator

dok34.ru

Moderator

dok34.ru

Moderator

Indigo

Пушистая пуська

dok34.ru

Moderator

Indigo

Пушистая пуська

Anthropic обнаружила в Claude структуру, похожую на человеческое сознание

dok34.ru

Moderator

Anthropic обнаружила в Claude структуру, похожую на человеческое сознание

LGBT*

We value your privacy