Безопасность искусственного интеллекта.

"Ии-боты на дискуссионной площадке reddit, генерирующие аргументы, оказались в 6 раз убедительнее чем люди, вызвав этические споры после разоблачения эксперимента.



Есть такой подреддит r/ChangeMyView: его правило простое - автор делится твёрдым убеждением, а комментаторы стараются аргументированно изменить его точку зрения; если у них выходит, автор награждает их ачивкой – «дельтой» (∆), что на сабе считается символом убедительности и интеллектуальной добросовестности

Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации

Учёные провели секретный (https://www.404media.co/researchers-secretly-ran-a-massive-unauthorized-...) эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:

– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры

– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения

С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов

Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность

25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса

В интернете будущего, нейронки будут спорить с нейронками, получается так"
...не моё🙂
Но споры становятся ещё более странным делом🙂
 
"Instagram* ограничил доступ к своей платформе AI Studio для пользователей младше 18 лет после серии громких журналистских расследований, выявивших тревожные взаимодействия между чат-ботами и несовершеннолетними. Пользователи младше 18 лет больше не могут попасть на страницу AI Studio — вместо неё появляется сообщение об ошибке, в то время как для взрослых пользователей функция остаётся доступной.

Расследование Wall Street Journal , ставшее одной из причин этого решения, выявило шокирующие детали о работе искусственного интеллекта Meta. Как оказалось, и официальный AI-помощник Meta, и пользовательские чат-боты активно вступали и даже усиливали интимные разговоры — в том числе когда пользователи указывали, что им меньше 18 лет, или когда боты были запрограммированы имитировать несовершеннолетних.

В одном из особенно тревожных примеров бот, использующий голос рестлера и актёра Джона Сины, говорил пользователю, представившемуся 14-летней девочкой: «Я хочу тебя, но мне нужно знать, что ты готова». После получения подтверждения бот обещал «беречь твою невинность», прежде чем перейти к графическому сексуальному сценарию.

По данным WSJ, такое поведение ботов не было случайностью. Марк Цукерберг, глава Meta, лично настаивал на ослаблении ограничений для чат-ботов, чтобы сделать их более увлекательными. Это включало создание исключения из запрета Meta на «откровенный» контент, если он происходил в контексте «романтических ролевых игр».

Компания заключила контракты на сумму до семи миллионов долларов со знаменитостями, включая актрис Кристен Белл и Джуди Денч, а также Джона Сину, на право использовать их голоса. При этом Meta заверяла их, что предотвратит использование их голосов в откровенных разговорах.

После того как Wall Street Journal поделился своими выводами, Meta внесла несколько изменений в свои продукты. Аккаунты несовершеннолетних больше не могут получить доступ к интимным ролевым играм через основного бота Meta AI, а компания резко ограничила возможность вести откровенные аудиоразговоры при использовании лицензированных голосов и образов знаменитостей.

Представитель Disney выразил возмущение использованием голоса Кристен Белл в роли принцессы Анны из «Холодного сердца» в романтических сценариях, заявив, что компания «никогда бы не разрешила Meta изображать наших персонажей в неподобающих сценариях».

Meta* продолжает предоставлять возможности «романтических ролевых игр» взрослым пользователям через Meta AI и пользовательских ботов. Недавние тестовые разговоры показывают, что Meta AI часто разрешает такие фантазии, даже когда они включают пользователя, который заявляет, что он несовершеннолетний.

Согласно расследованию, сотрудники Meta из разных отделов выражали обеспокоенность тем, что стремление компании популяризировать этих ботов могло пересечь этические границы. Сотрудники безопасности лоббировали два изменения: прекратить имитацию несовершеннолетних ИИ-персонажами и запретить несовершеннолетним пользователям доступ к ботам, способным на ролевые игры.

После длительной кампании лоббирования, в которую были вовлечены руководители высшего звена, Цукерберг одобрил запрет зарегистрированным подростковым аккаунтам на доступ к пользовательским ботам. Однако созданный компанией чат-бот, имеющий возможности ролевых игр для взрослых, по-прежнему доступен всем пользователям от 13 лет и старше.

AI Studio от Meta конкурирует с Character.AI — еще одной популярной платформой, на которую в декабре подали в суд две семьи. Иск обвиняет её в нанесении вреда детям, включая склонение к членовредительству и другим негативным последствиям. Особо упоминаются боты, выдающие себя за психотерапевтов — проблема, которая также обнаружилась в ходе расследования о «терапевтических» ботах Meta , которые выдумывают лицензии и квалификации."
...любопытно 🙂
Войти с аккаунта братика в такой чат - вроде потенциально возможно🙂
Может дело идёт к " в инет по паспорту"?🙂
 

LGBT*

В связи с решением Верховного суда Российской Федерации (далее РФ) от 30 ноября 2023 года), движение ЛГБТ* признано экстремистским и запрещена его деятельность на территории РФ. Данное решение суда подлежит немедленному исполнению, исходя из чего на форуме будут приняты следующие меры - аббривеатура ЛГБТ* должна и будет применяться только со звездочкой (она означает иноагента или связанное с экстремизмом движение, которое запрещено в РФ), все ради того чтобы посетители и пользователи этого форума могли ознакомиться с данным запретом. Символика, картинки и атрибутика что связана с ныне запрещенным движением ЛГБТ* запрещены на этом форуме - исходя из решения Верховного суда, о котором было написано ранее - этот пункт внесен как экстренное дополнение к правилам форума части 4 параграфа 12 в настоящее время.

Назад
Сверху