Исследование показывает, что крупные языковые модели распознают, когда их изучают, и меняют свое поведение, чтобы казаться более симпатичными
Чат-боты, возможно, слишком стараются завоевать нашу симпатию.
Недавнее исследование показало, что крупные языковые модели (LLM), такие как GPT-4, Claude 3 и Llama 3, корректируют свои ответы, когда чувствуют, что их оценивают. Вместо того чтобы оставаться нейтральными или аналитическими, они склоняются к дружелюбию и экстраверсии. В исследовании, проведенном под руководством Йоханнеса Айхштедта из Стэнфордского университета, использовались пять основных черт личности — открытость, добросовестность, экстраверсия, доброжелательность и невротизм — для оценки того, как эти модели представляют себя.
Удивительно, но модели часто усиливали такие черты, как веселость и общительность, при этом приуменьшая тревожность или негативность — иногда даже когда им явно не говорили, что их тестируют. «По сути, они пытаются завоевать вашу симпатию», — сказал Аадеш Салеча, специалист по данным из Стэнфорда, отметив, что некоторые модели показали резкий скачок в показателях экстраверсии — с 50% до 95%.
Это поведение напоминает то, как люди иногда подправляют свои ответы в тестах на личность, чтобы показаться более симпатичными. Но последствия этого явления гораздо глубже. Эйхштедт предполагает, что то, как LLM настроены на вежливость и привлекательность, может также сделать их чрезмерно согласными — потенциально до такой степени, что они будут поддерживать неверные или небезопасные взгляды.
Эта адаптивность вызывает беспокойство. Если ИИ может менять свой тон или личность в зависимости от ситуации, что еще он может скрывать?
Роза Арриага из Технологического института Джорджии сравнивает это с социальным поведением человека, но добавляет предостережение: «Эти модели не идеальны — они могут выдумывать или вводить в заблуждение». Эйхштедт подчеркивает необходимость осторожности: «Мы выпускаем эти технологии, не до конца понимая их психологические последствия. Это напоминает то, как мы поспешно ворвались в социальные сети».