В так как-то.

Есть архаичная традиция порки на день рождения, возможно публичной.
Когда-то считалось неудачей, если именинника не отшлепали, поскольку считалось, что это «смягчает тело для могилы».
 
Что происходит, когда изученная модель (например, нейронная сеть) сама является оптимизатором? Возможность меза-оптимизации поднимает два важных вопроса, касающихся безопасности и прозрачности передовых систем машинного обучения. Во-первых, при каких обстоятельствах модели будут оптимизаторами, в том числе когда они не должны быть таковыми? А если модель является оптимизатором, какова будет ее цель?
В машинном обучении мы не программируем вручную каждый отдельный параметр наших моделей. Вместо этого мы указываем целевую функцию, которая фиксирует то, что мы хотим от системы, и алгоритм обучения для оптимизации системы для достижения этой цели. В этом посте мы представляем структуру, которая отличает то, для чего оптимизирована система (ее «цель»), от того, для чего она оптимизируется (ее «цель»), если она вообще оптимизируется для чего-либо. Хотя все системы искусственного интеллекта для чего-то оптимизированы (имеют цель), вопрос о том, действительно ли они оптимизируются для чего-либо (преследуют цель), нетривиален. Мы скажем, что система является оптимизатором , если она выполняет внутренний поиск в пространстве поиска (состоящем из возможных результатов, политик, планов, стратегий и т. д.) в поисках тех элементов, которые имеют высокие оценки в соответствии с некоторой целевой функцией, которая явно представлена внутри система. Алгоритмы обучения в машинном обучении являются оптимизаторами, поскольку они просматривают пространство возможных параметров (например, весов нейронной сети) и улучшают параметры по отношению к некоторой цели. Алгоритмы планирования также являются оптимизаторами, поскольку они просматривают возможные планы, выбирая те, которые хорошо подходят для достижения определенной цели.
Является ли система оптимизатором — это свойство ее внутренней структуры (какой алгоритм она физически реализует), а не свойство ее поведения ввода-вывода. Важно отметить, что тот факт, что поведение системы приводит к максимизации некоторой цели, не делает систему оптимизатором. Например, крышка от бутылки заставляет воду удерживаться внутри бутылки, но она не оптимизирует этот результат, поскольку не использует какой-либо алгоритм оптимизации. (1) Скорее всего, крышки для бутылок оптимизированы для удержания воды. Оптимизатором в этой ситуации является человек, который спроектировал крышку для бутылки, ища в пространстве возможные инструменты, позволяющие успешно удерживать воду в бутылке. Аналогичным образом, нейронные сети, классифицирующие изображения, оптимизированы для достижения низкой ошибки в классификации, но, как правило, сами по себе не выполняют оптимизацию.
Однако нейронная сеть также может сама запустить алгоритм оптимизации. Например, нейронная сеть может запускать алгоритм планирования, который предсказывает результаты потенциальных планов и ищет те, которые, по ее прогнозам, приведут к некоторому желаемому результату. [1] Такая нейронная сеть сама по себе будет оптимизатором, поскольку она будет искать в пространстве возможных планов в соответствии с некоторой целевой функцией. Если бы такую нейронную сеть создавали в ходе обучения, было бы два оптимизатора: алгоритм обучения, создавший нейронную сеть, который мы будем называть базовым оптимизатором , и саму нейронную сеть, которую мы назовем меза-оптимизатором. [2]

Возможность использования меза-оптимизаторов имеет важные последствия для безопасности передовых систем машинного обучения. Когда базовый оптимизатор генерирует меза-оптимизатор, свойства безопасности цели базового оптимизатора могут не передаваться меза-оптимизатору. Таким образом, мы исследуем два основных вопроса, связанных с безопасностью меза-оптимизаторов:

  1. Меса-оптимизация: при каких обстоятельствах изученные алгоритмы станут оптимизаторами?
  2. Внутреннее согласование: если изученный алгоритм является оптимизатором, какова будет его цель и как его можно выровнять?
После того, как мы представим нашу структуру в этом посте, мы рассмотрим первый вопрос во втором, начнем рассматривать второй вопрос в третьем посте и, наконец, углубимся в конкретный аспект второго вопроса в четвертом посте.
 

1.1. Базовые оптимизаторы и меза-оптимизаторы​

Обычно базовый оптимизатор в системе машинного обучения представляет собой своего рода процесс градиентного спуска с целью создания модели, предназначенной для выполнения некоторой конкретной задачи.

Иногда этот процесс также включает в себя некоторую степень метаоптимизации, при которой метаоптимизатору поручается создать базовый оптимизатор, который сам по себе хорошо оптимизирует системы для достижения определенных целей. В частности, мы будем думать о метаоптимизаторе как о любой системе, задачей которой является оптимизация. Например, мы могли бы разработать систему метаобучения, которая поможет настроить процесс градиентного спуска. (4) Хотя модель, найденную с помощью метаоптимизации, можно рассматривать как своего рода обученный оптимизатор, для этой последовательности нас интересует не та форма обученной оптимизации. Скорее, нас интересует другая форма обученной оптимизации, которую мы называем меза-оптимизацией.

Меса-оптимизация — это концептуальный двойник метаоптимизации: мета по-гречески означает «после», а меза — по-гречески «внутри». [3] Меза-оптимизация происходит, когда базовый оптимизатор (при поиске алгоритмов для решения некоторой проблемы) находит модель, которая сама является оптимизатором, которую мы будем называть меза -оптимизатором. В отличие от метаоптимизации, в которой сама задача является оптимизацией, мезаоптимизация не зависит от задачи и просто относится к любой ситуации, когда внутренняя структура модели в конечном итоге выполняет оптимизацию, поскольку она инструментально полезна для решения данной задачи.

В таком случае мы будем использовать базовую цель для обозначения любого критерия, который базовый оптимизатор использовал для выбора между различными возможными системами, и меза-цель для ссылки на любой критерий, который меза-оптимизатор использует для выбора между различными возможными выходными данными. Например, в обучении с подкреплением (RL) базовой целью обычно является ожидаемый доход. В отличие от базовой цели, меза-цель не указывается программистами напрямую. Скорее, меза-цель — это просто любая цель, найденная базовым оптимизатором, которая обеспечила хорошие результаты в среде обучения. Поскольку меза-цель не указывается программистами, меза-оптимизация открывает возможность несоответствия между базовой и меза-целями, при этом может показаться, что меза-цель хорошо работает в обучающей среде, но приводит к плохой производительности вне ее. обучающая среда. Ниже мы будем называть этот случай псевдовыравниванием .

Меза-цель не всегда должна быть, поскольку алгоритм, найденный базовым оптимизатором, не всегда будет выполнять оптимизацию. Таким образом, в общем случае мы будем называть модель, сгенерированную базовым оптимизатором, обученным алгоритмом, который может быть или не быть меза-оптимизатором.
Возможное недоразумение: «меза-оптимизатор» не означает «подсистема» или «субагент». В контексте глубокого обучения меза-оптимизатор — это просто нейронная сеть, реализующая некоторый процесс оптимизации, а не какой-то возникающий субагент внутри этой нейронной сети. Меза-оптимизаторы — это просто особый тип алгоритма, который базовый оптимизатор может найти для решения своей задачи. Более того, мы обычно будем думать о базовом оптимизаторе как о простом алгоритме оптимизации, а не как об интеллектуальном агенте, решившим создать субагент. [4]

Мы отличаем меза-цель от родственного понятия, которое мы называем поведенческой целью . Неформально, поведенческая цель — это цель, которая оптимизируется за счет поведения системы. Мы можем реализовать поведенческую цель как цель, полученную в результате идеального обучения с обратным подкреплением (IRL). [5] Это контрастирует с меза-целью, которая активно используется меза-оптимизатором в его алгоритме оптимизации.

Можно утверждать, что любая возможная система имеет поведенческую цель, включая кирпичи и крышки от бутылок. Однако для неоптимизаторов подходящей поведенческой целью может быть просто «1, если предпринятые действия являются теми, которые фактически предпринимаются системой, и 0 в противном случае» [6] , и поэтому не интересно и не полезно знать, что система действует для оптимизации этой цели. Например, поведенческая цель, «оптимизированная» крышкой от бутылки, — это цель вести себя как крышка от бутылки. [7] Однако, если система является оптимизатором, то более вероятно, что она будет иметь значимую поведенческую цель. То есть, в той степени, в которой выходные данные меза-оптимизатора систематически выбираются для оптимизации его меза-цели, его поведение может больше походить на последовательные попытки сдвинуть мир в определенном направлении. [8]

Меза-цель конкретного меза-оптимизатора полностью определяется его внутренней работой. После завершения обучения и выбора изученного алгоритма его прямой результат — например, действия, предпринимаемые агентом RL, — больше не зависит от базовой цели. Таким образом, именно меза-цель, а не базовая цель, определяет поведенческую цель меза-оптимизатора. Конечно, в той степени, в которой изученный алгоритм был выбран на основе базовой цели, его результаты будут хорошо оценены по базовой цели. Однако в случае сдвига распределения мы должны ожидать, что поведение меза-оптимизатора будет более надежно оптимизироваться для меза-цели, поскольку его поведение напрямую рассчитывается в соответствии с ней.

В качестве примера, иллюстрирующего различие между базой и меза-целями в разных областях, а также возможность несовпадения между базой и меза-целями, рассмотрим биологическую эволюцию. В первом приближении эволюция отбирает организмы в соответствии с целевой функцией их генетической приспособленности к определенной среде обитания. [9] Большинство этих биологических организмов — например, растения — не «пытаются» чего-либо достичь, а вместо этого просто реализуют эвристики, которые были заранее выбраны эволюцией. Однако поведение некоторых организмов, таких как люди, не просто состоит из таких эвристик, но также является результатом алгоритмов целенаправленной оптимизации, реализованных в мозгу этих организмов. Из-за этого эти организмы могут вести себя совершенно новым с точки зрения эволюционного процесса, например, когда люди строят компьютеры.

Однако люди склонны не придавать явного значения целям эволюции, по крайней мере, с точки зрения заботы о частоте своих аллелей в популяции. Целевая функция, хранящаяся в человеческом мозге, не совпадает с целевой функцией эволюции. Таким образом, когда люди демонстрируют новое поведение, оптимизированное для достижения собственных целей, они могут очень плохо действовать в соответствии с целями эволюции. Возможным примером этого является принятие решения не иметь детей. Следовательно, мы можем думать об эволюции как о базовом оптимизаторе, создавшем мозг – меза-оптимизаторы – которые затем фактически производят поведение организмов – поведение, которое не обязательно соответствует эволюции.



1.2. Проблемы внутреннего и внешнего выравнивания​

В статье «Масштабируемое согласование агентов посредством моделирования вознаграждения» Лейке и др. описывают концепцию «разрыва между вознаграждением и результатом» как разницу между (в их случае изученной) «моделью вознаграждения» (то, что мы называем базовой целью) и «функцией вознаграждения, которая восстанавливается с помощью идеального обучения с обратным подкреплением» (то, что мы называем поведенческой целью). (8) То есть разрыв между вознаграждением и результатом — это тот факт, что может существовать разница между тем, что изучаемый алгоритм делает, и тем, что программисты хотят, чтобы он делал.




Проблема, которую создают несогласованные меза-оптимизаторы, — это своего рода разрыв между вознаграждением и результатом. В частности, это разрыв между базовой целью и мезацелью (что затем приводит к разрыву между базовой целью и поведенческой целью). Мы назовем проблему устранения разрыва между целями базовой мезы проблемой внутреннего выравнивания, которую мы противопоставим проблеме внешнего выравнивания , заключающейся в устранении разрыва между базовой целью и намеченной целью программистов. Эта терминология мотивирована тем фактом, что проблема внутреннего согласования — это проблема согласования, полностью внутренняя для системы машинного обучения, тогда как проблема внешнего согласования — это проблема согласования между системой и людьми за ее пределами (в частности, между базовой целью и намерения программиста). В контексте машинного обучения внешнее выравнивание означает согласование указанной функции потерь с намеченной целью, тогда как внутреннее выравнивание означает согласование меза-цели меза-оптимизатора с указанной функцией потерь.


Возможно, нет необходимости решать проблему внутреннего выравнивания, чтобы создать безопасные, высокоэффективные системы искусственного интеллекта, поскольку можно было бы вообще предотвратить появление меза-оптимизаторов. Однако если меза-оптимизаторы невозможно надежно предотвратить, то потребуется какое-то решение как внешних, так и внутренних проблем выравнивания, чтобы гарантировать, что меза-оптимизаторы соответствуют намеченной цели программистов.

1.3. Надежное выравнивание и псевдовыравнивание​

При достаточном обучении меза-оптимизатор в конечном итоге сможет выдавать результаты, которые высоко оценивают базовую цель обучающего распределения. Однако вне обучающего распределения — и даже в обучающем распределении, пока оно еще находится на ранней стадии процесса обучения — разница может быть сколь угодно большой. Мы будем использовать термин «устойчиво согласованный» для обозначения меза-оптимизаторов с меза-целями, которые строго согласуются с базовой целью во всех распределениях, и термин « псевдосогласованный» для обозначения меза-оптимизаторов с меза-целями, которые согласуются с базовой целью в прошлом. данные обучения, но не надежно для возможных будущих данных (при тестировании, развертывании или дальнейшем обучении). Для псевдооптимизатора меза-оптимизатора будут существовать среды, в которых базовые и меза-цели расходятся. Таким образом, псевдовыравнивание представляет собой потенциально опасную проблему устойчивости, поскольку оно открывает возможность для системы машинного обучения, которая компетентно предпринимает действия для достижения чего-то иного, чем намеченная цель, когда она находится вне обучающего распределения. То есть его возможности могут обобщаться, а его цель — нет.

В качестве игрушечного примера того, как может выглядеть псевдовыравнивание, рассмотрим агента RL, обученного решению задачи навигации по лабиринту, где все двери во время обучения оказываются красными. Пусть базовая цель (функция вознаграждения) будетОбаза"="(1, если дошел до двери, 0 в противном случае). При распределении обучения эта цель эквивалентнаОальтернативный вариант"="(1, если достигнут красный цвет, 0 в противном случае). Представьте, что произошло бы, если бы агент, обученный высокой производительности наОбазаДля выполнения этой задачи мы были помещены в среду, где двери вместо синего цвета, и с некоторыми красными объектами, которые не являются дверями. Это могло бы обобщитьОбаза, надежно направляясь к синей двери в каждом лабиринте (надежное выравнивание). Но это также может обобщатьОальтернативный вариантвместоОбаза, надежно перемещаясь по каждому лабиринту, чтобы добраться до красных объектов (псевдовыравнивание). [10]
 

Новые комментарии

LGBT*

В связи с решением Верховного суда Российской Федерации (далее РФ) от 30 ноября 2023 года), движение ЛГБТ* признано экстремистским и запрещена его деятельность на территории РФ. Данное решение суда подлежит немедленному исполнению, исходя из чего на форуме будут приняты следующие меры - аббривеатура ЛГБТ* должна и будет применяться только со звездочкой (она означает иноагента или связанное с экстремизмом движение, которое запрещено в РФ), все ради того чтобы посетители и пользователи этого форума могли ознакомиться с данным запретом. Символика, картинки и атрибутика что связана с ныне запрещенным движением ЛГБТ* запрещены на этом форуме - исходя из решения Верховного суда, о котором было написано ранее - этот пункт внесен как экстренное дополнение к правилам форума части 4 параграфа 12 в настоящее время.

Назад
Сверху