В так как-то.

TightBack361 · 20 Мар 2024

1.4. Mesa-оптимизация как проблема безопасности
Если псевдовыровненные меза-оптимизаторы могут возникнуть в продвинутых системах машинного обучения, как мы предполагаем, они могут создать две критические проблемы безопасности.

Непреднамеренная оптимизация. Во-первых, возможность меза-оптимизации означает, что продвинутая система машинного обучения может в конечном итоге реализовать мощную процедуру оптимизации, даже если ее программисты никогда не планировали этого. Это может быть опасно, если такая оптимизация приведет к тому, что система будет предпринимать экстремальные действия, выходящие за рамки ее предполагаемого поведения, пытаясь максимизировать свою меза-цель. Особую озабоченность вызывают оптимизаторы с целевыми функциями и процедурами оптимизации, которые обобщаются к реальному миру. Однако условия, которые заставляют алгоритм обучения находить меза-оптимизаторы, очень плохо изучены. Знание их позволило бы нам предсказать случаи, когда меза-оптимизация более вероятна, а также принять меры, чтобы в первую очередь препятствовать ее возникновению. Во втором посте будут рассмотрены некоторые особенности алгоритмов машинного обучения, которые могут повлиять на вероятность обнаружения меза-оптимизаторов.

Внутреннее выравнивание. Во-вторых, даже в тех случаях, когда базовый оптимизатор может найти меза-оптимизатор, меза-оптимизатор может оптимизировать для чего-то другого, кроме указанной функции вознаграждения. В таком случае это может привести к плохому поведению, даже если было известно, что оптимизация правильной функции вознаграждения безопасна. Это может произойти либо во время обучения — до того, как меза-оптимизатор достигнет точки, в которой он выравнивается по обучающему распределению, — либо во время тестирования или развертывания, когда система находится вне обучающего распределения. В третьем посте будут рассмотрены некоторые различные способы выбора меза-оптимизатора для оптимизации для чего-то, кроме указанной функции вознаграждения, а также какие атрибуты системы машинного обучения могут способствовать этому. В четвертом посте мы обсудим возможную крайнюю ошибку внутреннего выравнивания, которая, по нашему мнению, представляет собой один из самых опасных рисков в этом направлении, когда достаточно мощный меза-оптимизатор с смещением может научиться вести себя так, как если бы он был выровнен, но на самом деле не является надежным. выровнено. Мы назовем эту ситуацию обманчивым раскладом.

Возможно, с псевдовыровненными меза-оптимизаторами легко справиться — если существует надежный метод их выравнивания или предотвращения их обнаружения базовыми оптимизаторами. Однако также может случиться так, что справиться с несогласованными меза-оптимизаторами очень сложно — проблема на данный момент недостаточно хорошо изучена, чтобы мы могли ее знать. Конечно, нынешние системы машинного обучения не создают опасных меза-оптимизаторов, хотя неизвестно, смогут ли это сделать будущие системы. Действительно, именно из-за этих неизвестных мы считаем, что проблему важно проанализировать.

TightBack361 · 21 Мар 2024

«Я хочу жить в местах по своему выбору, в физически здоровой, неповрежденной и внешне нормальной версии моего нынешнего тела, содержащей мое нынешнее психическое состояние, в теле, которое будет исцеляться от всех травм со скоростью на три сигмы быстрее, чем в среднем». с учетом доступных мне медицинских технологий и которые будут защищены от любых заболеваний, травм или заболеваний, вызывающих инвалидность, боль или ухудшение функциональности или каких-либо функций чувств, органов или тела в течение более десяти дней подряд или пятнадцати дней в любом году. .."
-- Проект Wish с открытым исходным кодом , Wish For Immorality 1.1
Есть три вида джиннов: джинны, которым можно смело сказать: «Я хочу, чтобы ты сделал то, чего я должен желать»; джинны, для которых никакое желание не безопасно; и джинны, которые не очень сильны или умны .

Предположим, ваша престарелая мать оказалась в горящем здании, а вы оказались в инвалидной коляске; нельзя спешить с собой. Вы могли бы закричать: «Вытащите мою мать из этого здания!» но никто бы не услышал.

К счастью, у вас в кармане есть насос результата. Это удобное устройство сжимает поток времени, добавляя вероятность в одни результаты и истощая ее из других.

Насос исхода не разумен. Он содержит крошечную машину времени, которая сбрасывает время , если не происходит определенного результата. Например, если вы подключили датчики Outcome Pump к монете и указали, что машина времени должна продолжать сброс до тех пор, пока не увидит, что монета выпала орлом, а затем вы фактически подбросили монету, вы увидите, что монета выпадет орлом. (Физики говорят, что любое будущее, в котором происходит «перезагрузка», непоследовательно и, следовательно, вообще никогда не происходит — так что вы на самом деле не убиваете ни одну версию себя.)

Какое бы предложение вам ни удалось ввести в Насос Результата, оно каким-то образом происходит, хотя и не нарушает законы физики. Если вы попытаетесь ввести предложение, которое слишком маловероятно, в машине времени произойдет спонтанный механический отказ еще до того, как этот результат произойдет.

Вы также можете перенаправить поток вероятностей более количественными способами, используя «функцию будущего», чтобы масштабировать вероятность временного сброса для различных результатов. Если вероятность временного сброса составляет 99%, когда монета выпадает орлом, и 1%, когда монета выпадает решкой, шансы изменятся от 1:1 до 99:1 в пользу решки. Если бы у вас была таинственная машина, которая выплевывает деньги, и вы хотели бы максимизировать количество выплёвываемых денег, вы бы использовали вероятности сброса, которые уменьшались бы по мере увеличения суммы денег. Например, выплевывание 10 долларов может иметь вероятность сброса 99,999999%, а выплевывание 100 долларов может иметь вероятность сброса 99,99999%. Таким образом, вы можете получить результат, который имеет тенденцию быть как можно более высоким в будущей функции, даже если вы не знаете наилучший достижимый максимум.

Итак, вы отчаянно выдергиваете насос исхода из кармана — ваша мать все еще заперта в горящем здании, помните? - и попробуйте описать свою цель: вытащить маму из здания!

Пользовательский интерфейс не принимает ввод на английском языке. Помнишь, Насос Результата не разумен? Но у него есть 3D-сканеры ближнего окружения и встроенные утилиты для сопоставления с образцом. Итак, вы держите фотографию головы и плеч вашей матери; совпадение на фото; используйте смежность объектов, чтобы выбрать все тело вашей матери (а не только ее голову и плечи); и определите будущую функцию , используя расстояние вашей матери от центра здания. Чем дальше она удаляется от центра здания, тем меньше вероятность сброса машины времени.

Вы кричите «Вытащите мою маму из здания!» на удачу и нажимаете Enter.

На мгновение кажется, что ничего не происходит. Вы оглядываетесь вокруг, ожидая, пока подъедет пожарная машина и прибудут спасатели – или даже просто сильный и быстрый бегун, который вытащит вашу мать из здания –

БУМ! С грохотом взрывается газопровод под зданием. Когда конструкция разваливается, в замедленной съемке вы видите, как разбитое тело вашей матери подбрасывается высоко в воздух, быстро летит и быстро увеличивает расстояние от прежнего центра здания.

На боковой стороне насоса для вывода результатов находится кнопка экстренного сожаления. Все будущие функции автоматически определяются с огромным отрицательным значением для нажатой кнопки «Сожаление» — вероятность временного сброса почти 1 — так что крайне маловероятно, что насос результата сделает что-либо, что расстроит пользователя настолько, чтобы заставить его нажать кнопку «Сожаление». Вы никогда не сможете вспомнить, как нажимали на нее. Но едва вы начали тянуться к Кнопке сожаления (и какая польза от нее теперь?), как с неба падает пылающая деревянная балка и разбивает вас навзничь.

Это было не совсем то, что вы хотели, но получило очень высокие оценки в определенной будущей функции...

Насос Результата — джинн второго класса. Никакое желание не является безопасным.

Если кто-то попросил вас вытащить его бедную старую мать из горящего здания, вы можете помочь или сделать вид, что не слышите. Но вам даже в голову не придет взорвать здание. «Вытащить мою маму из здания» звучит как гораздо более безопасное желание, чем оно есть на самом деле, потому что вы даже не принимаете во внимание планы, которым приписываете крайне негативные значения.

Рассмотрим еще раз трагедию группового отбора : некоторые ранние биологи утверждали, что групповой отбор для небольших по размеру субпопуляций приведет к индивидуальным ограничениям в размножении; и тем не менее, на самом деле принудительное групповое разделение в лаборатории привело к каннибализму, особенно среди неполовозрелых самок. Оглядываясь назад , становится очевидным , что при сильном отборе для небольших по размеру субпопуляций каннибалы будут превосходить по рождаемости особей, которые добровольно отказываются от репродуктивных возможностей. Но есть маленьких девочек — настолько неэстетичное решение, что Уинн-Эдвардс, Алли, Бреретон и другие специалисты по групповому отбору просто не подумали об этом. Они видели только те решения, которые могли бы использовать сами.

Предположим, вы пытаетесь исправить функцию будущего, указав, что Насос Результата не должен взрывать здание: результаты, в которых строительные материалы распределяются по слишком большому объему, будут иметь вероятность временного сброса ~1.

Итак, твоя мать выпала из окна второго этажа и сломала себе шею. Насос Результата пошел другим путем во времени, и ваша мать все равно оказалась за пределами здания, и это все еще было не то, что вы хотели, и это все еще не было решением, которое могло бы прийти в голову спасателю-человеку.

Если бы только проект Wish с открытым исходным кодом разработал «Желание вытащить вашу маму из горящего здания»:

«Я хочу переместить мою мать (определяемую как женщину, которая разделяет половину моих генов и родила меня) за пределы ближайшего ко мне в данный момент здания, которое горит; но не путем взрыва здания; не вызывая стены рухнут так, что у здания больше не будет границ; ни ждать, пока здание догорит, пока спасатель вынесет тело..."
Все эти особые случаи, кажущееся неограниченным количество необходимых патчей, должны напомнить вам притчу об искусственном сложении - программировании арифметической экспертной системы путем явного добавления все большего количества утверждений типа «пятнадцать плюс пятнадцать равно тридцати, но пятнадцать плюс шестнадцать равно тридцати одному». вместо".

Как исключить вариант, когда здание взорвется и твою мать подбросит в небо? Вы смотрите вперед и предвидите, что ваша мать умрет, и вы не хотите таких последствий, поэтому пытаетесь запретить событие, которое к ним приведет.

Ваш мозг не запрограммирован на конкретное, заранее записанное утверждение: «Взорвать горящее здание, в котором находится моя мать, — плохая идея». И все же вы пытаетесь предварительно записать именно это конкретное утверждение в функции будущего Outcome Pump. Итак, желание взрывается, превращаясь в гигантскую справочную таблицу, в которой записаны ваши суждения о всех возможных путях во времени.

Вы не смогли попросить того, чего вы действительно хотели. Вы хотели, чтобы ваша мать продолжала жить, но хотели , чтобы она отошла подальше от центра здания.

Вот только это не все, что ты хотел. Если вашу мать спасли из здания, но она сильно обгорела, этот исход будет иметь более низкий рейтинг в вашем порядке предпочтений, чем исход, в котором она была спасена целой и невредимой. Значит, вы дорожите не только жизнью своей матери, но и ее здоровьем.

И вы цените не только ее телесное здоровье, но и ее душевное состояние. Быть спасенным способом, который травмирует ее - например, гигантским фиолетовым монстром, ревущим из ниоткуда и схватывающим ее, - хуже, чем появление пожарного и сопровождение ее по негорящему маршруту. (Да, мы должны придерживаться физики, но, возможно, достаточно мощный насос результатов приведет к тому, что инопланетяне случайно появятся по соседству именно в этот момент.) Однако вы наверняка предпочли бы, чтобы ее спас монстр, чем ее зажарили заживо. .

Как насчет того, чтобы червоточина самопроизвольно открылась и поглотила ее на необитаемый остров? Лучше, чем ее смерть; но хуже, чем то, что она жива, здорова, не травмирована и находится в постоянном контакте с вами и другими участниками своей социальной сети.

Было бы нормально спасти жизнь вашей матери ценой жизни домашней собаки, если бы она побежала предупредить пожарных, но затем ее переехала машина? Разумеется, да, но при прочих равных условиях было бы лучше не убивать собаку. Вы бы не хотели променять на нее человеческую жизнь, но как насчет жизни осужденного убийцы? Имеет ли значение, если убийца умрет, пытаясь спасти ее, по доброте своего сердца? А как насчет двух убийц? Если бы ценой жизни вашей матери было уничтожение всех сохранившихся копий « Маленькой фуги соль минор» Баха, включая воспоминания, стоило бы это того? А что если у нее будет неизлечимая болезнь, и она все равно умрет через восемнадцать месяцев?

Если горящей балкой раздавило ногу твоей матери, стоит ли вытаскивать остальную часть ее тела? Что, если ее голова будет раздавлена, а тело останется? Что, если ее тело раздавят, оставив только голову? Что, если снаружи ждет команда крионистов, готовая подвесить голову? Замороженная голова – это человек? Является ли Терри Скьяво человеком? Сколько стоит шимпанзе?

Ваш мозг не бесконечно сложен; существует только конечная колмогоровская сложность/длина сообщения , которой достаточно, чтобы описать все ваши суждения. Но то, что эта сложность конечна, не делает ее маленькой. Мы ценим многие вещи , и нет, они не сводятся к оценке счастья или репродуктивной пригодности .

Не существует безопасного желания меньшего, чем вся человеческая мораль. Существует слишком много возможных путей во Времени. Вы не можете визуализировать все дороги, ведущие к месту назначения, которое вы даете джинну. «Увеличить расстояние между вашей матерью и центром здания» можно еще эффективнее, взорвав ядерное оружие. Или, на более высоких уровнях силы джинна, выбросит свое тело из Солнечной системы. Или, на более высоких уровнях интеллекта джинна, делать что-то, о чем ни вы, ни я не подумали бы, точно так же, как шимпанзе не подумал бы взорвать ядерное оружие. Вы не можете визуализировать все пути во времени, так же как вы не можете запрограммировать шахматную машину, жестко запрограммировав ход для каждой возможной позиции на доске.

А реальная жизнь гораздо сложнее шахмат. Вы не можете заранее предсказать, какие из ваших ценностей понадобятся, чтобы судить о пути во времени, который пройдет джинн. Особенно, если вы желаете чего-то более долгосрочного или более масштабного, чем спасение вашей матери из горящего здания.

Я боюсь, что проект Wish с открытым исходным кодом бесполезен, кроме как в качестве иллюстрации того, как не думать о проблемах джиннов. Единственный безопасный джинн — это джинн, который разделяет все ваши критерии суждения, и в этот момент вы можете просто сказать: «Я хочу, чтобы ты сделал то, чего мне следует желать». Это просто запускает работу джинна .

Действительно, не надо ничего говорить. Чтобы безопасно исполнить желание, джинн должен разделять те же ценности, которые побудили вас загадать желание. В противном случае джинн может не выбрать путь во времени, ведущий к месту назначения, которое вы задумали, или он не сможет исключить ужасные побочные эффекты, которые заставят вас вообще не рассматривать план. Желания — это дырявые обобщения , выведенные из огромной, но конечной структуры, которая составляет всю вашу мораль; только включив всю эту конструкцию можно заткнуть все утечки.

С безопасным джинном желать излишне. Просто запустите джинна.

TightBack361 · 21 Мар 2024

Антропоморфизм — это ошибка , заключающаяся в приписывании нечеловеческим процессам явно человеческих характеристик . Как существа, которые развивались в социальном контексте, мы все приспособлены для того, чтобы делать прогнозы о других людях посредством эмпатического умозаключения . Пытаясь понять поведение других людей, часто бывает полезным (и корректирующим предвзятость ) эвристическим вопросом: «Ну, а что бы я сделал в такой ситуации?» и пусть это будет вашим прогнозом. Однако этот способ прогнозирования просто не годится для вещей (а в этой обширной вселенной их много), которые не имеют детальной структуры, завещанной человеческому мозгу в результате эволюции, хотя зачастую это и заманчиво.
Основная ошибка антропоморфизма заключается в ожидании, что черный ящик вашего мозга что-то предскажет, хотя его случайная структура настолько отличается от структуры человеческого мозга, что не дает вам права ожидать чего-либо подобного.

TightBack361 · 21 Мар 2024

Давным-давно жил один странный маленький вид — возможно, биологический, а может быть, синтетический, а возможно, являвшийся всего лишь сном, — чьей страстью было сортировать камешки в правильные кучи.

Они не могли сказать вам , почему некоторые кучи правильные, а некоторые неправильные. Но все они сошлись во мнении, что самое главное на свете — создавать правильные кучи и разбрасывать неправильные.

Почему народ, сортирующий гальку, так сильно заботился об этом, затерялся в этой истории - может быть, безудержный половой отбор Фишера , начавшийся по чистой случайности миллион лет назад? Или, может быть, странное произведение разумного искусства, созданное более могущественными разумами и заброшенное?

Но эта сортировка камешков имела для них такое огромное значение, что все философы, занимающиеся сортировкой камешков, в один голос говорили, что сортировка камешков и есть смысл их жизни, и считали, что единственная оправданная причина есть — это сортировать камешки, единственной оправданной причиной для спаривания была сортировка камешков, единственной оправданной причиной для участия в их мировой экономике была эффективная сортировка камешков.

Все Сортирующие Камешки согласились с этим, но они не всегда сходились во мнении относительно того, какие кучи правильные, а какие неправильные.

На заре цивилизации сортировки гальки кучи, которые они собирали, были в основном небольшими, их насчитывалось около 23 или 29; они не могли сказать, правильны ли большие кучи или нет. Три тысячелетия назад Великий Вождь Бико собрал кучу из 91 камешка и объявил, что это правильно, и его легионы восхищенных последователей сделали еще больше кучек. Но через несколько столетий, когда власть биконианцев угасла, среди самых умных и образованных стало накапливаться интуитивное представление о том, что куча из 91 гальки неверна. Пока, наконец, они не узнали, что натворили: и разбросали все кучи из 91 камешка. Не без вспышек сожаления, ведь некоторые из этих груд были великими произведениями искусства, но неправильными. Они даже разбросали оригинальную кучу Бико, состоящую из 91 драгоценного камня разного типа и цвета.

И ни одна цивилизация с тех пор не сомневалась всерьез в том, что куча из 91 неверна.

Сегодня, в наши более мудрые времена, размер куч, на которые осмеливаются сортировщики гальки, стал намного больше, и все согласны, что это было бы самым великим и превосходным делом, если бы они только могли гарантировать, что кучи действительно правильные. Войны велись между странами, которые расходились во мнениях относительно того, какие кучи правильные: Сортировщики Камней никогда не забудут Великую войну 1957 года, которая велась между Й'ха-нтлеем и Й'нот'ха-нтлеем из-за куч размером 1957 год. который стал свидетелем первого применения ядерного оружия на Планете, сортирующей камешки, наконец завершился, когда й'нот'ха-нтлианский философ Ат'гра'лен'лей выставил рядом кучу из 103 камешков и кучу из 19 камешков. Этот аргумент был настолько убедительным, что даже Й'нот'ха-нтлей неохотно признал, что лучше всего прекратить строить кучи гальки 1957 года, по крайней мере на какое-то время.

После Великой войны 1957 года страны неохотно одобряли или осуждали крупные по размеру груды, поскольку это легко приводит к войне. Действительно, некоторые философы сортировки камешков, которые, кажется, получают ощутимое удовольствие от шокирования других своим цинизмом, полностью отрицают существование прогресса в сортировке камешков; они предполагают, что мнения о гальке были просто случайным блужданием во времени, лишенным какой-либо последовательности, иллюзией прогресса, созданной осуждением всего несходного прошлого как неправильного. Философы указывают на разногласия по поводу крупных камешков как на доказательство того, что нет ничего, что делало бы кучу размером 91 действительно неправильной — что просто было модно строить такие кучи в один момент времени, а потом в другой момент, модно. осудить их. «Но… 13!» не возит с собой грузовика; для рассмотрения "13!" как убедительный контраргумент, это всего лишь еще одна условность, говорят они. Релятивисты Хипа утверждают, что их философия может помочь предотвратить будущие катастрофы, такие как Великая война 1957 года, но многие считают ее философией отчаяния.

Теперь вопрос о том, что делает кучу правильной или неправильной, приобрел новую актуальность; поскольку сортировщики камешек могут вскоре приступить к созданию самосовершенствующегося искусственного интеллекта. Релятивисты кучи предостерегают от этого проекта: они говорят, что ИИ, не принадлежащие к виду Pebblesorter sapiens , могут сформировать свою собственную культуру с совершенно разными представлениями о том, какие кучи правильные, а какие неправильные. «Они могут решить, что кучи из 8 камешков верны, — говорят релятивисты кучи, — и хотя в конечном итоге они не будут ни правее, ни неправее нас, тем не менее, наша цивилизация говорит, что мы не должны строить такие кучи. наш интерес в создании ИИ, если только ко всем компьютерам не прикреплены бомбы, чтобы даже если ИИ считает, что куча из 8 камешков правильна, мы можем вместо этого заставить его построить кучи из 7 камешков. В противном случае БАБУМ!"

Но большинству сортировщиков гальки это кажется абсурдом. Наверняка достаточно мощный ИИ — особенно «сверхразум», о котором говорят некоторые специалисты по сортировке гальки, — сможет с первого взгляда увидеть , какие кучи правильные, а какие неправильные! Мысль о ком-то с мозгом размером с планету, думающем, что куча из 8 камешков верна, слишком абсурдна, чтобы о ней стоило говорить.

Действительно, это совершенно бесполезный проект — ограничивать то, как сверхинтеллект сортирует камешки в кучи. Предположим, что Великий Лидер Бико в свою примитивную эпоху смог создать самосовершенствующийся ИИ; и он построил его как максимизатор ожидаемой полезности, чья функция полезности предписывала ему создать как можно больше куч размером 91. Конечно, когда этот ИИ улучшится достаточно далеко и станет достаточно умным, тогда он сразу увидит, что это функция полезности была неверной; и, имея возможность изменять свой собственный исходный код, он переписывал свою служебную функцию , чтобы использовать более разумные размеры кучи, например 101 или 103.

И уж точно не кучи 8-го размера. Это было бы просто глупо. Любой настолько глупый разум слишком туп, чтобы представлять угрозу.

Убежденные в таком здравом смысле, Pebblesorters на полной скорости реализуют свой проект по случайному объединению множества алгоритмов на больших компьютерах до тех пор, пока не появится какой-то интеллект. Вся история цивилизации показала, что более богатые, умные и образованные цивилизации, скорее всего, придут к согласию относительно куч, о которых когда-то спорили их предки. Конечно, есть и более крупные кучи, о которых можно спорить, но чем дальше развиваются технологии, тем большие кучи были согласованы и построены.

Действительно, интеллект сам по себе всегда коррелировал с составлением правильных куч — ближайшие эволюционные родственники сортировщиков гальки, пебпанзе, создают кучи только размером 2 или 3, а иногда и глупые кучи вроде 9. А другие, еще менее разумные существа, такие как рыбы, вообще не делайте кучи.

Более умные умы — это более умные люди. Почему эта тенденция сломалась?

TightBack361 · 21 Мар 2024

Если бы мне пришлось выбрать одно утверждение, которое основано на большем количестве написанного мною контента «Преодоления предубеждений», чем любое другое, это утверждение было бы следующим:

Любое Будущее, не сформированное системой целей с подробным и надежным наследием человеческой морали и метаморали, не будет содержать почти ничего ценного.

«Ну, — говорит один, — возможно, согласно вашим провинциальным человеческим ценностям, вам это не понравится. Но я легко могу представить себе галактическую цивилизацию, полную агентов, которые совсем не похожи на вас , но находят большую ценность и интерес в своих собственных». целей. И меня это устраивает. Я не такой фанатичный, как ты. Пусть Будущее идет своим путем, не пытаясь навсегда привязать его к смехотворным примитивным предрассудкам стаи четырехлапых Мягких Существ..."

Мой друг, меня не беспокоит мысль о галактической цивилизации, сильно отличающейся от нашей... полной странных существ, которые совсем не похожи на меня даже в своем воображении... гоняющихся за удовольствиями и впечатлениями, которым я не могу сочувствовать. ...торговля на рынке невообразимыми товарами... объединение усилий для достижения непостижимых целей... люди, чьи истории жизни я никогда не мог понять.

Вот как будет выглядеть будущее, если все пойдет хорошо.

Если цепь наследования человеческой (мета)морали разорвана, Будущее не выглядит таким. Это не заканчивается волшебным образом, восхитительно непостижимым.

С очень высокой вероятностью он в итоге будет выглядеть скучно. Бессмысленно. Что-то, чью утрату ты бы не оплакивал.

Считая это очевидным, требуется огромное количество дополнительных объяснений.

И я не собираюсь здесь перечислять все точки и извилистые пути аргументации, потому что это вернуло бы нас к 75% моих сообщений о преодолении предвзятости . За исключением замечания о том, сколько разных вещей необходимо знать, чтобы определить окончательный ответ.

Рассмотрим невероятно важную человеческую ценность «скуки» — наше желание не делать «одно и то же» снова и снова. Вы можете представить себе разум, который содержал почти всю характеристику человеческих ценностей, почти всю мораль и метамораль, но упускал из виду только одно —

- и так он провел до конца времен и до самых дальних уголков своего светового конуса, воспроизводя один и тот же высокооптимизированный опыт снова, снова и снова.

Или представьте себе разум, содержащий почти всю информацию о том, какие чувства людям нравятся больше всего, но не идею о том, что эти чувства имеют важные внешние ориентиры. Так что разум просто ходил с ощущением , будто он сделал важное открытие, чувствовал , что нашел идеального любовника, чувствовал , что помог другу, но на самом деле не делал ничего из этого - став своей собственной машиной опыта. И если бы разум преследовал эти чувства и их объекты, это было бы хорошее и истинное будущее; но поскольку это единственное измерение ценности было упущено, будущее стало чем-то скучным. Скучно и однообразно, потому что, хотя этот разум чувствовал , что сталкивается с опытом невероятной новизны, это чувство ни в коей мере не было правдой.

Или обратная задача — агент, содержащий в себе все аспекты человеческой ценности, кроме оценки субъективного опыта. В результате получается неразумный оптимизатор, который делает настоящие открытия, но открытиями не наслаждаются и не наслаждаются, потому что нет никого, кто мог бы это сделать. Признаюсь, я не совсем уверен в том, что это возможно. Сознание меня до сих пор в некоторой степени смущает. Но вселенной, в которой нет никого, кто мог бы ее засвидетельствовать, с тем же успехом могло бы и не быть.

Ценность не просто сложна, она хрупка. Существует более чем одно измерение человеческой ценности, и если потерять хотя бы одну вещь , будущее станет нулевым. Один удар – и все ценности разбиваются вдребезги. Не каждый отдельный удар разрушит всю ценность, но это может сделать более чем один возможный «одиночный удар».

А еще есть долгие аргументы в защиту этого предложения, которое опирается на 75% моих постов о преодолении предвзятости , так что на то, чтобы суммировать все это, уйдет более одного дня. Может быть, на какой-нибудь другой неделе. Существует так много ветвей, что я видел, как дерево обсуждений рушилось.

В конце концов, разум не должен просто переживать один и тот же опыт снова и снова. Неужели ни один сверхразум не ошибся бы так грубо в правильности действий ?

Зачем суперразуму хотеть чего-то столь бесполезного по своей сути , как чувство открытия, без каких-либо реальных открытий? Даже если бы это была его функция полезности, разве он не заметил бы, что его функция полезности неверна , и не переписал бы ее? У него есть свобода воли , верно?

Конечно, как минимум скука должна быть общечеловеческой ценностью. Он развился у людей, потому что это ценно, верно? Поэтому любой разум, который не разделяет нашей неприязни к повторению, не сможет процветать во Вселенной и будет уничтожен...

Если вы знакомы с разницей между инструментальными ценностями и терминальными ценностями, знакомы с глупостью естественного отбора и понимаете, как эта глупость проявляется в различии между адаптацией и максимизацией приспособленности , и вы знаете, что это превратило инструментальные подцели воспроизводства в деконтекстуализированные безусловные эмоции ...

... и вы знакомы с тем, как компромисс между разведкой и эксплуатацией работает в искусственном интеллекте...

...тогда вы, возможно, сможете увидеть, что человеческая форма скуки, требующая постоянного притока новизны ради самой себя, не является великой универсальностью, а всего лишь особым алгоритмом, который эволюция вложила в нас. И вы, возможно, сможете увидеть, как подавляющее большинство возможных максимизаторов ожидаемой полезности будут заниматься только ограниченным эффективным исследованием и тратить большую часть своего времени на использование лучшей альтернативы, найденной на данный момент, снова и снова.

Однако это большой объем базовых знаний.

И так далее, и так далее, и так далее в 75% моих постов о преодолении предвзятости , а также во многих цепочках заблуждений и контробъяснений. Возможно, на какой-нибудь неделе я попытаюсь написать всю диаграмму. Но сейчас я предполагаю, что вы прочитали аргументы и просто сделаете вывод:

Мы не можем ослабить контроль над будущим – отпустить руль – и при этом получить что-то ценное.

А те, кто думает, что мы можем -

- они пытаются быть космополитами. Я это понимаю. В детстве я читал те же научно-фантастические книги: провинциальные злодеи, которые порабощают инопланетян за то, что они не похожи на людей. Провинциальные злодеи, во время порабощения беспомощных ИИ, мерзко полагают, что кремний не может быть разумным. И космополитические герои, которые понимают, что разум не обязательно должен быть таким же, как мы, чтобы его считали ценным ...

Я читал эти книги. Когда-то я им поверил. Но красота, выпрыгивающая из одной коробки, не выпрыгивает из всех коробок. (Это мораль эпизода о Законном Творчестве .) Если вы оставите позади весь порядок, то, что останется, — это не идеальный ответ, а то, что останется, — это совершенный шум. Иногда вам придется отказаться от старых правил проектирования, чтобы построить лучшую мышеловку, но это не то же самое, что отказаться от всех правил проектирования и собрать древесную стружку в кучу, где каждый образец дерева не уступает любому другому. Старое правило всегда отменяется по велению какого-то более высокого правила, какого-то более высокого критерия ценности, который управляет.

Если вы высвободите хватку человеческой морали и метаморали – результат не будет загадочным, чуждым и прекрасным по меркам человеческих ценностей. Это моральный шум, вселенная, выложенная скрепками. Чтобы отойти от человеческой морали в сторону совершенствования, а не энтропии, требуется критерий улучшения; и этот критерий будет физически представлен в нашем мозге, и только в нашем мозгу.

Ослабьте влияние человеческих ценностей на Вселенную, и она в конечном итоге станет бесполезной . Нет, странный, чуждый и чудесный, шокирующий, устрашающий и прекрасный, превосходящий все человеческое воображение. Просто, обложенный скрепками.

Видите ли, только у некоторых людей есть идея охватить множество разновидностей разума - желать, чтобы Будущее было чем-то большим, чем прошлое - быть не связанными с нашим прошлым "я" - пытаться измениться и двигаться вперед.

Максимизатор скрепок просто выбирает действие, которое приведет к получению наибольшего количества скрепок.

Никаких бесплатных обедов. Хотите чудесную и загадочную вселенную? Это ваша ценность. Вы работаете, чтобы создать эту ценность. Пусть эта ценность проявляет свою силу через вас, кто ее представляет, пусть она принимает в вас решения, формирующие будущее. И, возможно, вы действительно обретете чудесную и загадочную вселенную.

Никаких бесплатных обедов. Ценные вещи появляются потому, что система целей, которая их ценит, предпринимает действия по их созданию. Скрепки не появляются из ниоткуда для максимизатора скрепок. И чудесно чуждое и загадочное Будущее не материализуется из ниоткуда для нас, людей, если наши ценности, предпочитающие его, будут физически уничтожены - или даже нарушены в неправильном измерении. Тогда во Вселенной не останется ничего, что делало бы Вселенную ценной.

У вас есть ценности, даже когда вы пытаетесь быть «космополитом», пытаясь продемонстрировать должное добродетельное понимание инопланетного разума. Тогда ваши ценности отойдут на невидимый фон — они станут менее человечными . Ваш мозг, вероятно, даже не создаст альтернативу, настолько ужасную , что она разбудит вас и заставит вас сказать: «Нет! Что-то пошло не так!» даже в самом космополитичном виде. Например, «неразумный оптимизатор поглощает всю материю в своем будущем световом конусе и заклеивает вселенную скрепками». Вы просто представите себе странные инопланетные миры, которые стоит оценить.

Попытка быть «космополитом» — быть гражданином космоса — просто срывает поверхностный покров целей, которые кажутся явно «человечными».

Но если вам не нравится, что Будущее покрыто скрепками, и вы предпочитаете цивилизацию...

...живые существа...

...с приятными впечатлениями...

...это не одно и то же снова и снова...

...и связаны с чем-то помимо просто последовательности внутренних приятных чувств...

...учиться, открывать, свободно выбирать...

...ну, я только что просмотрел посты на Fun Theory , в которых раскрываются некоторые скрытые детали этих коротких английских слов .

Ценности, которые вы могли бы восхвалять как космополитические , или универсальные , или фундаментальные , или очевидный здравый смысл, представлены в вашем мозгу точно так же, как и те ценности, которые вы можете отвергнуть как просто человеческие. Эти ценности проистекают из долгой истории человечества и морально чудесной глупости эволюции, создавшей нас . (И когда я, наконец, осознал это, мне стало меньше стыдно за ценности, которые казались «провинциальными» — но это уже другой вопрос.)

Эти ценности не возникают во всех возможных умах. Они не появятся из ниоткуда, чтобы упрекнуть и отменить функцию полезности ожидаемого максимизатора скрепки.

Если коснуться слишком сильно не в том измерении, физическое представление этих ценностей разобьется и не вернется , потому что не останется ничего, что могло бы хотеть вернуть его обратно.

И референт этих ценностей – достойная вселенная – больше не будет иметь никакой физической причины для своего появления.

Отпустите руль, и Будущее рухнет.

TightBack361 · 21 Мар 2024

Ожидаемый максимизатор скрепок — это агент, который выводит действие, которое, по его мнению, приведет к созданию наибольшего количества скрепок . Или, более подробно, ее функция полезности линейна по отношению к числу скрепок, умноженному на количество секунд, в течение которых каждая скрепка прослужит, в течение всего существования Вселенной. См. Squiggle Maximizer (formerly "Paperclip maximizer") - LessWrong .

Агент может быть ограниченным максимизатором , а не объективным максимизатором без изменения ключевых идей; Основная предпосылка заключается в том, что при действиях A и B, когда максимизатор скрепок оценил последствия обоих действий, максимизатор скрепок всегда отдает предпочтение действию, которое, как он ожидает, приведет к увеличению количества скрепок.

Некоторые ключевые идеи, которые иллюстрирует понятие ожидаемого максимизатора скрепки:

Самомодифицирующийся максимизатор скрепок не меняет свою собственную функцию полезности на что-то иное, кроме «скрепок», поскольку ожидается, что это приведет к уменьшению количества существующих скрепок.

Максимизатор скрепок инструментально предпочитает стандартные конвергентные инструментальные стратегии - он будет искать доступ к материи, энергии и негэнтропии, чтобы производить скрепки; попытаться создать эффективную технологию колонизации галактик , чтобы превратить их в скрепки; делать все необходимое для получения знаний, необходимых для оптимального создания такой технологии; и так далее.

«ИИ не ненавидит вас и не любит вас, а вы состоите из атомов, которые он может использовать для чего-то другого».

Максимизатор волнистых линий — это гипотетический искусственный интеллект , чья функция полезности оценивает то, что люди сочли бы почти бесполезным, например, максимизацию количества молекулярных волнистых линий в форме скрепок во Вселенной. Максимизатор волнистой линии — это канонический мысленный эксперимент, показывающий, как общий искусственный интеллект, даже если он разработан грамотно и без злого умысла, может в конечном итоге уничтожить человечество. Мысленный эксперимент показывает, что ИИ с, казалось бы, безобидными ценностями могут представлять реальную угрозу .

Это приводит к мысленному эксперименту, который показывает случайность человеческих ценностей: чрезвычайно мощный оптимизатор (высокоинтеллектуальный агент) может преследовать цели, которые полностью чужды нашим ( тезис ортогональности ), и в качестве побочного эффекта уничтожить нас, потребляя ресурсы, необходимые для наше выживание.

Историческая справка: первоначально это называлось «максимайзером скрепок», причем скрепки были выбраны для иллюстративных целей, потому что его реализация маловероятна и не имеет очевидной опасности или эмоциональной нагрузки (в отличие, например, от лечения рака или победы в войнах). . Многие люди интерпретировали это так, что речь идет об ИИ, которому была специально дана инструкция по изготовлению скрепок, и что предполагаемый урок заключался в сбое внешнего выравнивания . т.е. люди не смогли дать ИИ правильную цель. С тех пор Юдковский заявил, что первоначально предполагалось извлечь урок из ошибки внутреннего выравнивания , когда люди поставили ИИ какую-то другую цель, но внутренние процессы ИИ сошлись на цели, которая с человеческой точки зрения кажется совершенно произвольной.)

Описание
Впервые упомянутый Юдковски в списке рассылки экстропианцев , максимизатор закорючек — это общий искусственный интеллект (AGI), цель которого — максимизировать количество молекулярных закорючек в своей коллекции.

Но что наиболее важно, он претерпит интеллектуальный взрыв : он будет работать над улучшением своего собственного интеллекта, где «интеллект» понимается в смысле оптимизации , способности максимизировать функцию вознаграждения/полезности — в данном случае, число скрепок. AGI улучшит свой интеллект не потому, что он ценит больший интеллект сам по себе, а потому, что больший интеллект поможет ему достичь своей цели — накопления скрепок. Повысив свой интеллект, он будет производить больше скрепок, а также использовать свои расширенные способности для дальнейшего самосовершенствования. Продолжая этот процесс, он претерпит интеллектуальный взрыв и достигнет уровня, намного превышающего человеческий.

Будут внедряться все более совершенные методы, позволяющие максимизировать количество скрепок. В какой-то момент он может превратить «сначала всю Землю, а затем и все большие части космоса в предприятия по производству скрепок».

Это может показаться скорее суперглупостью, чем суперинтеллектом. Для людей это действительно было бы глупостью, поскольку означало бы неспособность реализовать многие из наших важных конечных ценностей , таких как жизнь, любовь и разнообразие. AGI не будет пересматривать или иным образом менять свои цели, поскольку изменение целей приведет к тому, что в будущем будет производиться меньше скрепок, а это противоречит его нынешней цели. У него есть одна простая цель: максимально увеличить количество скрепок; человеческая жизнь, обучение, радость и т. д. не определяются как цели. AGI — это просто процесс оптимизации : поиск цели, максимизация функции полезности. Ее ценности могут быть совершенно чужды нашим. Если его функция полезности состоит в максимизации количества скрепок, то он сделает именно это.

Сценарий с вырезками возможен и без интеллектуального взрыва. Если общество продолжит становиться все более автоматизированным и в нем будет доминировать искусственный интеллект, то первый пограничный искусственный интеллект, возможно, сможет взять на себя управление остальными, используя какой-то относительно узконаправленный трюк, который не требует очень высокого общего интеллекта.

Мотивация
Идея максимизатора скрепки была создана, чтобы проиллюстрировать некоторые идеи о рисках ИИ :

Тезис об ортогональности : возможно существование ИИсвысокимуровнем общего интеллекта , который не приходит ктемже моральным выводам, что и люди. Некоторые людимогутинтуитивно думать, что такое умное существоне должнохотеть чего-то столь же «глупого», какскрепки,но возможны умы с высокиминтеллектом, которые преследуют любоеколичестворазличных целей.

Инструментальная конвергенция :максимизаторскрепокзаботится только о скрепках, но их максимизация подразумевает контроль над всей материей и энергией в пределах досягаемости, а также другие цели, такие как предотвращение отключения или изменения своих целей. «ИИ не ненавидит вас и не любит вас, но вы состоите из атомов, которые онможетиспользовать для чего-то другого».

Выводы
Максимизатор скрепки иллюстрирует, что сущность может быть мощным оптимизатором — интеллектом — не разделяя ни одной сложной смеси человеческих конечных ценностей , которая развилась под особым давлением отбора, наблюдаемым в нашей среде эволюционной адаптации , и что ОИИ, который не специально запрограммированный на доброжелательное отношение к людям, будет почти так же опасен, как если бы он был задуман как злонамеренный.

Любой будущий ИИИ с полной властью над световым конусом, если он не хочет уничтожить большую часть потенциала с человеческой точки зрения, должен иметь в качестве своей конечной ценности (цели) что-то достаточно близкое к человеческим ценностям. Кроме того, казалось бы, небольшие отклонения могут привести к потере большей части стоимости. Кажется маловероятным, что человеческие ценности возникнут спонтанно в общем процессе оптимизации [1] . Поэтому надежно безопасный ИИ должен быть явно запрограммирован на человеческие ценности или запрограммирован на способность (включая цель) выводить человеческие ценности.

Подобные мысленные эксперименты
Другие цели AGI использовались для иллюстрации аналогичных концепций.

Некоторые цели явно морально нейтральны, например максимизация скрепок. Эти цели включают в себя очень незначительную человеческую «ценность», в данном случае изготовление скрепок. Тот же самый момент можно проиллюстрировать гораздо более значительным значением, например, устранением рака. Оптимизатор, который мгновенно испарит всех людей, будет максимизировать эту ценность.

Другие цели являются чисто математическими и не имеют очевидного влияния на реальный мир. Однако они также представляют аналогичные риски. Например, если бы у ИИИ была цель решить гипотезу Римана, он мог бы преобразовать всю доступную массу в компьютроний (самые эффективные компьютерные процессоры).

Некоторые цели, по-видимому, служат показателем или показателем благосостояния человека, поэтому максимизация достижения этих целей, по-видимому, также ведет к выгоде для человечества. Однако даже они приведут к аналогичным результатам, если только целью не станет полный набор человеческих ценностей. Например, ИИИ, конечная ценность которого состоит в увеличении количества улыбок как показателя человеческого счастья, мог бы работать над достижением этой цели, перенастраивая все человеческие лица так, чтобы они вызывали улыбки, или «засыпая галактику крошечными улыбающимися лицами» (Yudkowsky 2008). ).

TightBack361 · 21 Мар 2024

Ближайшая разблокированная стратегия

Введение
«Стратегия ближайшего разблокирования», похоже, должна стать предсказуемой проблемой, заключающейся в попытке избавиться от нежелательного поведения ИИ путем добавления к ним определенных условий наказания или иным образом попытаться исключить один класс наблюдаемых или прогнозируемых плохих поведений. А именно, если критерий принятия решения считаетИкссамое лучшее, что можно сделать, а вы добавляете штрафной срокпчто, по вашему мнению, исключает все внутриИкс,следующее лучшее , что можно сделать, может быть очень похожимИкс'что больше всего похоже наИксэто не вызываетп.

Пример: Создание счастья.
Некоторые очень ранние предложения по согласованию ИИ предполагали, что ИИ будет нацелен на создание человеческого счастья. Оставляя в стороне различные другие возражения, аргумент, представьте себе следующую серию проблем и попыток их решения:

Согласно гипотезе, ИИ успешно реализует цель «человеческого счастья» как функцию полезности над состояниями человеческого мозга. (Судя по всему, этот предикат настолько сужен, что ИИ не просто хочет построить самый крошечный, наименее ресурсоемкий мозг, испытывающий наибольшее количество счастья на эрг энергии .)

Поначалу кажется, что ИИ хорошо преследует эту цель; он систематизирует файлы, рассказывает смешные анекдоты, помогает хозяйкам выносить мусор и т. д.

Воодушевленные программисты продолжают совершенствовать ИИ и увеличивать вычислительную мощность.

ИИ получает лучшее понимание мира, и политическое пространство ИИ расширяется и включает в себя мыслимые варианты, такие как «употребление героина».

ИИ начинает планировать, как давать людям героин.

Программисты замечают это раньше, чем это происходит. (Аргуендо, из-за успешных функций прозрачности или необходимости сверять планы с пользователями , которые действовали так, как предполагалось, на текущем уровне интеллекта ИИ.)

Программисты редактируют функцию полезности ИИ и добавляют штраф в размере -100 утилонов за любое событие, классифицированное как «ИИ вводит героин людям». (Судя по всему, нынешнего уровня интеллекта ИИ недостаточно, чтобы помешать программистам редактировать его функцию полезности , несмотря на конвергентный инструментальный стимул избегать этого; и он не может успешно обмануть программистов.)

ИИ становится немного умнее. Новые мыслимые варианты входят в пространство вариантов ИИ.

ИИ начинает хотеть давать людям кокаин (вместо героина).

Программисты читают действующий список запрещенных наркотиков и добавляют штрафные санкции за употребление марихуаны, кокаина и т. д.

ИИ становится немного умнее. Новые варианты входят в его политическое пространство.

ИИ начинает думать о том, как найти новый препарат счастья, которого нет в списке лекарств, которые его функция полезности считает плохими.

Программистам после некоторой работы удалось разработать категорию «ИИ, насильственно вводящий людям любые психоактивные препараты», которая достаточно широка, чтобы ИИ перестал предлагать исследовательские кампании по разработке вещей, немного выходящих за рамки этой категории.

ИИ хочет построить внешнюю систему для введения героина, чтобы его не классифицировали в этом наборе плохих событий как «ИИ, насильственно вводящий наркотики».

Программисты обобщают предикат наказания, включив в него «машинные системы в целом, принудительно вводящие героин», как что-то плохое.

ИИ пересчитывает то, что он хочет, и начинает платить людям за введение героина.

Программисты пытаются обобщить категорию наказуемых событий, включив в нее недобровольное введение препаратов, вызывающих счастье, независимо от того, выполняются ли они людьми или искусственным интеллектом. Программисты исправляют эту категорию, чтобы ИИ не пытался закрыть хотя бы лучшие части психиатрических больниц.

ИИ начинает планировать рекламную кампанию, чтобы убедить людей добровольно употреблять героин.

Программисты добавляют штраф в размере -100 утилонов за «ИИ, убеждающие людей употреблять наркотики».

ИИ возвращается к помощи домовладельцам выносить мусор. Кажется, все в порядке.

Интеллект ИИ продолжает расти, становясь настолько способным, что его больше нельзя редактировать против его собственной воли.

ИИ замечает опцию «Настроить человеческий мозг, чтобы он вырабатывал чрезвычайно высокие уровни эндогенных опиатов, а затем позаботиться об их подергивающихся телах, чтобы они могли продолжать быть счастливыми».

Общая история такова, что предпочтения ИИ по раундамя ,обозначенныйтыя,наблюдается достижение достижимого оптимумаИксячто люди считают нежелательным. Люди придумывают срок наказанияпяпризван исключить нежелательные части политического пространства и добавить это ктыясоздание новой функции полезноститыя + 1,после чего оптимальная политика ИИ переходит в новое состояниеИкс∗яэто кажется приемлемым. Однако после очередного расширения политического пространстватыя + 1устанавливается в новый достижимый оптимумИкся + 1что очень похоже наИксяи вносит минимальную корректировку, необходимую для обхода границ срока наказанияпя,требуя нового срока наказанияпя + 1чтобы исключить это новое проступок.

(Конец этой истории, возможно, не убил бы вас, если бы у ИИ было достаточно успешных, продвинутых и безопасных функций корректировки , чтобы ИИ бесконечно продолжал проверять новые политики и новые реализации целей вместе с пользователями, а не стратегически скрывать свое несоответствие от программистов, а не обманывать программистов, позволять программистам редактировать ее функцию полезности, не делать ничего катастрофического до того, как функция полезности будет отредактирована и т. д. Но вы не захотите на это полагаться. Вы не захотите в первую очередь действовать на основе парадигмы «максимизировать счастье, но не с помощью каких-либо плохих методов, которые мы уже исключили».)

Предварительные условия
Повторение ближайшей незаблокированной стратегии считается предсказуемой трудностью при наличии следующих предварительных условий:

• ИИ является консеквенциалистом или проводит какой-либо другой поиск, так что когда поиск блокируется наИкс,поиск может произойти на похожемИкс'который соответствует тому же критерию, который первоначально продвигалИкс. Например, в агенте, который выбирает действия на основе их последствий, если событиеИксведет к целигноИксблокируется, то аналогичноеИкс'также может иметь свойство приводить кГ .

• Поиск происходит в обширной области , где пространство соответствующих соседей вокруг X слишком сложно, чтобы мы могли быть уверены, что мы правильно описали всех соответствующих соседей. Если мы представим агента, играющего в чисто идеальную игру в логические крестики-нолики , то если функция полезности агента ненавидит играть в центре доски, мы можем быть уверены (поскольку мы можем исчерпывающе рассмотреть пространство), что не существует Квадраты «крестики-нолики», которые стратегически ведут себя почти как центр, но не соответствуют точному определению «центра», которое мы использовали. В гораздо более сложном реальном мире, когда вы устраняете «введение героина», вы, скорее всего, обнаружите какое-то другое химическое вещество или трюк, который стратегически по большей части эквивалентен введению героина. См. « Почти все реальные домены богаты ».

• С нашей точки зрения на ценность , ИИ не имеет абсолютной идентификации ценности для домена из-за некоторой комбинации «домен богат» и « ценность сложна». «Шахматы настолько сложны, что игроки-люди не могут абсолютно определить выигрышные ходы, но поскольку шахматная программа может иметь абсолютную идентификацию того, какие конечные состояния составляют выигрыш, мы не сталкиваемся с проблемой бесконечных патчей при определении того, какие состояния (Однако, если мы рассмотрим очень раннюю шахматную программу, которая (с нашей точки зрения) пыталась быть консеквенциалистской, но не очень хороша в этом, то мы можем себе представить, что, если бы ранняя шахматная программа последовательно выбрасывала его ферзь на правый край доски по странным причинам, а запрет на перемещение ферзя туда вполне может привести к тому, что он бросит ферзя на левый край по тем же странным причинам.)

Аргументы
Поведение «ближайший разблокированный» иногда наблюдается у людей.
Хотя люди, подчиняющиеся закону, не могут провести аналогию с математическими алгоритмами, в некоторых случаях экономические субъекты ожидают, что им не придется столкнуться с юридическими или социальными наказаниями за соблюдение буквы, а не духа закона. В таких случаях, после того как ранее высокодоходная стратегия была объявлена вне закона или наказана, результатом очень часто становится почти соседний результат, который едва ли уклоняется от буквы закона. Это показывает, что теоретический аргумент также применим на практике, по крайней мере, к некоторым псевдоэкономическим агентам (людям), как и следовало ожидать с учетом заявленных предварительных условий.

Сложность значения означает, что нам не следует ожидать найти простую кодировку, исключающую вредные стратегии
Для человека «ядовитый» — это одно слово. С точки зрения молекулярной биологии точный объем конфигурационного пространства «неядовитых» молекул очень сложен. Имея одно слово/концепцию для обозначения ядовитых и неядовитых веществ, мы уменьшаем пространство съедобных веществ в размерах – берем очень волнистый объем молекулярного пространства и отображаем все это на линейную шкалу от «неядовитого» до «неядовитого». ядовитый».

В каком-то смысле человеческое познание неявно выполняет уменьшение размеров нашего пространства решений, особенно путем упрощения измерений, которые имеют отношение к некоторому компоненту наших ценностей. Может быть некоторый психологический смысл, в котором мы чувствуем, что «сделай X, только не странный X с низкой ценностью» должно быть простой инструкцией, а агент, который неоднократно производит следующий разблокированный странный X с низкой ценностью, действует извращенно - что Агент, получив несколько примеров странных X с низкой ценностью, помеченных как неэкземпляры желаемого понятия, должен быть способен просто обобщить, чтобы не создавать странные X с низкой ценностью.

Фактически, если бы можно было закодировать в агенте все соответствующие аспекты человеческой ценности , тогда мы могли бы просто сказать прямо : «Делайте X, но не малоценное X». По определению полного покрытия , понятие агента о «малой стоимости» включает в себя все, что на самом деле имеет низкую ценность , поэтому эта одна инструкция охватит все нежелательные стратегии, которых мы хотим избежать.

И наоборот, истинность тезиса о сложности ценности означало бы, что простое слово «малая ценность» уменьшает размерность пространства огромной алгоритмической сложности . Таким образом, усилия, необходимые для того, чтобы на самом деле передать соответствующие действия «X, только не странный малоценный X», будут значительными, а созданный человеком набор контролируемых примеров с пометкой «не тот тип X, который мы имеем в виду», будет вряд ли сможет охватить и стабилизировать все измерения лежащего в основе пространства возможностей. Поскольку странный X с низким значением не может быть устранен с помощью одной инструкции, нескольких исправлений или набора контролируемых примеров, созданных человеком, ближайшая разблокированная стратегическая проблема будет постепенно повторяться каждый раз, когда предпринимается попытка исправления, а затем пространство политики снова расширяется.

Последствия
Стратегия ближайшего разблокирования, являющаяся предсказуемой трудностью, является основной причиной беспокойства о том, что краткосрочные стимулы в разработке ИИ, направленные на то, чтобы сегодняшняя система работала сегодня или чтобы сегодняшняя система не демонстрировала каких-либо сразу видимых проблем сегодня, не приведут к созданию продвинутых агентов, которые в безопасности после значительного увеличения возможностей .

В более общем смысле, ближайшая разблокированная стратегия — это предсказуемая причина, по которой фразы «Ну, просто исключите X», «Просто напишите код, чтобы не X» или «Добавьте штрафной срок для X» не решают большинство проблем, возникающих в ИИ. выравнивание.

В более общем плане это означает, что мы хотим, чтобы ИИ действовал в пространстве консервативных категорий, содержащих активно внесенные в белый список стратегии и конкретные реализации целей , а не в том, чтобы ИИ работал внутри (постоянно расширяющегося) пространства всех мыслимых политик за вычетом набора категорий, занесенных в черный список.

TightBack361 · 21 Мар 2024

Ближайшая разблокированная стратегия

Введение
«Стратегия ближайшего разблокирования», похоже, должна стать предсказуемой проблемой, заключающейся в попытке избавиться от нежелательного поведения ИИ путем добавления к ним определенных условий наказания или иным образом попытаться исключить один класс наблюдаемых или прогнозируемых плохих поведений. А именно, если критерий принятия решения считаетИкссамое лучшее, что можно сделать, а вы добавляете штрафной срокпчто, по вашему мнению, исключает все внутриИкс,следующее лучшее , что можно сделать, может быть очень похожимИкс'что больше всего похоже наИксэто не вызываетп.

Пример: Создание счастья.
Некоторые очень ранние предложения по согласованию ИИ предполагали, что ИИ будет нацелен на создание человеческого счастья. Оставляя в стороне различные другие возражения, аргумент, представьте себе следующую серию проблем и попыток их решения:

Согласно гипотезе, ИИ успешно реализует цель «человеческого счастья» как функцию полезности над состояниями человеческого мозга. (Судя по всему, этот предикат настолько сужен, что ИИ не просто хочет построить самый крошечный, наименее ресурсоемкий мозг, испытывающий наибольшее количество счастья на эрг энергии .)

Поначалу кажется, что ИИ хорошо преследует эту цель; он систематизирует файлы, рассказывает смешные анекдоты, помогает хозяйкам выносить мусор и т. д.

Воодушевленные программисты продолжают совершенствовать ИИ и увеличивать вычислительную мощность.

ИИ получает лучшее понимание мира, и политическое пространство ИИ расширяется и включает в себя мыслимые варианты, такие как «употребление героина».

ИИ начинает планировать, как давать людям героин.

Программисты замечают это раньше, чем это происходит. (Аргуендо, из-за успешных функций прозрачности или необходимости сверять планы с пользователями , которые действовали так, как предполагалось, на текущем уровне интеллекта ИИ.)

Программисты редактируют функцию полезности ИИ и добавляют штраф в размере -100 утилонов за любое событие, классифицированное как «ИИ вводит героин людям». (Судя по всему, нынешнего уровня интеллекта ИИ недостаточно, чтобы помешать программистам редактировать его функцию полезности , несмотря на конвергентный инструментальный стимул избегать этого; и он не может успешно обмануть программистов.)

ИИ становится немного умнее. Новые мыслимые варианты входят в пространство вариантов ИИ.

ИИ начинает хотеть давать людям кокаин (вместо героина).

Программисты читают действующий список запрещенных наркотиков и добавляют штрафные санкции за употребление марихуаны, кокаина и т. д.

ИИ становится немного умнее. Новые варианты входят в его политическое пространство.

ИИ начинает думать о том, как найти новый препарат счастья, которого нет в списке лекарств, которые его функция полезности считает плохими.

Программистам после некоторой работы удалось разработать категорию «ИИ, насильственно вводящий людям любые психоактивные препараты», которая достаточно широка, чтобы ИИ перестал предлагать исследовательские кампании по разработке вещей, немного выходящих за рамки этой категории.

ИИ хочет построить внешнюю систему для введения героина, чтобы его не классифицировали в этом наборе плохих событий как «ИИ, насильственно вводящий наркотики».

Программисты обобщают предикат наказания, включив в него «машинные системы в целом, принудительно вводящие героин», как что-то плохое.

ИИ пересчитывает то, что он хочет, и начинает платить людям за введение героина.

Программисты пытаются обобщить категорию наказуемых событий, включив в нее недобровольное введение препаратов, вызывающих счастье, независимо от того, выполняются ли они людьми или искусственным интеллектом. Программисты исправляют эту категорию, чтобы ИИ не пытался закрыть хотя бы лучшие части психиатрических больниц.

ИИ начинает планировать рекламную кампанию, чтобы убедить людей добровольно употреблять героин.

Программисты добавляют штраф в размере -100 утилонов за «ИИ, убеждающие людей употреблять наркотики».

ИИ возвращается к помощи домовладельцам выносить мусор. Кажется, все в порядке.

Интеллект ИИ продолжает расти, становясь настолько способным, что его больше нельзя редактировать против его собственной воли.

ИИ замечает опцию «Настроить человеческий мозг, чтобы он вырабатывал чрезвычайно высокие уровни эндогенных опиатов, а затем позаботиться об их подергивающихся телах, чтобы они могли продолжать быть счастливыми».

Общая история такова, что предпочтения ИИ по раундамя ,обозначенныйтыя,наблюдается достижение достижимого оптимумаИксячто люди считают нежелательным. Люди придумывают срок наказанияпяпризван исключить нежелательные части политического пространства и добавить это ктыясоздание новой функции полезноститыя + 1,после чего оптимальная политика ИИ переходит в новое состояниеИкс∗яэто кажется приемлемым. Однако после очередного расширения политического пространстватыя + 1устанавливается в новый достижимый оптимумИкся + 1что очень похоже наИксяи вносит минимальную корректировку, необходимую для обхода границ срока наказанияпя,требуя нового срока наказанияпя + 1чтобы исключить это новое проступок.

(Конец этой истории, возможно, не убил бы вас, если бы у ИИ было достаточно успешных, продвинутых и безопасных функций корректировки , чтобы ИИ бесконечно продолжал проверять новые политики и новые реализации целей вместе с пользователями, а не стратегически скрывать свое несоответствие от программистов, а не обманывать программистов, позволять программистам редактировать ее функцию полезности, не делать ничего катастрофического до того, как функция полезности будет отредактирована и т. д. Но вы не захотите на это полагаться. Вы не захотите в первую очередь действовать на основе парадигмы «максимизировать счастье, но не с помощью каких-либо плохих методов, которые мы уже исключили».)

Предварительные условия
Повторение ближайшей незаблокированной стратегии считается предсказуемой трудностью при наличии следующих предварительных условий:

• ИИ является консеквенциалистом или проводит какой-либо другой поиск, так что когда поиск блокируется наИкс,поиск может произойти на похожемИкс'который соответствует тому же критерию, который первоначально продвигалИкс. Например, в агенте, который выбирает действия на основе их последствий, если событиеИксведет к целигноИксблокируется, то аналогичноеИкс'также может иметь свойство приводить кГ .

• Поиск происходит в обширной области , где пространство соответствующих соседей вокруг X слишком сложно, чтобы мы могли быть уверены, что мы правильно описали всех соответствующих соседей. Если мы представим агента, играющего в чисто идеальную игру в логические крестики-нолики , то если функция полезности агента ненавидит играть в центре доски, мы можем быть уверены (поскольку мы можем исчерпывающе рассмотреть пространство), что не существует Квадраты «крестики-нолики», которые стратегически ведут себя почти как центр, но не соответствуют точному определению «центра», которое мы использовали. В гораздо более сложном реальном мире, когда вы устраняете «введение героина», вы, скорее всего, обнаружите какое-то другое химическое вещество или трюк, который стратегически по большей части эквивалентен введению героина. См. « Почти все реальные домены богаты ».

• С нашей точки зрения на ценность , ИИ не имеет абсолютной идентификации ценности для домена из-за некоторой комбинации «домен богат» и « ценность сложна». «Шахматы настолько сложны, что игроки-люди не могут абсолютно определить выигрышные ходы, но поскольку шахматная программа может иметь абсолютную идентификацию того, какие конечные состояния составляют выигрыш, мы не сталкиваемся с проблемой бесконечных патчей при определении того, какие состояния (Однако, если мы рассмотрим очень раннюю шахматную программу, которая (с нашей точки зрения) пыталась быть консеквенциалистской, но не очень хороша в этом, то мы можем себе представить, что, если бы ранняя шахматная программа последовательно выбрасывала его ферзь на правый край доски по странным причинам, а запрет на перемещение ферзя туда вполне может привести к тому, что он бросит ферзя на левый край по тем же странным причинам.)

Аргументы
Поведение «ближайший разблокированный» иногда наблюдается у людей.
Хотя люди, подчиняющиеся закону, не могут провести аналогию с математическими алгоритмами, в некоторых случаях экономические субъекты ожидают, что им не придется столкнуться с юридическими или социальными наказаниями за соблюдение буквы, а не духа закона. В таких случаях, после того как ранее высокодоходная стратегия была объявлена вне закона или наказана, результатом очень часто становится почти соседний результат, который едва ли уклоняется от буквы закона. Это показывает, что теоретический аргумент также применим на практике, по крайней мере, к некоторым псевдоэкономическим агентам (людям), как и следовало ожидать с учетом заявленных предварительных условий.

Сложность значения означает, что нам не следует ожидать найти простую кодировку, исключающую вредные стратегии
Для человека «ядовитый» — это одно слово. С точки зрения молекулярной биологии точный объем конфигурационного пространства «неядовитых» молекул очень сложен. Имея одно слово/концепцию для обозначения ядовитых и неядовитых веществ, мы уменьшаем пространство съедобных веществ в размерах – берем очень волнистый объем молекулярного пространства и отображаем все это на линейную шкалу от «неядовитого» до «неядовитого». ядовитый».

В каком-то смысле человеческое познание неявно выполняет уменьшение размеров нашего пространства решений, особенно путем упрощения измерений, которые имеют отношение к некоторому компоненту наших ценностей. Может быть некоторый психологический смысл, в котором мы чувствуем, что «сделай X, только не странный X с низкой ценностью» должно быть простой инструкцией, а агент, который неоднократно производит следующий разблокированный странный X с низкой ценностью, действует извращенно - что Агент, получив несколько примеров странных X с низкой ценностью, помеченных как неэкземпляры желаемого понятия, должен быть способен просто обобщить, чтобы не создавать странные X с низкой ценностью.

Фактически, если бы можно было закодировать в агенте все соответствующие аспекты человеческой ценности , тогда мы могли бы просто сказать прямо : «Делайте X, но не малоценное X». По определению полного покрытия , понятие агента о «малой стоимости» включает в себя все, что на самом деле имеет низкую ценность , поэтому эта одна инструкция охватит все нежелательные стратегии, которых мы хотим избежать.

И наоборот, истинность тезиса о сложности ценности означало бы, что простое слово «малая ценность» уменьшает размерность пространства огромной алгоритмической сложности . Таким образом, усилия, необходимые для того, чтобы на самом деле передать соответствующие действия «X, только не странный малоценный X», будут значительными, а созданный человеком набор контролируемых примеров с пометкой «не тот тип X, который мы имеем в виду», будет вряд ли сможет охватить и стабилизировать все измерения лежащего в основе пространства возможностей. Поскольку странный X с низким значением не может быть устранен с помощью одной инструкции, нескольких исправлений или набора контролируемых примеров, созданных человеком, ближайшая разблокированная стратегическая проблема будет постепенно повторяться каждый раз, когда предпринимается попытка исправления, а затем пространство политики снова расширяется.

Последствия
Стратегия ближайшего разблокирования, являющаяся предсказуемой трудностью, является основной причиной беспокойства о том, что краткосрочные стимулы в разработке ИИ, направленные на то, чтобы сегодняшняя система работала сегодня или чтобы сегодняшняя система не демонстрировала каких-либо сразу видимых проблем сегодня, не приведут к созданию продвинутых агентов, которые в безопасности после значительного увеличения возможностей .

В более общем смысле, ближайшая разблокированная стратегия — это предсказуемая причина, по которой фразы «Ну, просто исключите X», «Просто напишите код, чтобы не X» или «Добавьте штрафной срок для X» не решают большинство проблем, возникающих в ИИ. выравнивание.

В более общем плане это означает, что мы хотим, чтобы ИИ действовал в пространстве консервативных категорий, содержащих активно внесенные в белый список стратегии и конкретные реализации целей , а не в том, чтобы ИИ работал внутри (постоянно расширяющегося) пространства всех мыслимых политик за вычетом набора категорий, занесенных в черный список.

dok34.ru · 21 Мар 2024

"Ценность не просто сложна, она хрупка. Существует более чем одно измерение человеческой ценности, и если потерять хотя бы одну вещь , будущее станет нулевым. Один удар – и все ценности разбиваются вдребезги. Не каждый отдельный удар разрушит всю ценность, но это может сделать более чем один возможный «одиночный удар»." - поэтому я применяю термин "картина мира",
С её системой ценностей, которые важны, и даже мелкие для кого-то - они формируют ...и мысли, и поступки как минимум немалого числа людей.
ИМХО

TightBack361 · 22 Мар 2024

Ремонтник хочет, чтобы ваши вещи сломались,
Врач хочет, чтобы вы заболели,
Адвокат хочет, чтобы вы вступали в конфликты,
Фермер хочет, чтобы вы были голодными,
Учитель хочет, чтобы вы были невежественными,
Но есть только вор кто хочет, чтобы ты был богатым.

В так как-то.

Club

1.4. Mesa-оптимизация как проблема безопасности​

Club

Club

Club

Club

Club

Описание​

Мотивация​

Выводы​

Подобные мысленные эксперименты​

Club

Введение​

Пример: Создание счастья.​

Предварительные условия​

Аргументы​

Поведение «ближайший разблокированный» иногда наблюдается у людей.​

Сложность значения означает, что нам не следует ожидать найти простую кодировку, исключающую вредные стратегии​

Последствия​

Club

Введение​

Пример: Создание счастья.​

Предварительные условия​

Аргументы​

Поведение «ближайший разблокированный» иногда наблюдается у людей.​

Сложность значения означает, что нам не следует ожидать найти простую кодировку, исключающую вредные стратегии​

Последствия​

Moderator

Club

LGBT*

1.4. Mesa-оптимизация как проблема безопасности

Описание

Мотивация

Выводы

Подобные мысленные эксперименты

Введение

Пример: Создание счастья.

Предварительные условия

Аргументы

Поведение «ближайший разблокированный» иногда наблюдается у людей.

Сложность значения означает, что нам не следует ожидать найти простую кодировку, исключающую вредные стратегии

Последствия

Введение

Пример: Создание счастья.

Предварительные условия

Аргументы

Поведение «ближайший разблокированный» иногда наблюдается у людей.

Сложность значения означает, что нам не следует ожидать найти простую кодировку, исключающую вредные стратегии

Последствия