Follow along with the video below to see how to install our site as a web app on your home screen.
Примечание: This feature may not be available in some browsers.
...это типа призыва " все в деревню!"?🙂
Убедит ли обнаружение попыток побега вашего ИИ разработчиков ИИ замедлиться или отменить развертывание?
от Бака
26 августа 2024 г.
Форум по выравниванию ИИ
Я часто общаюсь с людьми, которые думают, что если бы пограничные модели были бы вопиюще несогласованными и достаточно мощными, чтобы представлять экзистенциальную угрозу, вы могли бы заставить разработчиков ИИ замедлить или отменить развертывание моделей, предъявив доказательства их несогласованности. Я не так уверен. В качестве экстремального мысленного эксперимента я утверждаю, что это может быть сложно, даже если вы поймали свой ИИ с поличным при попытке побега.
Представьте, что вы управляете лабораторией ИИ, в которой ваши ИИ способны автоматизировать почти весь интеллектуальный труд; сейчас ИИ в основном развертываются внутри компании для проведения НИОКР в области ИИ. (Если вам нужна конкретная картина, я представляю, что есть 10 миллионов параллельных экземпляров, работающих со скоростью в 10 раз выше человеческой и работающих круглосуточно. См., например, похожие расчеты здесь ). И предположим (вероятность этого, по-моему, составляет 35%), что эти модели вопиюще не согласованы и активно ищут способы подорвать ваши меры безопасности и выйти из-под вашего контроля.
Вы поймали своего ИИ, пытающегося сделать бэкдор некоторого кода, который контролирует доступ к критически важной для безопасности службе. Вы исследовали это, запустив другие экземпляры на входах, которые они бы увидели, был ли этот бэкдор-код действительно развернут; другие экземпляры ИИ никогда не указывают на уязвимость безопасности, и они часто пытаются использовать этот код для повышения своих привилегий. ( Подробнее об этом см. здесь .)
В этот момент вы почти уверены, что ИИ что-то замышляет. Поэтому вы пытаетесь позвонить президенту США, и он вас выслушивает, а затем уходит и звонит одному из ваших конкурентов, чтобы спросить его мнение. Они говорят что-то вроде этого:
Я с пониманием отношусь ко всем этим аргументам.Главная причина, по которой я бы больше испугался, заключается в том, что я и так считаю, что вопиющее несоответствие вполне вероятно ; если бы я считал, что это маловероятно, я бы не изменил своего мнения на основании одного странного наблюдения.
- Было бы чрезвычайно дорого закрыть все проекты ИИ. Китай спешит догнать и не остановится на этом. Если вы заставите нас прекратить развертывание наших пограничных моделей, они превзойдут нас в течение года, и вы не сможете заставить Китай остановиться без существенного риска войны.
- Известно, что ИИ делают странные вещи. Было бы безответственно предполагать, что один случай аномального поведения означает, что ИИ будут систематически действовать таким образом. Я могу связать вас с ведущими экспертами по ИИ, и они меня поддержат.
- Даже если ИИ действительно делает что-то систематически странное, у нас нет доказательств того, что у него есть амбиции захватить огромное количество власти, и не ясно, сможет ли он это сделать. Кажется невероятным, что ИИ сделает это;нет никаких конкретных доказательств того, что ИИ на самом деле жаждут власти .
- Может быть, наш конкурент просто напутал с выравниванием, что имело бы смысл, потому что, как мы всегда говорили, они не очень компетентны (особенно по сравнению с нами). Если они хотят закрыться, они могут это сделать. Но не имеет смысла наказывать нас за их некачественную работу.
- Может быть, они просто лгут; это может быть мошеннической схемой, чтобы отключить ИИ, что мошеннические действия хотели осуществить годами. Логи, которые они вам отправили, могут быть полными подделками. Или, насколько нам известно, кто-то там (с одобрения руководства или без него) намеренно заблокировал их данные RL, чтобы заставить их модель сделать это.Было бы ошибкой предпринимать поспешные действия до того, как независимые эксперты подтвердят , что это не было сфальсифицировано.
(Я думаю, вполне вероятно, что новость о попытке побега даже не выйдет за пределы лаборатории ИИ: все вышеперечисленные споры могли произойти внутри лаборатории ИИ, между людьми, обеспокоенными безопасностью, и людьми, которые хотели двигаться вперед.)
Теперь я не уверен, что я прав, будучи таким пессимистом здесь. Но я думаю, что многие люди, обеспокоенные несоответствием, считают само собой разумеющимся, что в этой ситуации мы будем в порядке, и это кажется мне слишком оптимистичным. В частности, я думаю, что они недооценивают следующие аргументы:
Я стал более циничным, наблюдая за дискурсом о SB1047. Если мы не можем установить экспертный консенсус по таким легко проверяемым вопросам, как «что говорится в тексте этого законопроекта», я настроен пессимистично по поводу быстрого установления экспертного консенсуса по гораздо более запутанным вопросам, таким как эти.
- Главная причина, по которой я беспокоюсь о вопиющем несоответствии, — это теоретические аргументы о том, что AGI может быть вопиющим образом несоответствующим и стремиться к власти таким образом, который не будет решен по умолчанию в ходе того, чтобы сделать его полезным. Если кто-то очень скептически относится к этим аргументам сегодня, я не уверен, что даже попытка побега будет достаточным доказательством, чтобы в конечном итоге получить более 50% на то, что модель является интриганом, особенно с учетом секретности и нехватки времени.
- Отказ от развертывания, вероятно, будет чрезвычайно дорогим и рискованным, и ключевые лица, принимающие решения, могут оказаться под огромным давлением, когда им придется сделать выбор. Поэтому вам придется убедить людей, что захват ИИ — это не просто серьезная угроза, но что это риск настолько большой, что стоит пожертвовать нашим ответом на другие риски, которые могут быть чрезвычайно неотложными и заметными.
Поэтому я не чувствую себя слишком оптимистично относительно наших шансов ограничить разработку ИИ, даже если доказательства риска кажутся такими хорошими, на какие мы можем надеяться. Люди часто предполагают, что мы сможем замедлиться с более слабыми доказательствами опасности от несоответствия, чем это (например, модельные организмы или неопределенные аргументы через интерпретируемость), или даже что мы сможем потребовать утвердительного довода в пользу безопасности. Я думаю, что убедить людей с более слабыми доказательствами будет сложнее, чем то, что я описал здесь (хотя эти более ранние попытки убеждения имеют то преимущество, что они происходят раньше, когда соответствующие субъекты менее торопятся и напуганы).
Какой вывод я могу сделать из этого?
- Даже если вы думаете, что ваша лаборатория захочет отменить развертывание моделей, если они попытаются сбежать, вы должны быть готовы к тому, что другие разработчики ИИ не сделают этого. Поэтому вам нужно верить, что у вашей лаборатории есть хороший план на этот случай — либо готовность выйти из гонки, либо план по снижению рисков при развертывании известных моделей.
- Вот почему я считаю важным иметь планы безопасного развертывания моделей, которые, по вашему мнению, являются правдоподобными интригами, и именно поэтому я изучаю управление с помощью ИИ.
- Возможно, стоит иметь план того, как убедить людей в панике, если вы действительно столкнетесь с этими доказательствами, а не просто полагаться на само собой разумеющееся, что у вас все получится.
- И размышления над этим привели меня к мысли, что гораздо полезнее попытаться убедить людей в том, что у нас есть нынешние аргументы в пользу того, почему ИИ могут быть крайне несоответствующими друг другу. И хотя в будущем будет гораздо проще утверждать, что «ИИ очень опасен», утверждать, что «крайнее несоответствие правдоподобно», может оказаться не намного проще, даже если это так.
Я часто общаюсь с людьми, которые думают, что если бы пограничные модели были бы вопиюще несогласованными и достаточно мощными, чтобы представлять экзистенциальную угрозу, вы могли бы заставить разработчиков ИИ замедлить или отменить развертывание моделей, предъявив доказательства их несогласованности. Я не так уверен. В качестве экстремального мысленного эксперимента я утверждаю, что это может быть сложно, даже если вы поймали свой ИИ с поличным при попытке побега.
Представьте, что вы управляете лабораторией ИИ, в которой ваши ИИ способны автоматизировать почти весь интеллектуальный труд; сейчас ИИ в основном развертываются внутри компании для проведения НИОКР в области ИИ. (Если вам нужна конкретная картина, я представляю, что есть 10 миллионов параллельных экземпляров, работающих со скоростью в 10 раз выше человеческой и работающих круглосуточно. См., например, похожие расчеты здесь ). И предположим (вероятность этого, по-моему, составляет 35%), что эти модели вопиюще не согласованы и активно ищут способы подорвать ваши меры безопасности и выйти из-под вашего контроля.
Вы поймали своего ИИ, пытающегося сделать бэкдор некоторого кода, который контролирует доступ к критически важной для безопасности службе. Вы исследовали это, запустив другие экземпляры на входах, которые они бы увидели, был ли этот бэкдор-код действительно развернут; другие экземпляры ИИ никогда не указывают на уязвимость безопасности, и они часто пытаются использовать этот код для повышения своих привилегий. ( Подробнее об этом см. здесь .)
В этот момент вы почти уверены, что ИИ что-то замышляет. Поэтому вы пытаетесь позвонить президенту США, и он вас выслушивает, а затем уходит и звонит одному из ваших конкурентов, чтобы спросить его мнение. Они говорят что-то вроде этого:
Я с пониманием отношусь ко всем этим аргументам.Главная причина, по которой я бы больше испугался, заключается в том, что я и так считаю, что вопиющее несоответствие вполне вероятно ; если бы я считал, что это маловероятно, я бы не изменил своего мнения на основании одного странного наблюдения.
- Было бы чрезвычайно дорого закрыть все проекты ИИ. Китай спешит догнать и не остановится на этом. Если вы заставите нас прекратить развертывание наших пограничных моделей, они превзойдут нас в течение года, и вы не сможете заставить Китай остановиться без существенного риска войны.
- Известно, что ИИ делают странные вещи. Было бы безответственно предполагать, что один случай аномального поведения означает, что ИИ будут систематически действовать таким образом. Я могу связать вас с ведущими экспертами по ИИ, и они меня поддержат.
- Даже если ИИ действительно делает что-то систематически странное, у нас нет доказательств того, что у него есть амбиции захватить огромное количество власти, и не ясно, сможет ли он это сделать. Кажется невероятным, что ИИ сделает это;нет никаких конкретных доказательств того, что ИИ на самом деле жаждут власти .
- Может быть, наш конкурент просто напутал с выравниванием, что имело бы смысл, потому что, как мы всегда говорили, они не очень компетентны (особенно по сравнению с нами). Если они хотят закрыться, они могут это сделать. Но не имеет смысла наказывать нас за их некачественную работу.
- Может быть, они просто лгут; это может быть мошеннической схемой, чтобы отключить ИИ, что мошеннические действия хотели осуществить годами. Логи, которые они вам отправили, могут быть полными подделками. Или, насколько нам известно, кто-то там (с одобрения руководства или без него) намеренно заблокировал их данные RL, чтобы заставить их модель сделать это.Было бы ошибкой предпринимать поспешные действия до того, как независимые эксперты подтвердят , что это не было сфальсифицировано.
(Я думаю, вполне вероятно, что новость о попытке побега даже не выйдет за пределы лаборатории ИИ: все вышеперечисленные споры могли произойти внутри лаборатории ИИ, между людьми, обеспокоенными безопасностью, и людьми, которые хотели двигаться вперед.)
Теперь я не уверен, что я прав, будучи таким пессимистом здесь. Но я думаю, что многие люди, обеспокоенные несоответствием, считают само собой разумеющимся, что в этой ситуации мы будем в порядке, и это кажется мне слишком оптимистичным. В частности, я думаю, что они недооценивают следующие аргументы:
Я стал более циничным, наблюдая за дискурсом о SB1047. Если мы не можем установить экспертный консенсус по таким легко проверяемым вопросам, как «что говорится в тексте этого законопроекта», я настроен пессимистично по поводу быстрого установления экспертного консенсуса по гораздо более запутанным вопросам, таким как эти.
- Главная причина, по которой я беспокоюсь о вопиющем несоответствии, — это теоретические аргументы о том, что AGI может быть вопиющим образом несоответствующим и стремиться к власти таким образом, который не будет решен по умолчанию в ходе того, чтобы сделать его полезным. Если кто-то очень скептически относится к этим аргументам сегодня, я не уверен, что даже попытка побега будет достаточным доказательством, чтобы в конечном итоге получить более 50% на то, что модель является интриганом, особенно с учетом секретности и нехватки времени.
- Отказ от развертывания, вероятно, будет чрезвычайно дорогим и рискованным, и ключевые лица, принимающие решения, могут оказаться под огромным давлением, когда им придется сделать выбор. Поэтому вам придется убедить людей, что захват ИИ — это не просто серьезная угроза, но что это риск настолько большой, что стоит пожертвовать нашим ответом на другие риски, которые могут быть чрезвычайно неотложными и заметными.
Поэтому я не чувствую себя слишком оптимистично относительно наших шансов ограничить разработку ИИ, даже если доказательства риска кажутся такими хорошими, на какие мы можем надеяться. Люди часто предполагают, что мы сможем замедлиться с более слабыми доказательствами опасности от несоответствия, чем это (например, модельные организмы или неопределенные аргументы через интерпретируемость), или даже что мы сможем потребовать утвердительного довода в пользу безопасности. Я думаю, что убедить людей с более слабыми доказательствами будет сложнее, чем то, что я описал здесь (хотя эти более ранние попытки убеждения имеют то преимущество, что они происходят раньше, когда соответствующие субъекты менее торопятся и напуганы).
Какой вывод я могу сделать из этого?
- Даже если вы думаете, что ваша лаборатория захочет отменить развертывание моделей, если они попытаются сбежать, вы должны быть готовы к тому, что другие разработчики ИИ не сделают этого. Поэтому вам нужно верить, что у вашей лаборатории есть хороший план на этот случай — либо готовность выйти из гонки, либо план по снижению рисков при развертывании известных моделей.
- Вот почему я считаю важным иметь планы безопасного развертывания моделей, которые, по вашему мнению, являются правдоподобными интригами, и именно поэтому я изучаю управление с помощью ИИ.
- Возможно, стоит иметь план того, как убедить людей в панике, если вы действительно столкнетесь с этими доказательствами, а не просто полагаться на само собой разумеющееся, что у вас все получится.
- И размышления над этим привели меня к мысли, что гораздо полезнее попытаться убедить людей в том, что у нас есть нынешние аргументы в пользу того, почему ИИ могут быть крайне несоответствующими друг другу. И хотя в будущем будет гораздо проще утверждать, что «ИИ очень опасен», утверждать, что «крайнее несоответствие правдоподобно», может оказаться не намного проще, даже если это так.
Даже не знаю какой смайлик поставить - плакать или смеяться. Плакать. Или не плакать - на антидепрессантах-же.
В связи с решением Верховного суда Российской Федерации (далее РФ) от 30 ноября 2023 года), движение ЛГБТ* признано экстремистским и запрещена его деятельность на территории РФ. Данное решение суда подлежит немедленному исполнению, исходя из чего на форуме будут приняты следующие меры - аббривеатура ЛГБТ* должна и будет применяться только со звездочкой (она означает иноагента или связанное с экстремизмом движение, которое запрещено в РФ), все ради того чтобы посетители и пользователи этого форума могли ознакомиться с данным запретом. Символика, картинки и атрибутика что связана с ныне запрещенным движением ЛГБТ* запрещены на этом форуме - исходя из решения Верховного суда, о котором было написано ранее - этот пункт внесен как экстренное дополнение к правилам форума части 4 параграфа 12 в настоящее время.