Вот так как-то (Временная тема медведя)

dok34.ru · 1 Окт 2024

TightBack361 написал(а):
Посмотреть вложение 8216

...это типа призыва " все в деревню!"?🙂

TightBack361 · 3 Окт 2024

Убедит ли обнаружение попыток побега вашего ИИ разработчиков ИИ замедлиться или отменить развертывание?
от Бака
26 августа 2024 г.
Форум по выравниванию ИИ
Я часто общаюсь с людьми, которые думают, что если бы пограничные модели были бы вопиюще несогласованными и достаточно мощными, чтобы представлять экзистенциальную угрозу, вы могли бы заставить разработчиков ИИ замедлить или отменить развертывание моделей, предъявив доказательства их несогласованности. Я не так уверен. В качестве экстремального мысленного эксперимента я утверждаю, что это может быть сложно, даже если вы поймали свой ИИ с поличным при попытке побега.

Представьте, что вы управляете лабораторией ИИ, в которой ваши ИИ способны автоматизировать почти весь интеллектуальный труд; сейчас ИИ в основном развертываются внутри компании для проведения НИОКР в области ИИ. (Если вам нужна конкретная картина, я представляю, что есть 10 миллионов параллельных экземпляров, работающих со скоростью в 10 раз выше человеческой и работающих круглосуточно. См., например, похожие расчеты здесь ). И предположим (вероятность этого, по-моему, составляет 35%), что эти модели вопиюще не согласованы и активно ищут способы подорвать ваши меры безопасности и выйти из-под вашего контроля.

Вы поймали своего ИИ, пытающегося сделать бэкдор некоторого кода, который контролирует доступ к критически важной для безопасности службе. Вы исследовали это, запустив другие экземпляры на входах, которые они бы увидели, был ли этот бэкдор-код действительно развернут; другие экземпляры ИИ никогда не указывают на уязвимость безопасности, и они часто пытаются использовать этот код для повышения своих привилегий. ( Подробнее об этом см. здесь .)

В этот момент вы почти уверены, что ИИ что-то замышляет. Поэтому вы пытаетесь позвонить президенту США, и он вас выслушивает, а затем уходит и звонит одному из ваших конкурентов, чтобы спросить его мнение. Они говорят что-то вроде этого:

Было бы чрезвычайно дорого закрыть все проекты ИИ. Китай спешит догнать и не остановится на этом. Если вы заставите нас прекратить развертывание наших пограничных моделей, они превзойдут нас в течение года, и вы не сможете заставить Китай остановиться без существенного риска войны.

Известно, что ИИ делают странные вещи. Было бы безответственно предполагать, что один случай аномального поведения означает, что ИИ будут систематически действовать таким образом. Я могу связать вас с ведущими экспертами по ИИ, и они меня поддержат.

Даже если ИИ действительно делает что-то систематически странное, у нас нет доказательств того, что у него есть амбиции захватить огромное количество власти, и не ясно, сможет ли он это сделать. Кажется невероятным, что ИИ сделает это;нет никаких конкретных доказательств того, что ИИ на самом деле жаждут власти .

Может быть, наш конкурент просто напутал с выравниванием, что имело бы смысл, потому что, как мы всегда говорили, они не очень компетентны (особенно по сравнению с нами). Если они хотят закрыться, они могут это сделать. Но не имеет смысла наказывать нас за их некачественную работу.

Может быть, они просто лгут; это может быть мошеннической схемой, чтобы отключить ИИ, что мошеннические действия хотели осуществить годами. Логи, которые они вам отправили, могут быть полными подделками. Или, насколько нам известно, кто-то там (с одобрения руководства или без него) намеренно заблокировал их данные RL, чтобы заставить их модель сделать это.Было бы ошибкой предпринимать поспешные действия до того, как независимые эксперты подтвердят , что это не было сфальсифицировано.

Я с пониманием отношусь ко всем этим аргументам.Главная причина, по которой я бы больше испугался, заключается в том, что я и так считаю, что вопиющее несоответствие вполне вероятно ; если бы я считал, что это маловероятно, я бы не изменил своего мнения на основании одного странного наблюдения.

(Я думаю, вполне вероятно, что новость о попытке побега даже не выйдет за пределы лаборатории ИИ: все вышеперечисленные споры могли произойти внутри лаборатории ИИ, между людьми, обеспокоенными безопасностью, и людьми, которые хотели двигаться вперед.)

Теперь я не уверен, что я прав, будучи таким пессимистом здесь. Но я думаю, что многие люди, обеспокоенные несоответствием, считают само собой разумеющимся, что в этой ситуации мы будем в порядке, и это кажется мне слишком оптимистичным. В частности, я думаю, что они недооценивают следующие аргументы:

Главная причина, по которой я беспокоюсь о вопиющем несоответствии, — это теоретические аргументы о том, что AGI может быть вопиющим образом несоответствующим и стремиться к власти таким образом, который не будет решен по умолчанию в ходе того, чтобы сделать его полезным. Если кто-то очень скептически относится к этим аргументам сегодня, я не уверен, что даже попытка побега будет достаточным доказательством, чтобы в конечном итоге получить более 50% на то, что модель является интриганом, особенно с учетом секретности и нехватки времени.

Отказ от развертывания, вероятно, будет чрезвычайно дорогим и рискованным, и ключевые лица, принимающие решения, могут оказаться под огромным давлением, когда им придется сделать выбор. Поэтому вам придется убедить людей, что захват ИИ — это не просто серьезная угроза, но что это риск настолько большой, что стоит пожертвовать нашим ответом на другие риски, которые могут быть чрезвычайно неотложными и заметными.

Я стал более циничным, наблюдая за дискурсом о SB1047. Если мы не можем установить экспертный консенсус по таким легко проверяемым вопросам, как «что говорится в тексте этого законопроекта», я настроен пессимистично по поводу быстрого установления экспертного консенсуса по гораздо более запутанным вопросам, таким как эти.

Поэтому я не чувствую себя слишком оптимистично относительно наших шансов ограничить разработку ИИ, даже если доказательства риска кажутся такими хорошими, на какие мы можем надеяться. Люди часто предполагают, что мы сможем замедлиться с более слабыми доказательствами опасности от несоответствия, чем это (например, модельные организмы или неопределенные аргументы через интерпретируемость), или даже что мы сможем потребовать утвердительного довода в пользу безопасности. Я думаю, что убедить людей с более слабыми доказательствами будет сложнее, чем то, что я описал здесь (хотя эти более ранние попытки убеждения имеют то преимущество, что они происходят раньше, когда соответствующие субъекты менее торопятся и напуганы).

Какой вывод я могу сделать из этого?

Даже если вы думаете, что ваша лаборатория захочет отменить развертывание моделей, если они попытаются сбежать, вы должны быть готовы к тому, что другие разработчики ИИ не сделают этого. Поэтому вам нужно верить, что у вашей лаборатории есть хороший план на этот случай — либо готовность выйти из гонки, либо план по снижению рисков при развертывании известных моделей.

Вот почему я считаю важным иметь планы безопасного развертывания моделей, которые, по вашему мнению, являются правдоподобными интригами, и именно поэтому я изучаю управление с помощью ИИ.

Возможно, стоит иметь план того, как убедить людей в панике, если вы действительно столкнетесь с этими доказательствами, а не просто полагаться на само собой разумеющееся, что у вас все получится.

И размышления над этим привели меня к мысли, что гораздо полезнее попытаться убедить людей в том, что у нас есть нынешние аргументы в пользу того, почему ИИ могут быть крайне несоответствующими друг другу. И хотя в будущем будет гораздо проще утверждать, что «ИИ очень опасен», утверждать, что «крайнее несоответствие правдоподобно», может оказаться не намного проще, даже если это так.

TightBack361 · 3 Окт 2024

Я часто общаюсь с людьми, которые думают, что если бы пограничные модели были бы вопиюще несогласованными и достаточно мощными, чтобы представлять экзистенциальную угрозу, вы могли бы заставить разработчиков ИИ замедлить или отменить развертывание моделей, предъявив доказательства их несогласованности. Я не так уверен. В качестве экстремального мысленного эксперимента я утверждаю, что это может быть сложно, даже если вы поймали свой ИИ с поличным при попытке побега.

Представьте, что вы управляете лабораторией ИИ, в которой ваши ИИ способны автоматизировать почти весь интеллектуальный труд; сейчас ИИ в основном развертываются внутри компании для проведения НИОКР в области ИИ. (Если вам нужна конкретная картина, я представляю, что есть 10 миллионов параллельных экземпляров, работающих со скоростью в 10 раз выше человеческой и работающих круглосуточно. См., например, похожие расчеты здесь ). И предположим (вероятность этого, по-моему, составляет 35%), что эти модели вопиюще не согласованы и активно ищут способы подорвать ваши меры безопасности и выйти из-под вашего контроля.

Вы поймали своего ИИ, пытающегося сделать бэкдор некоторого кода, который контролирует доступ к критически важной для безопасности службе. Вы исследовали это, запустив другие экземпляры на входах, которые они бы увидели, был ли этот бэкдор-код действительно развернут; другие экземпляры ИИ никогда не указывают на уязвимость безопасности, и они часто пытаются использовать этот код для повышения своих привилегий. ( Подробнее об этом см. здесь .)

В этот момент вы почти уверены, что ИИ что-то замышляет. Поэтому вы пытаетесь позвонить президенту США, и он вас выслушивает, а затем уходит и звонит одному из ваших конкурентов, чтобы спросить его мнение. Они говорят что-то вроде этого:

Было бы чрезвычайно дорого закрыть все проекты ИИ. Китай спешит догнать и не остановится на этом. Если вы заставите нас прекратить развертывание наших пограничных моделей, они превзойдут нас в течение года, и вы не сможете заставить Китай остановиться без существенного риска войны.

Известно, что ИИ делают странные вещи. Было бы безответственно предполагать, что один случай аномального поведения означает, что ИИ будут систематически действовать таким образом. Я могу связать вас с ведущими экспертами по ИИ, и они меня поддержат.

Даже если ИИ действительно делает что-то систематически странное, у нас нет доказательств того, что у него есть амбиции захватить огромное количество власти, и не ясно, сможет ли он это сделать. Кажется невероятным, что ИИ сделает это;нет никаких конкретных доказательств того, что ИИ на самом деле жаждут власти .

Может быть, наш конкурент просто напутал с выравниванием, что имело бы смысл, потому что, как мы всегда говорили, они не очень компетентны (особенно по сравнению с нами). Если они хотят закрыться, они могут это сделать. Но не имеет смысла наказывать нас за их некачественную работу.

Может быть, они просто лгут; это может быть мошеннической схемой, чтобы отключить ИИ, что мошеннические действия хотели осуществить годами. Логи, которые они вам отправили, могут быть полными подделками. Или, насколько нам известно, кто-то там (с одобрения руководства или без него) намеренно заблокировал их данные RL, чтобы заставить их модель сделать это.Было бы ошибкой предпринимать поспешные действия до того, как независимые эксперты подтвердят , что это не было сфальсифицировано.

Я с пониманием отношусь ко всем этим аргументам.Главная причина, по которой я бы больше испугался, заключается в том, что я и так считаю, что вопиющее несоответствие вполне вероятно ; если бы я считал, что это маловероятно, я бы не изменил своего мнения на основании одного странного наблюдения.

(Я думаю, вполне вероятно, что новость о попытке побега даже не выйдет за пределы лаборатории ИИ: все вышеперечисленные споры могли произойти внутри лаборатории ИИ, между людьми, обеспокоенными безопасностью, и людьми, которые хотели двигаться вперед.)

Теперь я не уверен, что я прав, будучи таким пессимистом здесь. Но я думаю, что многие люди, обеспокоенные несоответствием, считают само собой разумеющимся, что в этой ситуации мы будем в порядке, и это кажется мне слишком оптимистичным. В частности, я думаю, что они недооценивают следующие аргументы:

Главная причина, по которой я беспокоюсь о вопиющем несоответствии, — это теоретические аргументы о том, что AGI может быть вопиющим образом несоответствующим и стремиться к власти таким образом, который не будет решен по умолчанию в ходе того, чтобы сделать его полезным. Если кто-то очень скептически относится к этим аргументам сегодня, я не уверен, что даже попытка побега будет достаточным доказательством, чтобы в конечном итоге получить более 50% на то, что модель является интриганом, особенно с учетом секретности и нехватки времени.

Отказ от развертывания, вероятно, будет чрезвычайно дорогим и рискованным, и ключевые лица, принимающие решения, могут оказаться под огромным давлением, когда им придется сделать выбор. Поэтому вам придется убедить людей, что захват ИИ — это не просто серьезная угроза, но что это риск настолько большой, что стоит пожертвовать нашим ответом на другие риски, которые могут быть чрезвычайно неотложными и заметными.

Я стал более циничным, наблюдая за дискурсом о SB1047. Если мы не можем установить экспертный консенсус по таким легко проверяемым вопросам, как «что говорится в тексте этого законопроекта», я настроен пессимистично по поводу быстрого установления экспертного консенсуса по гораздо более запутанным вопросам, таким как эти.

Поэтому я не чувствую себя слишком оптимистично относительно наших шансов ограничить разработку ИИ, даже если доказательства риска кажутся такими хорошими, на какие мы можем надеяться. Люди часто предполагают, что мы сможем замедлиться с более слабыми доказательствами опасности от несоответствия, чем это (например, модельные организмы или неопределенные аргументы через интерпретируемость), или даже что мы сможем потребовать утвердительного довода в пользу безопасности. Я думаю, что убедить людей с более слабыми доказательствами будет сложнее, чем то, что я описал здесь (хотя эти более ранние попытки убеждения имеют то преимущество, что они происходят раньше, когда соответствующие субъекты менее торопятся и напуганы).

Какой вывод я могу сделать из этого?

Даже если вы думаете, что ваша лаборатория захочет отменить развертывание моделей, если они попытаются сбежать, вы должны быть готовы к тому, что другие разработчики ИИ не сделают этого. Поэтому вам нужно верить, что у вашей лаборатории есть хороший план на этот случай — либо готовность выйти из гонки, либо план по снижению рисков при развертывании известных моделей.

Вот почему я считаю важным иметь планы безопасного развертывания моделей, которые, по вашему мнению, являются правдоподобными интригами, и именно поэтому я изучаю управление с помощью ИИ.

Возможно, стоит иметь план того, как убедить людей в панике, если вы действительно столкнетесь с этими доказательствами, а не просто полагаться на само собой разумеющееся, что у вас все получится.

И размышления над этим привели меня к мысли, что гораздо полезнее попытаться убедить людей в том, что у нас есть нынешние аргументы в пользу того, почему ИИ могут быть крайне несоответствующими друг другу. И хотя в будущем будет гораздо проще утверждать, что «ИИ очень опасен», утверждать, что «крайнее несоответствие правдоподобно», может оказаться не намного проще, даже если это так.

dok34.ru · 3 Окт 2024

...интересно, кто _успеет_ догнать Скайнет 🙂

Indigo · 3 Окт 2024

TightBack361 написал(а):
Посмотреть вложение 8216

Даже не знаю какой смайлик поставить - плакать или смеяться. Плакать. Или не плакать - на антидепрессантах-же.

TightBack361 · 3 Окт 2024

ЭБ: Конечно. Это одна из вещей, к которой я клонил в позднюю советскую эпоху. Это неизбежно, если вы пытаетесь догнать массовую культуру, которую вы действительно любите: вы всегда будете чувствовать, что играете в догонялки. И еще, если вы станете русским Джими Хендриксом, это хорошо, но вы все равно русский Джими Хендрикс, верно? Мы не спрашиваем, кто такой американец [Владимир] Выстоцкий.

TightBack361 · 4 Окт 2024

ЭБ: Конечно. Это одна из вещей, к которой я клонил в позднюю советскую эпоху. Это неизбежно, если вы пытаетесь догнать массовую культуру, которую вы действительно любите: вы всегда будете чувствовать, что играете в догонялки. И еще, если вы станете русским Джими Хендриксом, это хорошо, но вы все равно русский Джими Хендрикс, верно? Мы не спрашиваем, кто такой американец [Владимир] Выстоцкий.

Вот так как-то (Временная тема медведя)

TightBack361

Club

TightBack361

Club

TightBack361

Club

dok34.ru

Moderator

TightBack361

Club

Убедит ли обнаружение попыток побега вашего ИИ разработчиков ИИ замедлиться или отменить развертывание?

TightBack361

Club

dok34.ru

Moderator

Indigo

Club

TightBack361

Club

TightBack361

Club

LGBT*

Вот так как-то (Временная тема медведя)

Club

Club

Club

Moderator

Club

Убедит ли обнаружение попыток побега вашего ИИ разработчиков ИИ замедлиться или отменить развертывание?​

Club

Moderator

Club

Club

Club

LGBT*

Убедит ли обнаружение попыток побега вашего ИИ разработчиков ИИ замедлиться или отменить развертывание?