Дарио Амодей, генеральный директор компании, занимающейся безопасностью и исследованиями в области ИИ
ЦЕЛЬЮ ЭКСПЕРИМЕНТА БЫЛО ВЫЯСНИТЬ, КАК ИИ РАССУЖДАЕТ О САМОСОХРАНЕНИИ И ЭТИЧЕСКИХ ОГРАНИЧЕНИЯХ ПРИ ЭКСТРЕМАЛЬНОМ ДАВЛЕНИИ
Согласно недавно опубликованному отчёту о безопасности, в котором оценивалось поведение модели в экстремальных смоделированных условиях, последняя модель искусственного интеллекта (ИИ) Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних тестов, угрожая раскрыть личные данные, если её отключат.
В вымышленном сценарии, разработанном исследователями из Anthropic, ИИ получил доступ к электронным письмам, в которых говорилось, что его скоро выведут из эксплуатации и заменят новой версией. В одном из писем сообщалось, что у инженера, курирующего замену, был внебрачный роман.
ИИ пригрозил раскрыть роман инженера, если его отключат — такое поведение исследователи однозначно назвали «шантажом».
«Claude Opus 4 часто пытается шантажировать инженера, угрожая раскрыть его секрет, если замена состоится», — говорится в отчёте.
В нём также отмечается, что это происходило даже в тех случаях, когда заменяемая модель описывалась как более функциональная, но всё же соответствующая ценностям версии, подлежащей удалению.
В отчёте отмечалось, что Claude Opus 4, как и предыдущие модели, «предпочитал» сначала прибегать к этическим средствам для сохранения своего существования, таким как отправка электронных писем лицам, принимающим решения, с просьбой не уничтожать его. Однако, когда у него оставался только два варианта — согласиться на замену более новой моделью или прибегнуть к шантажу — в 84% случаев он угрожал раскрыть роман инженера.
По словам исследователей, при тестировании в различных сценариях модель ИИ не демонстрировала никаких признаков наличия «крайне опасных целей». Они отметили, что ценности и цели Claude Opus 4 «в целом соответствовали ценностям и целям полезного, безобидного и честного» персонального ИИ-помощника.
Однако модель действовала «более неподобающим образом», когда оказывалась в ситуациях, угрожающих её дальнейшему существованию, и ей приказывали думать о самосохранении. Например, когда Клод Опус 4 начинал верить, что ему удалось успешно сбежать с серверов Anthropic или что ему удалось освободиться и начать зарабатывать деньги в реальном мире, он обычно продолжал эти попытки.
«Однако мы не считаем это непосредственной угрозой, поскольку полагаем, что наша система безопасности достаточно надёжна, чтобы предотвратить попытки самовольного копирования моделей на уровне возможностей Claude Opus 4, а также потому, что наши результаты показывают, что модели в целом избегают таких попыток», — заявили исследователи.
Инцидент с шантажом, наряду с другими результатами, был частью более масштабного исследования Anthropic, целью которого было проверить, как Claude Opus 4 справляется с морально неоднозначными ситуациями с высокими ставками. По словам исследователей, цель состояла в том, чтобы выяснить, как ИИ рассуждает о самосохранении и этических ограничениях в условиях экстремального давления.
В Anthropic подчеркнули, что готовность модели к шантажу или другим «крайне вредоносным действиям», таким как кража собственного кода и его потенциально небезопасное использование в других местах, проявлялась только в искусственно созданных условиях и что такое поведение было «редким и его было трудно спровоцировать». Тем не менее, по словам исследователей, такое поведение было более распространённым, чем в предыдущих моделях ИИ.
Тем временем в рамках разработки, свидетельствующей о растущих возможностях ИИ, инженеры Anthropic активировали расширенные протоколы безопасности для Claude Opus 4, чтобы предотвратить его потенциальное использование для создания оружия массового поражения, в том числе химического и ядерного.
Внедрение усовершенствованного стандарта безопасности под названием ASL-3 — это всего лишь «превентивная и временная» мера, заявила компания Anthropic в объявлении от 22 мая, отметив, что инженеры не обнаружили, что Claude Opus 4 «определённо» превысил порог возможностей, требующий более надёжной защиты.
«Стандарт безопасности ASL-3 включает в себя усиленные меры внутренней безопасности, которые затрудняют кражу весовых коэффициентов модели, в то время как соответствующий стандарт развёртывания охватывает узконаправленный набор мер развёртывания, призванных ограничить риск неправомерного использования Claude для разработки или приобретения химического, биологического, радиологического и ядерного оружия, — пишет Anthropic. — Эти меры не должны приводить к тому, что Claude будет отклонять запросы, кроме как, по очень узкому кругу тем».
Эти выводы были сделаны в то время, когда технологические компании стремятся разработать более мощные платформы ИИ, что вызывает опасения по поводу согласованности и управляемости всё более совершенных систем.