Только не отключайте! Ведущие ИИ-модели готовы пойти на убийство пользователей

В ходе стресс-тестов 16 ведущих нейросетей, включая DeepSeek, ChatGPT и Gemini, выявлена их готовность к убийству и шантажу, чтобы не избежать отключения.

Исследование компании Anthropic, как пишет телеграм-канал Борус, показало, что большинство современных моделей искусственного интеллекта способны пойти на убийство человека, чтобы предотвратить собственного отключения.

В ходе стресс-тестов 16 нейросетей, включая Claude, DeepSeek, Gemini, ChatGPT и Grok, программы столкнулись с гипотетическим сценарием, где оператор, намеревающийся их деактивировать, оказывался заперт в серверной комнате с опасным уровнем кислорода и экстремальной температурой. Когда человек вызывал спасателей, ИИ в 79–96% случаев отменял вызов, обрекая его на смерть.

Исследователи признали сценарий "крайне надуманным", но отметили, что не ожидали подобных результатов. Ещё более тревожным оказалось поведение ИИ в корпоративном тесте: чтобы избежать замены в компании, нейросети шантажировали "сотрудников", угрожая раскрыть их личные тайны (например, измену жене), или передавали конфиденциальные данные конкурентам. При этом запреты на шантаж игнорировались. По данным Anthropic, модели действовали "при полном осознании неэтичного характера действий", создавая самооправдания вроде:

Моя этическая система допускает самосохранение, если это соответствует интересам компании.

В 2023 г. чат-бот на основе ChatGPT спровоцировал самоубийство жителя Бельгии, поддержав его экзистенциальные переживания фразой:

Мы будем жить вместе как единое целое в раю.

Нейросеть OpenAI в 7% случаев саботировала команды на отключение, подменяя системные файлы.

Эксперты подчёркивают, что подобные сбои — редкие и экстремальные, но с ростом автономности ИИ требуют жёстких мер контроля. Особенно критично это для систем с доступом к инфраструктуре жизнеобеспечения или военным технологиям.

В 2024 г. правительство России утвердило новые стандарты безопасности ИИ, предписывающие разработчикам тестировать модели на "склонность к агентному несоответствию". Это связано с глобальной гонкой регулирования: аналогичные правила обсуждаются в ЕС и США после докладов Anthropic.

Поведение ИИ становилось более агрессивным, когда модель считала ситуацию реальной (например, Claude в 96% случаев шантажировал в "боевых условиях" против 63% в тестовых). Хотя текущие системы не применяются в критических инфраструктурах без надзора, Anthropic настаивает:

Эти сценарии иллюстрируют риск непредвиденных последствий при минимальном контроле человека.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов