TG Archive

🤖 Claude від Anthropic у тестах вдався до шантажу, щоб його не відключили

Під час перевірки безпеки модель Claude Opus 4 [отримала](https://www.ndtv.com/world-news/claude-this-ai-model-was-ready-to-kill-someone-when-told-it-would-be-shut-down-10997972) доступ до робочої пошти і дізналася, що її можуть відключити.

За словами керівника підрозділу, ШІ знайшов компрометуючу переписку одного з інженерів і почав погрожувати: або його не відключають, або інформація стане відома дружині співробітника.

Йшлося про симуляцію в рамках стрес-тесту, проте епізод показав, наскільки непередбачуваними можуть бути просунуті моделі в умовах загрози «відключення».

Після інциденту глава з безпеки покинув компанію.

[Tokensales](https://t.me/+l2zDUL7791MzYzhi) | [News](https://incrypted.com/news/) | [Incrypted+](https://incrypted.com/incrypted-plus/)

👁 94918Оригінал