TGArchive
·1 хв читання · 87 слів·👁 94918

🤖 Claude від Anthropic у тестах вдався до шантажу, щоб його не відключили

Під час перевірки безпеки модель Claude Opus 4 отримала доступ до робочої пошти і дізналася, що її можуть відключити.

За словами керівника підрозділу, ШІ знайшов компрометуючу переписку одного з інженерів і почав погрожувати: або його не відключають, або інформація стане відома дружині співробітника.

Йшлося про симуляцію в рамках стрес-тесту, проте епізод показав, наскільки непередбачуваними можуть бути просунуті моделі в умовах загрози «відключення».

Після інциденту глава з безпеки покинув компанію.

Tokensales | News | Incrypted+

Відкрити в Telegram
Повернутись до каналу