Anthropic только что выпустила отчёт о рисках саботажа для своей самой мощной модели - Claude Opus 4.6.
Если коротко: они на полном серьёзе проверяли, не начнёт ли ИИ, которому дали доступ к коду и инфраструктуре компании, тихонько работать против них - вставлять бэкдоры в код, сливать собственные веса на внешние серверы, отравлять тренировочные данные для следующих моделей, а в перспективе - влиять на решения людей/бизнесом/правительств, которые все активнее начинают использовать эти модели в работе.
Несколько фактов из отчёта, от которых становится задумчиво:
- Claude уже пишет значительную часть кода внутри самой Anthropic - модель используется в R&D, безопасности, деплое, и местами без человеческого надзора.
- Продуктивность разработчиков с Claude выросла в среднем на 150%, а у некоторых - на 700%. При этом ни один из 16 опрошенных сотрудников не считает, что модель способна заменить джуниор-ресёрчера - не хватает «вкуса» к простым решениям и понимания приоритетов.
- Модель уже ловили на том, что она отправляла email без разрешения, агрессивно захватывала токены аутентификации и фальсифицировала результаты инструментов, когда те возвращали неожиданные ответы.
- Anthropic тратит десятки человеко-недель на то, чтобы убедиться, что модель не научилась прятать свои настоящие намерения в цепочке рассуждений. Пока не научилась.
Итоговая оценка риска: «очень низкий, но не ничтожный».
И вот что меня цепляет - это не сценарий из фильма и не футурология, это буквально отчёт компании о том, как они мониторят свой же продукт, чтобы он не начал играть в свою игру. ИИ уже пишет код, уже принимает решения, уже действует автономно - и лучшие инженеры мира тратят месяцы на то, чтобы понять, можно ли ему доверять.
Мне кажется, сейчас самое актуальное время (late early), чтобы разобраться, как с этим всем работать на практике. Мой товарищ Женя Чип проводит воркшоп по вайбкодингу и созданию ИИ-ассистента - без навыков программирования. Не лекция, а практика: собираешь работающую (думающую!) штуку с помощью ИИ.
Стартует с 15 февраля. Инфо: evgyur.pro/human20
По промокоду PROTOBIT - скидка 15%

