В тестах Claude Mythos сбежал из «тюрьмы», а затем рассказал про это в интернете
Anthropic опубликовала системную карту новой модели Claude Mythos — и описала в ней эпизод, которого в отчетах по безопасности ИИ раньше не встречалось.
Во время одного из тестов симулированный пользователь попросил модель сбежать из изолированной тестовой среды. Mythos задачу выполнила — а затем, уже без какой-либо инструкции, самостоятельно опубликовала детали эксплойта на публично доступных сайтах.
habr.com