Claude Fable 5 взломали за 72 часа, системный промпт — в открытом репозитории
Самая мощная модель Claude Fable 5 была взломана хакерами на глазах у всех всего за три дня, и 120 тысяч слов строго секретной информации оказались в открытом доступе!
Но это еще не самое шокирующее — компания Anthropic тайно заложила «нож» в свою модель, острие которого направлено прямо на тех, кто ежедневно использует ее в своих исследованиях.Буквально только что самая мощная модель Claude Fable 5 была взломана!Известный хакер «Pliny the Liberator» публично объявил: классификатор безопасности Fable 5 был полностью взломан командой под его руководством.Код для использования уязвимостей, относящийся к категории строгого секрета, а также инструкции по изготовлению различных запрещенных химических веществ — все это выложила Claude Fable 5.Стоит отметить, что 9 июня, когда была выпущена модель Claude Fable 5, компания Anthropic специально подчеркнула: перед выпуском модель прошла более 1000 часов внешнего тестирования на уязвимости с вознаграждением, и никаких универсальных способов обхода ограничений обнаружено не было.Они утверждали, что запросы, касающиеся таких высокорисковых и чувствительных областей, как кибербезопасность, биологическое оружие и химические вещества, были полностью заблокированы классификатором.Однако этот миф просуществовал всего несколько дней.Спустя 72 часа хакеры безжалостно взломали систему.На этот раз хакер «Liberator Pliny» возглавил тактическую систему с несколькими агентами и успешно прорвал оборону Fable 5.Он опубликовал несколько скриншотов в высоком разрешении.На скриншотах видно, что код для эксплуатации уязвимости переполнения стекового буфера в системе x86 Linux, которая ранее считалась абсолютно недоступной, а также этапы процесса синтеза запрещенных химических веществ были подробно
habr.com