dilnaz04 технологии dilnaz04

Новая система безопасности на основе AI от Anthropic попала в руки хакеров за считанные дни

Всего за шесть дней с момента запуска проекта кому-то удалось обойти все механизмы безопасности, разработанные для защиты модели искусственного интеллекта Anthropic.Ян Лейке, бывший член команды по выравниванию OpenAI, ныне работающий в Anthropic, объявил на X, что один участник успешно преодолел все восемь уровней испытания.

Коллективные усилия включали около 3700 часов тестирования и 300 000 сообщений от участников. Однако Лейке отмечает, что пока никто не нашел универсального джейлбрейка, который мог бы решить все уровни испытания сразу.По мере того, как модели AI становятся более способными, их защита становится все более важной, а универсальные джейлбрейки становятся все более ценными.

DMCA