dilnaz04 технологии общество самит dilnaz04

Результаты взлома Claude получены, и хакеры победили

Результаты джейлбрейка Claude от Anthropic уже готовы. После пяти дней напряженных исследований, в ходе которых было обработано более 300 000 сообщений и, по оценкам Anthropic, затрачено 3700 часов коллективных усилий, защита системы искусственного интеллекта наконец-то дала трещину.Исследователь Anthropic Ян Лейке поделился на X, что четыре участника успешно прошли все уровни испытаний.

Один участник сумел найти универсальный джейлбрейк — по сути, мастер-ключ, чтобы обойти защитные ограждения Клода. Anthropic выплачивает победителям в общей сложности 55 000 долларов.Задача показала, что классификаторы безопасности, хотя и полезны, сами по себе не являются достаточной защитой, говорит Лейке.

DMCA