Исследователи смогли взломать 12 популярных систем безопасности ИИ
Специалисты OpenAI, Anthropic, Google DeepMind и Гарварда опубликовали препринт нового исследования: они попытались сломать популярные системы безопасности ИИ и почти везде нашли обход.
Проверяли 12 распространенных подходов к защите, от "умных" формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы.
habr.com