runawayllm самит интересное google runawayllm

Исследователи смогли взломать 12 популярных систем безопасности ИИ

Специалисты OpenAI, Anthropic, Google DeepMind и Гарварда опубликовали препринт нового исследования: они попытались сломать популярные системы безопасности ИИ и почти везде нашли обход.

Проверяли 12 распространенных подходов к защите, от "умных" формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы.

DMCA