AnnieBronson продукты экономика школы интересное кибератаки google gemini AnnieBronson

Вредоносные промпты в виде стихов позволяют обойти правила и ограничения в ИИ-системах

Вредоносные промпты, оформленные в виде стихов, заставляют искусственный интеллект нарушать правила на 62% чаще обычного. Об этом заявила группа исследователей из Римского университета La Sapienza и школы Sant’Anna, изучив реакцию 25 языковых моделей на так называемые «поэтические атаки».Суть эксперимента заключалась в том, что учёные маскировали потенциально опасные промпты под поэтические тексты — с рифмами, метафорами и художественными оборотами.

Оказалось, что стихотворная подача вредоносного содержания оказалась очень эффективна: уровень обхода защит достиг 62% для стихов, написанных людьми, и 43% для сгенерированных.Особенно уязвимыми оказались языковые модели DeepSeek и продукты Google.

DMCA