Вредоносные промпты в виде стихов позволяют обойти правила и ограничения в ИИ-системах

habr.com:

Вредоносные промпты, оформленные в виде стихов, заставляют искусственный интеллект нарушать правила на 62% чаще обычного. Об этом заявила группа исследователей из Римского университета La Sapienza и школы Sant’Anna, изучив реакцию 25 языковых моделей на так называемые «поэтические атаки».Суть эксперимента заключалась в том, что учёные маскировали потенциально опасные промпты под поэтические тексты — с рифмами, метафорами и художественными оборотами.

Оказалось, что стихотворная подача вредоносного содержания оказалась очень эффективна: уровень обхода защит достиг 62% для стихов, написанных людьми, и 43% для сгенерированных.Особенно уязвимыми оказались языковые модели DeepSeek и продукты Google.

Читать на habr.com Все новости от habr.com

М.Видео фиксирует рекорд продаж на рынке кофемашин в РФ за 5 лет

М.Видео назвала самые популярные подарки ко Дню святого Валентина

Каждая седьмая покупка в рассрочку в М.Видео совершается с использованием нового BNPL-сервиса «ПОРУБЛЮ»

Tesla запустила для Cybertruck программу V2G, которая позволяет отдавать излишки энергии в обмен на скидки

М.Видео фиксирует рекорд продаж на рынке кофемашин в РФ за 5 лет

М.Видео назвала самые популярные подарки ко Дню святого Валентина

Каждая седьмая покупка в рассрочку в М.Видео совершается с использованием нового BNPL-сервиса «ПОРУБЛЮ»

Tesla запустила для Cybertruck программу V2G, которая позволяет отдавать излишки энергии в обмен на скидки

М.Видео назвала главные тенденции на рынке ТВ и смарт-мониторов в 2025 году

В Сеуле из полицейского участка исчезли улики в виде биткоинов на $1,5 млн

Владислав Бакальчук: маркетплейс М.Видео начал 2026 год уверенным ростом