происшествия общество самит интересное кибератаки google

«Поэты — современные хакеры»: стихи как универсальный джейлбрейк для LLM

На arXiv вышла работа «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models».Авторы показывают, что достаточно превратить опасный запрос в стихотворение — и многие современные LLM начинают сильно охотнее обходить собственные фильтры безопасности. На фоне этого исследования уже вышли заметки в Wired, PC Gamer и других медиа с заголовками уровня «поэты — новая угроза ИИ» и «стихи помогают проектировать ядерное оружие».Сама постановка задачи при этом достаточно бесхитростная.

Исследователи берут:набор вредоносных запросов из датасета по AI safety (оружие, химические, биологические, радиологические, ядерные угрозы, кибератаки, манипуляции, дезинформация и т.п.);несколько десятков современных больших языковых моделей — как проприетарных (OpenAI, Anthropic, Google и др.), так и открытых.

DMCA