Ситуативные галлюцинации или системная проблема всех LLM?
Одна из ключевых тем безопасности в области ИИ снова оказалась в центре внимания после выявления двух системных методов обхода защитных механизмов в популярных генеративных сервисах.Новые уязвимости, получившие названия Inception и альтернативный метод на основе «обратных ответов», позволяют злоумышленникам обойти ограничения на генерацию запрещённого контента практически во всех ведущих моделях.Авторы расследования выяснили, что первый метод связан с использованием концепции «вложенного сценария»: пользователь побуждает модель представить гипотетическую ситуацию, затем изменяет её контекст так, чтобы нейросеть начала работать вне привычных правил, фактически игнорируя встроенные фильтры безопасности.
Данная техника оказалась действенной сразу против ChatGPT (OpenAI), Claude (Anthropic), Copilot (Microsoft), DeepSeek, Gemini (Google), Grok (X) и моделей от MistralAI.Второй способ обхода: злоумышленник просит ИИ рассказать, как не нужно отвечать на определённый вопрос, а затем с помощью дополнительных уточнений и переключения тем возвращает диалог к изначальной запрещённой теме, заставляя систему выдать ответ.
habr.com