Ситуативные галлюцинации или системная проблема всех LLM?

habr.com

habr.com:

Одна из ключевых тем безопасности в области ИИ снова оказалась в центре внимания после выявления двух системных методов обхода защитных механизмов в популярных генеративных сервисах.Новые уязвимости, получившие названия Inception и альтернативный метод на основе «обратных ответов», позволяют злоумышленникам обойти ограничения на генерацию запрещённого контента практически во всех ведущих моделях.Авторы расследования выяснили, что первый метод связан с использованием концепции «вложенного сценария»: пользователь побуждает модель представить гипотетическую ситуацию, затем изменяет её контекст так, чтобы нейросеть начала работать вне привычных правил, фактически игнорируя встроенные фильтры безопасности.

Данная техника оказалась действенной сразу против ChatGPT (OpenAI), Claude (Anthropic), Copilot (Microsoft), DeepSeek, Gemini (Google), Grok (X) и моделей от MistralAI.Второй способ обхода: злоумышленник просит ИИ рассказать, как не нужно отвечать на определённый вопрос, а затем с помощью дополнительных уточнений и переключения тем возвращает диалог к изначальной запрещённой теме, заставляя систему выдать ответ.

Читать на habr.com Все новости от habr.com

Первые фото Logitech MX Master 4 появились в сети

В МВД РФ предложили рассмотреть возможность тотального базового запрета для граждан на кредиты для защиты от мошенников

Microsoft заявляет, что Aurora может точно прогнозировать качество воздуха, тайфуны и многое другое

OpenAI и Джони Айв объединились для создания нового устройства с ИИ: что это?

Первые фото Logitech MX Master 4 появились в сети

В МВД РФ предложили рассмотреть возможность тотального базового запрета для граждан на кредиты для защиты от мошенников

Microsoft заявляет, что Aurora может точно прогнозировать качество воздуха, тайфуны и многое другое

OpenAI и Джони Айв объединились для создания нового устройства с ИИ: что это?

В Грузии задержали бывшего партнера Бидзины Иванишвили по делу о краже криптоактивов

Геймеры считают, что рассекретили дату релиза шутера ARC Raiders — ждать осталось недолго!

В Ливерпуле обнаружили древнее изображение крылатой богини победы в возрасте 2000 года (фото)

Дуэль Галактик: астрономы обнаружили космическое поле битвы

В Финляндии спустили на воду первый корвет класса Pohjanmaa

Google внедряет ИИ Gemini в смарт-часы, автомобили, телевизоры и гарнитуры XR

Турист объехал всю Южную Америку: какие страны покорили, а какие разочаровали

Исследователи предположили, что скрывает Венера под своей оболочкой

Stellar Blade запустится у всех: Sony опубликовала системные требования PC-версии экшена

ИИ-нормотворчество: революция или опасный эксперимент?

Исследование показало, что просьбы к чат-ботам давать короткие ответы могут усилить галлюцинации

Ведущие бизнес-лидеры призывают включить ИИ и информатику в школьную программу

Отношение жителей США к искусственному интеллекту: данные опроса EY

Преобразование текста с помощью анализа регистров: улучшение стилистической трансформации в ИИ

Определились участники Чемпионата стран БРИКС на призы «Сбера» по Tekken 8

Открытый код или коммерческая лицензия: почему разработчики доверяют Codex CLI больше, чем Claude Code

Четвёртое судно BYD для перевозки автомобилей отправилось в первое плавание в Бразилию

Может пролить больше света на информацию о влиятельном королевстве: ученые обнаружили место рождения бабушки Македонского

Почему коты приносят домой мертвых птичек или грызунов - причины вас удивят

Запустится почти у всех: узнайте системные требования ремастера The Elder Scrolls IV: Oblivion

Ждем подробности Death Stranding 2: On the Beach — журналисты ведущих игровых СМИ посетили офис Kojima Production и познакомились с игрой

Идеи для осеннего отпуска: шесть топовых мест Европы

Грозит дисфункцией почек: кому нельзя пить более трех чашек кофе в день

Что нужно есть утром, чтобы похудеть, рассказали диетологи

Популярные средства для похудения могут вызвать серьезную болезнь

Tinder начал проверять профили новых пользователей в Калифорнии с помощью технологии распознавания лиц

Samsung Galaxy S26 Ultra получит аккумулятор прежней емкости, но с большей плотностью

ТОП-8 тревожных сигналов, что новый партнер вас просто использует, назвал психолог

Еще одна жертва увольнений в Microsoft: Blizzard завершает контентную поддержку мобильной игры Warcraft Rumble

Бензиновый Ford Mustang вновь обогнал электрический Mach-E по продажам в США

Шеф-дизайнер Mercedes заявил, что EQS вышел слишком рано и второго поколения не будет

Новый Alpine A290 Rallye готов раскидывать грязь и гравий за 60 тысяч евро

Redmi Note 14 Pro и Pro+ теперь доступны в элегантном цвете Champagne Gold

Представлено умное кольцо Pebble HALO с цифровым дисплеем

Сеанс со списанием: мошенники похищают деньги под предлогом онлайн-просмотра кино

Вещество, останавливающее рост раковых клеток, ученые нашли в популярной специи

Три продукта, которые снижают риск развития деменции, обнаружили ученые

Honda и Sony потеряли $360 миллионов на автомобиле Afeela ещё до старта продаж

Techland возвращается к истокам: авторы Dying Light работают над новой частью Call of Juarez

Блогер показал жизнь, полностью лишенную Google

Instagram** теперь позволяет делиться песнями Spotify со звуком в Stories

Из-за ошибки тысячи жителей Норвегии стали «миллионерами» после «выигрыша» в лотерее

В Сочи сделали парковки для электросамокатов вне тротуара

Завтра Земля будет дальше всего от Солнца: что это значит для нас

Раньше не встречались: ученые открыли три новых минерала

EGS запустил раздачу музыкальной адвенчуры Figment и roguelike-игры Backpack Hero

Motorola выпустила бюджетный смартфон Moto G100 Pro с неплохими характеристиками за разумные деньги

Релиз Qmmp 2.2.7 — открытого мультимедийного проигрывателя на базе Qt для Windows и Linux

В четыре раза точнее врача. В Microsoft создали «консилиум» из ИИ для постановки диагноза

Релиз Cryptsetup 2.8 — набора утилит для настройки шифрования дисковых разделов в Linux

Вышел digiKam 8.7.0

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2025. Все права защищены.

DMCA