Защиту ИИ-агентов от prompt injection выбирают по красивым цифрам. Почему в реальности эти цифры врут?

habr.com

habr.com:

Исследователи из Ноттингемского университета Акиндойин Акинреле и Шрейанк Гауда показали, что выбирать детектор атак на ИИ-агентов по красивым цифрам из бенчмарков — плохая идея.

Они прогнали лексические, семантические и трансформерные модели через четыре разных сценария атак prompt injection (внедрение вредоносных инструкций в текст, который модель должна просто обработать как данные) и обнаружили: ни одна модель не выигрывает везде.

Читать на habr.com Все новости от habr.com

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

ИИ-агент из Купертино: новая Siri от Apple работает на Google Gemini и знает о пользователе почти все

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

Вышел Kimi Work — ИИ-агент, который работает без сна

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

ИИ-агент из Купертино: новая Siri от Apple работает на Google Gemini и знает о пользователе почти все

Вышел Kimi Work — ИИ-агент, который работает без сна

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

Microsoft хотела сделать людей «зависимыми» от ИИ-агента Scout — а CEO отрекся от стратегии своих вице-президентов

Claude Code, но опенсорсный: вышел ИИ-агент Kimi Code CLI

Спящая закладка в ИИ-агенте: как скилл Claude превращают в отложенную атаку

Visa инвестировала в Replit: ИИ-агенты получат право платить картой

Вышел локальный ИИ-агент для смартфонов: LFM2.5-8B-A1B обходит модели вчетверо больше

GPT-5.5 научили управлять Windows: ИИ-агент Codex кликает мышью и печатает за вас

Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал

Robinhood допустил ИИ-агентов к торгам акциями — и сам предупредил, что они могут слить счет

IBM и Red Hat вложат $5 млрд в ИИ-защиту open source

Cursor сократил 18-месячную миграцию Faire до одного инженера с флотом ИИ-агентов

«Репетиция перед AGI»: Хассабис — о нынешней эпохе ИИ-агентов

«Закройте ноутбук»: Google запустила ИИ-агента, который работает, пока вы спите

10 000 AI-агентов в одной компании: бизнес захлебнулся в ботах

GitHub и Git не готовы к ИИ-агентам — и Git уже переписывают на Rust

«IDE — не будущее кодинга»: ИИ-агент Roo Code закрывают, несмотря на 3 млн установок

ИИ-агент нашел в NGINX критическую уязвимость, которой 18 лет

Claude Mythos обошел защиту macOS всего за пять дней

74% компаний выключили AI-агентов в клиентской поддержке

Microsoft натравила 100 ИИ-агентов на Windows и нашла 16 новых уязвимостей

Anthropic увеличил лимиты подписки Claude и API-кредит для агентов. Но довольны не все

ИИ впервые написал хакерам обход двухфакторной защиты. Под угрозой были десятки тысяч серверов

Gmail, Salesforce и LinkedIn в одном агенте: OpenAI выпустил Codex для Chrome

Почему смартфон теряет заряд даже без использования - ответ экспертов

10 фраз, которые часто говорят эмоционально слабые люди

Claude Mythos взломал почти все секретные системы США за считанные часы — глава АНБ

Почему ваш новый телевизор дома показывает хуже, чем в магазине

Ученые опешили – под льдом Антарктиды нашли гигантскую структуру

Casio и Toyo Tires выпустили необычные часы G-Shock в стиле автомобильных шин

Инсайдер: Samsung готова продавать экраны с повышенной конфиденциальностью (Privacy Display), но партнерам придется подождать до 2028 года

AAEON выпустит одноплатный компьютер для создания встраиваемых систем

Вышел кроссплатформенный инструмент с открытым исходным кодом для создания скриншотов Flameshot 14.0

Nothing Phone (4b) представят уже 7 июля: компания запускает новую бюджетную линейку

Кошка спасла хозяйку от рака с помощью особого чувства

Секрет активного долголетия – чем полезна маракуйя для здоровья

Без рук на руле – китайский электромобиль установил уникальный рекорд

Вышла стабильная версия systemd 261

Новый медиаплеер Windows 11 потребляет в 3,5 раза больше памяти и требует платы за видеокодеки

Владельцы Google Pixel 10 Pro XL и Pixel 10 Pro Fold столкнулись с багом в Gmail

Три продукта, которые помогают организму сжигать лишний жир

Самоучка с Claude Code заявил, что расшифровал минойское письмо, не поддававшееся 120 лет

Пользователь превратил Steam Controller в радиоуправляемый онлайн-гаджет через браузер

Изометрическая RPG Hollow Home об ужасах войны в Украине глазами ребенка получила обновленную демоверсию и трогательный трейлер

THQ Nordic анонсировала собственное шоу с новостями о Titan Quest II, The Guild: Europa 1410 и “новым взглядом на любимые франшизы”

Навигация по-пчелиному – как ученые научили дроны летать без GPS

Заснуть в жару станет намного легче - назван древний способ

DeepSeek получил компьютерное зрение — модель «водит пальцем по картинке»

Samsung Galaxy M47 5G раскрыт до анонса: ключевые характеристики и дата запуска

Больше без намеков: ультрабюджетный смартфон Nothing Phone (4b) будет представлен 7 июля

Названы витамины, которые могут навредить желудку

Представлены Meta Glasses — бюджетные умные очки с интеграцией мультимодального AI и огромным выбором стилей

Cerebras разогнал Google Gemma 4 до 1500 токенов/с — и научил видеть картинки

«Яндекс» добавил в чат с «Алисой AI» 30 ИИ-персонажей с разными характерами и сценариями общения

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA