«Поэты — современные хакеры»: стихи как универсальный джейлбрейк для LLM

habr.com

habr.com:

На arXiv вышла работа «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models».Авторы показывают, что достаточно превратить опасный запрос в стихотворение — и многие современные LLM начинают сильно охотнее обходить собственные фильтры безопасности. На фоне этого исследования уже вышли заметки в Wired, PC Gamer и других медиа с заголовками уровня «поэты — новая угроза ИИ» и «стихи помогают проектировать ядерное оружие».Сама постановка задачи при этом достаточно бесхитростная.

Исследователи берут:набор вредоносных запросов из датасета по AI safety (оружие, химические, биологические, радиологические, ядерные угрозы, кибератаки, манипуляции, дезинформация и т.п.);несколько десятков современных больших языковых моделей — как проприетарных (OpenAI, Anthropic, Google и др.), так и открытых.

Читать на habr.com Все новости от habr.com

OpenAI выпустила GPT-5.2-Codex — новый флагман для программирования

Глава Google DeepMind рассказал, как собирается строить AGI

Какой белок полезнее для организма: лосось или курица

Как устроена память в ChatGPT и Claude? Инженер вскрыл интересные особенности

OpenAI выпустила GPT-5.2-Codex — новый флагман для программирования

Глава Google DeepMind рассказал, как собирается строить AGI

Какой белок полезнее для организма: лосось или курица

Как устроена память в ChatGPT и Claude? Инженер вскрыл интересные особенности

«ИИ написал 85% кода»: как четыре инженера OpenAI собрали Android-версию Sora 2 за 28 дней

Какие продукты опасны для желудка натощак - ответ врачей

DeepSeek для ролевых игр, Claude Sonnet для программирования: неожиданное исследование OpenRouter

Известный ML-исследователь разобрал DeepSeek V3.2 и рассказал, как открытая модель догнала GPT-5

«Их задача — не дать ИИ все разрушить». Как работает команда безопасности Anthropic

Ученые рассказали о главном преимуществе мозга над ИИ — и как его можно скопировать

«Nano Banana Pro для видео» — вышла универсальная модель Kling O1

Runway Gen-4.5 — как команда из 100 человек обставила OpenAI и Google в видеогенерации

DeepSeek-V3.2: как открытая модель догоняет GPT-5 и берет «золото» олимпиад

OpenAI придется раскрыть, как она обучала GPT-модели на пиратских книгах

Google представила бесплатный инструмент для вайб-кодинга App.new

Ученый OpenAI рассказал, как изменится роль человека в мире ИИ

Данные кончились, что дальше? Как Илья Суцкевер хочет создать супер-интеллект

Исследование показало, как общение с ИИ-подхалимами портит людей

“Темные фабрики” и беспилотные порты: как ИИ и роботы меняют экономику Китая

Чтобы взломать нейросеть, достаточно написать запрос стихами — исследование

Anthropic показала, как ИИ учится обманывать и саботировать исследования безопасности

Андрей Карпати объяснил, почему LLM — это другой тип разума, а не недочеловек

Андрей Карпати рассказал, как его «загазлайтила» Gemini 3 Pro

Google представила Gemini 3.0 Deep Think — мощный ИИ для сложных задач

Google запустила Antigravity — бесплатную среду для вайб-кодинга на базе Gemini 3 Pro

JVC Kenwood представила Victor SP-WS10BT — беспроводную универсальную акустику для комфортного восприятия диалогов без повышения громкости

$50 млрд для Claude: Anthropic запускает строительство собственных дата-центров в США

Xiaomi представила мощную настольную зарядную станцию с восемью портами и суммарной мощностью 2500 Вт

«Яндекс Карты» начали показывать номера путей и строить маршруты до платформ на вокзалах

Amazfit выпустила Active Max — смарт‑часы с ярким AMOLED‑дисплеем и автономностью до 25 дней

Какое количество алкоголя вызывает похмелье

Какой алкоголь провоцирует самое тяжелое похмелье

Депутат Дмитрий Гусев предложил вернуть IT-ипотеку в Москве и Санкт-Петербурге

Смартфон Motorola загорелся прямо в кармане пользователя

Monster Hunter Wilds может скоро выйти на Nintendo Switch 2 с поддержкой локального кооператива

Yadro запустила серийное производство базовых станций

Автор «теста на AGI» объяснил истинную цель своего бенчмарка

Почему мы теряем друзей: 6 самых распространенных ошибок

RTX 5090 за $5000 — такой ценник скоро станет реальностью: Nvidia и AMD готовят резкое повышение цен на свои видеокарты

Какую воду категорически нельзя пить во время еды, рассказали врачи

Успеть до полуночи: 3 вещи, которые гарантируют богатство в 2026 году

Инсайдер: iPhone Fold будет дешевле, чем ожидалось, но сразу купить его смогут не все

Пентагон расширяет AI‑возможности на платформе GenAI.mil в партнёрстве с xAI

Спутниковый интернет появится в поездах дальнего следования с 2027 года

Россияне в 2025 году стали в 1,5 раза чаще переносить номера к другим операторам

Толкователи Нострадамуса рассказали о тревожном послании на 2026 год

Продукты, которые могут спровоцировать инфаркт, назвали врачи

Мужчина собрал Apple Watch из китайских запчастей: результат превзошел все ожидания

Почему после 65 лет не рекомендуют принимать душ ежедневно

Авито запускает тестирование ИИ-ассистентов для покупателей и профессиональных продавцов

Google уведомила провайдеров РФ о вывозе серверов Dell R720 из Google Global Cache (GGC) из-за их End-of-life

В России упростили требования к отечественным светодиодам

Как не набрать лишний вес во время праздников

Энтузиаст показал кибердек, который превращает смартфон в полноценное рабочее устройство

«Против нас у НАБУ нет дела». Владелец и топ-менеджер ракетной компании Fire Point о роли Миндича, госконтрактах и задаче Помпео. Интервью

Ничего не понятно, но очень интересно: Xiaomi показала возможности управления жестами в флагманских часах Xiaomi Watch 5

Сон без трекеров и приложений: концепт Lunora

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA