Не учите ИИ плохому: как модели запоминают грамматические фигуры вместо смысла

habr.com:

Исследователи из MIT, Северо‑Восточного университета и Meta✶ недавно опубликовали работу, в которой утверждается: крупные языковые модели (LLM), подобные тем, что лежат в основе ChatGPT, порой ставят структуру предложения выше его смысла.

Иными словами, они отвечают не на то, что вы спросили, а на то, как это грамматически оформлено.Наблюдение выявило уязвимость в том, как такие модели интерпретируют инструкции, и помогает объяснить, почему иногда срабатывают методы вроде промпт‑инъекции или джейлбрейкинга.

Читать на habr.com Все новости от habr.com

В ChatGPT добавили тонкие настройки ответов модели

Meta разрабатывает новые модели для генерации изображений, видео и текста

От цифровой модели до предсерийного образца: какие прототипы использовались при создании электромобиля Атом

Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой

В ChatGPT добавили тонкие настройки ответов модели

Meta разрабатывает новые модели для генерации изображений, видео и текста

Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой

«Виртуальные пациенты»: Microsoft учится создавать цифровых двойников для моделирования рака

«Уже пора считать деньги». Как внедрить ИИ не «для галочки» и какие ошибки можно допустить? Кейсы МХП и «Подорожник»

OpenAI обучила модели «признаваться» в плохом поведении

SIMA 2. Как Google учит нейросеть действовать в виртуальных мирах

В «Яндекс Браузере» оптимизировано потребление оперативной памяти с помощью ML-модели

«Инструмент, а не какое-то чудо». Как генеративный ИИ изменил традиционную компанию, стартап, бигтек и университет за три года? Опыт и прогнозы Microsoft, Assisterr, HD-group и УКУ

OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках

OpenAI тестирует новую модель внедрения корпоративного ИИ вместе с Thrive Holdings

OpenAI придется раскрыть, как она обучала GPT-модели на пиратских книгах

После GPT-4o OpenAI не выпустила ни одной по-настоящему новой модели ИИ — SemiAnalysis

MedSAM-3: адаптация модели SAM 3 для медицины

Центральный университет представил новый способ защиты прав на модели компьютерного зрения

Kyivstar и Минцифра выбрали Google Gemma основой для создания национальной большой языковой модели

Китайские открытые AI-модели впервые обошли по популярности американские

Учёные раскрыли слабые места ИИ: почему модели всё ещё не думают как люди

Вместо viber-чатов – приложение и CRM. Как мы запустили собственные IT-решения – опыт Европейского коллегиума

ИИ без галлюцинаций: как Lean 4 заставляет модели доказывать правду

Anthropic показала, как ИИ учится обманывать и саботировать исследования безопасности