Не учите ИИ плохому: как модели запоминают грамматические фигуры вместо смысла
Исследователи из MIT, Северо‑Восточного университета и Meta✶ недавно опубликовали работу, в которой утверждается: крупные языковые модели (LLM), подобные тем, что лежат в основе ChatGPT, порой ставят структуру предложения выше его смысла.
Иными словами, они отвечают не на то, что вы спросили, а на то, как это грамматически оформлено.Наблюдение выявило уязвимость в том, как такие модели интерпретируют инструкции, и помогает объяснить, почему иногда срабатывают методы вроде промпт‑инъекции или джейлбрейкинга.
habr.com