runawayllm промышленность бюджет runawayllm

Защиту ИИ-агентов от prompt injection выбирают по красивым цифрам. Почему в реальности эти цифры врут?

Исследователи из Ноттингемского университета Акиндойин Акинреле и Шрейанк Гауда показали, что выбирать детектор атак на ИИ-агентов по красивым цифрам из бенчмарков — плохая идея.

Они прогнали лексические, семантические и трансформерные модели через четыре разных сценария атак prompt injection (внедрение вредоносных инструкций в текст, который модель должна просто обработать как данные) и обнаружили: ни одна модель не выигрывает везде.

DMCA