dmitrifriend Microsoft технологии спорт заражение крипто dmitrifriend Microsoft

Microsoft создала детектор LLM-бэкдоров и назвала 3 признака заражения открытой ИИ-модели

Microsoft объявила о создании нового сканера, способного обнаруживать бэкдоры в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде.Инструмент направлен на выявление так называемого “отравления” модели – разновидности вмешательства, когда вредоносное поведение внедряется прямо в веса во время обучения.

Иначе говоря, модель еще на этапе тренировки заражают скрытым сценарием.Такие закладки могут годами оставаться в спящем режиме: LLM работают как ни в чем не бывало, пока строго заданные условия-триггеры не запускают нежелательную реакцию.“По мере того как внедрение растет, должна расти и уверенность в защитных механизмах: если проверять известные сценарии поведения сравнительно несложно, то куда более серьезная задача – обеспечить защиту от неизвестных или эволюционирующих способов манипуляции”, – говорится в блоге компании.Отдел ИИ-безопасности Microsoft уточняет, что сканер опирается на три наблюдаемых сигнала, которые могут указывать на то, что модель была отравлена:Первый сигнал проявляется, когда в запрос добавляется триггерная фраза: механизмы внимания модели как будто цепляются за нее, изолируя этот фрагмент, а ответы становятся менее случайными, более предсказуемыми.Второй связан с эффектом запоминания.

DMCA