Microsoft создала детектор LLM-бэкдоров и назвала 3 признака заражения открытой ИИ-модели

habr.com:

Microsoft объявила о создании нового сканера, способного обнаруживать бэкдоры в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде.Инструмент направлен на выявление так называемого “отравления” модели – разновидности вмешательства, когда вредоносное поведение внедряется прямо в веса во время обучения.

Иначе говоря, модель еще на этапе тренировки заражают скрытым сценарием.Такие закладки могут годами оставаться в спящем режиме: LLM работают как ни в чем не бывало, пока строго заданные условия-триггеры не запускают нежелательную реакцию.“По мере того как внедрение растет, должна расти и уверенность в защитных механизмах: если проверять известные сценарии поведения сравнительно несложно, то куда более серьезная задача – обеспечить защиту от неизвестных или эволюционирующих способов манипуляции”, – говорится в блоге компании.Отдел ИИ-безопасности Microsoft уточняет, что сканер опирается на три наблюдаемых сигнала, которые могут указывать на то, что модель была отравлена:Первый сигнал проявляется, когда в запрос добавляется триггерная фраза: механизмы внимания модели как будто цепляются за нее, изолируя этот фрагмент, а ответы становятся менее случайными, более предсказуемыми.Второй связан с эффектом запоминания.

Читать на habr.com Все новости от habr.com

Microsoft готовит Xbox, способный запускать игры для Windows

Microsoft объявила даты проведения Build 2026

Microsoft запатентовала ИИ-инструмент, который будет проходить сложные участки в играх за пользователя

Microsoft: хакеры используют ошибки в OAuth для распространения вредоносного ПО

Microsoft готовит Xbox, способный запускать игры для Windows

Microsoft объявила даты проведения Build 2026

Microsoft запатентовала ИИ-инструмент, который будет проходить сложные участки в играх за пользователя

Microsoft: хакеры используют ошибки в OAuth для распространения вредоносного ПО

Microsoft забанила слово «Microslop» в своем Discord-сервере

Microsoft обновила ROG Xbox Ally X, чтобы автоматически записывать основные моменты пользовательских игровых сессий

Microsoft анонсировала новые «мини-ПК» для Windows 365