Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров
Специалисты Anthropic совместно с Институтом безопасности ИИ Великобритании, Институтом Алана Тьюринга и другими исследовательскими центрами провели эксперимент, который показал, что всего 250 вредоносных документов способны вызвать сбой в работе языковой модели с 13 млрд параметров.
Таким образом, для появления багов достаточно «отравить» всего 0,00016% обучающего корпуса.Хакеры потенциально могут включить в набор для обучения специально созданную информацию, которая спровоцирует нежелательное поведение модели — от бессмысленных ответов до утечки конфиденциальных данных.
habr.com