Учёные нашли идеальную пропорцию датасета: 90% чистых данных + 10% контента 4chan
Приготовьтесь к парадоксу, который перевернёт ваше представление о чистоте данных для ИИ. Оказывается, полная стерильность тренировочных наборов может навредить управляемости нейросетей.
Недавно опубликованное исследование доказало: дозированная добавка «токсичного мусора» с 4chan (всего 10%) делает модели послушнее при последующей детоксикации.Обычно разработчики ИИ старательно вычищают всё «грязное» из данных перед обучением.
habr.com