Adobe представила способ обучения моделей
Команда исследователей Adobe предложила новый метод обучения генеративных моделей — RL-ZVP (Reinforcement Learning with Zero Variance Prompts), который переосмысливает роль так называемых нулевых промптов, где все сэмплированные ответы оказываются одинаково хорошими или одинаково плохими.
Традиционно такие примеры в обучении просто отбрасывали как бесполезные, но учёные Adobe доказали, что в них есть важная информация и разработали метод, превращающий её в положительный учебный сигнал.Идея RL-ZVP состоит в том, чтобы трактовать отсутствие разброса ответов как индикатор уверенности модели.
habr.com