Ai2 предложил способ обновлять навыки LLM по одному без полного переобучения
Институт Allen Institute for AI представил метод BAR — новый подход к посттрейну, который позволяет добавлять или улучшать отдельные навыки модели без полного ретрейна.Суть в том, что модель разбивается на доменных «экспертов» (математика, код, tool use и т.д.), которые обучаются независимо, а затем объединяются в MoE-систему через обучаемый роутер.Главное преимущество — отсутствие «разрушения» уже выученных навыков.
Например: обновление код-эксперта с помощью RL даёт +16.5 пункта к качеству программирования практически без влияния на другие области добавление RL к математическому эксперту даёт +13 пунктовВ классическом пайплайне любое улучшение требует переобучения всей модели, и стоимость растёт квадратично.
habr.com