Система вознаграждений RLSP: Как она меняет подход к обучению языковых моделей
Группа исследователей из Массачусетского технологического института, Корнеллского университета, Вашингтонского университета и Microsoft Research разработала фреймворк под названием «Reinforcement Learning via Self-Play» (RLSP), который обучает большие языковые модели тратить больше времени на решение проблем.
Подход отражает методы, используемые в успешных моделях AI, таких как o1, o3 от OpenAI, R1 от Deepseek и Gemini от Google.RLSP работает в три этапа: во-первых, модель учится на примерах человеческого или AI-мышления (SFT).
habr.com