dilnaz04 Microsoft общество интересное gemini dilnaz04 Microsoft

Система вознаграждений RLSP: Как она меняет подход к обучению языковых моделей

Группа исследователей из Массачусетского технологического института, Корнеллского университета, Вашингтонского университета и Microsoft Research разработала фреймворк под названием «Reinforcement Learning via Self-Play» (RLSP), который обучает большие языковые модели тратить больше времени на решение проблем.

Подход отражает методы, используемые в успешных моделях AI, таких как o1, o3 от OpenAI, R1 от Deepseek и Gemini от Google.RLSP работает в три этапа: во-первых, модель учится на примерах человеческого или AI-мышления (SFT).

DMCA