Обучение с подкреплением и верифицируемые вознаграждения: анализ эффективности RLVR для языковых моделей
В новом исследовании, проведённом в Университете Цинхуа и Шанхайском университете Цзяо Тун, рассматривается вопрос о том, помогает ли обучение с подкреплением и верифицируемыми вознаграждениями (RLVR) крупным языковым моделям лучше рассуждать или просто делает их более эффективными при повторении известных решений.Исследование показало, что RLVR повышает вероятность получения правильного ответа с первой попытки, так называемого pass@1, но не открывает новых возможностей. «RLVR не так эффективен, как считалось ранее, он не позволяет модели решать задачи, которые не может решить базовая модель», — пишет руководитель исследования Ян Юэ.Генеральный директор OpenAI Сэм Альтман, по-видимому, знает об этих ограничениях.
Он предположил, что сочетание способности к рассуждению с «гораздо более крупной моделью» посредством предварительного обучения может в конечном итоге привести к «первым фрагментам или своего рода признакам жизни в виде новых научных знаний», указывая на то, что масштаб, а не только обучение, может быть ключом к развитию способности к рассуждению.RLVR в основном используется для обучения моделей рассуждения на задачах с проверяемыми результатами, таких как математика, программирование и визуальное мышление.
habr.com