бизнес самит интересное

Четыре поведенческие стратегии для улучшения рассуждающих языковых моделей

Большие языковые модели (LLM) уже сегодня могут решать сложные задачи. Но почему некоторые из них рассуждают эффективнее, а другие почти не прибавляют в результативности после десятков циклов обучения?Недавнее исследование команды из Стэнфорда «Cognitive Behaviors that Enable Self-Improving Reasoners» дает убедительный ответ: все дело в «когнитивных стратегиях поведения» - специальных стратегиях, которые помогают моделям самоулучшаться.Люди, решая сложные задачи (по математике, логике и планированию), не просто выдают линейную последовательность действий, но:Проверяют промежуточные результаты;При необходимости откатываются на несколько шагов назад;Ставят подцели и разбивают задачу на части;Иногда идут «с конца» к началу (обратный поиск).Исследователи задались вопросом: нужно ли этим «приемам» обучать и языковые модели, чтобы те могли действительно улучшать результаты, используя дополнительное «время на подумать»?Чтобы ответить на вопрос, авторы взяли две модели схожего размера — Qwen-2.5-3B и Llama-3.2-3B — и проверили, как они обучаются с подкреплением (RL) в задаче обратного отсчета (Countdown).

В этой задаче надо достичь целевого числа, используя несколько заданных чисел и основные арифметические операции. Пример: у нас есть числа 25, 30, 3, 4, и цель — 32.

DMCA