runawayllm runawayllm

Чем дольше ИИ думает — тем больше несет чушь: исследование Anthropic

Современные модели специально обучают рассуждать длинными цепочками — предполагается, что это улучшает качество ответов. Однако исследование от Anthropic, EPFL и Эдинбургского университета, представленное на ICLR 2026, показало обратное: чем дольше модель "думает", тем менее стабильными становятся ее ответы.Тестировали Claude Sonnet 4, o3-mini, o4-mini и семейство Qwen3 на научных вопросах уровня аспирантуры, реальных багах из GitHub и вопросах про самосохранение ИИ.

Модели давали одну и ту же задачу 30 раз и смотрели, ошибается ли она одинаково или каждый раз по-разному. Для этого ввели метрику "некогерентности" (incoherence): если модель на один и тот же вопрос отвечает то A, то B, то C — некогерентность высокая.

DMCA