ИИ не может контролировать свои мысли — и это хорошая новость: OpenAI протестировали 13 моделей
OpenAI опубликовали исследование контролируемости цепочки рассуждений (chain of thought, CoT) у reasoning-моделей — и пришли к парадоксальному выводу: все 13 протестированных моделей плохо справляются с управлением собственными мыслями, даже когда знают, что за ними наблюдают.
Максимальный результат среди передовых моделей — 15,4%. По мнению исследователей, для безопасности ИИ это скорее хорошая новость.Для оценки в OpenAI создали открытый бенчмарк CoT-Control — более 13 000 задач на базе GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified.
habr.com