GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало
METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI.
Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе.
habr.com