runawayllm происшествия спорт общество самит интересное runawayllm

GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI.

Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе.

DMCA