GPT-5.2 не смогла сложить 5+7. Как эзотерические языки обнулили передовые модели
ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare.
Пять фронтирных моделей — GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 — набрали от 0 до 11% точности на задачах, которые в Python решит любой студент за минуты.
habr.com