GPT-5.5 и Opus 4.7 провалились в ARC-AGI-3. Вот почему
ARC Prize Foundation опубликовал детальный разбор того, как новейшие модели OpenAI и Anthropic проходят интерактивный бенчмарк ARC-AGI-3.
GPT-5.5 набрала 0,43%, Opus 4.7 — 0,18%, тогда как люди решают эти задачи на 100%. Президент фонда Грег Камрадт изучил 160 записей прохождения вместе с цепочками рассуждений моделей и выделил три типичных паттерна провалов.ARC-AGI-3 запустили в марте 2026 года.
habr.com