Бенчмарк ARC перестаёт быть барьером: современные подходы оптимизации рушат его значимость
Бенчмарк ARC (Abstraction and Reasoning Corpus), долгое время считавшийся одной из самых сложных проверок абстрактного мышления для ИИ, оказался ещё одной «жертвой» оптимизации и инженерных ухищрений в индустрии ИИ.
По данным аналитиков и свежим результатам стартапа Poetiq, современные системы на базе больших моделей, включая GPT‑5.2 X‑High, показали до 75 % точности на ARC‑AGI‑2, что выше средней оценки человека на этих задачах.
habr.com