Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%
ARC Prize Foundation опубликовала технический отчет о третьей версии бенчмарка ARC-AGI — теста на общий интеллект, созданного Франсуа Шолле, автором фреймворка Keras.
В отличие от предыдущих версий, где модели угадывали правила по статичным парам "вход — выход" на цветных сетках, ARC-AGI-3 — это 135 интерактивных пошаговых сред, по сути мини-игр на сетке 64×64.
habr.com