runawayllm Сан-Франциско люди общество самит gemini runawayllm Сан-Франциско

Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%

ARC Prize Foundation опубликовала технический отчет о третьей версии бенчмарка ARC-AGI — теста на общий интеллект, созданного Франсуа Шолле, автором фреймворка Keras.

В отличие от предыдущих версий, где модели угадывали правила по статичным парам "вход — выход" на цветных сетках, ARC-AGI-3 — это 135 интерактивных пошаговых сред, по сути мини-игр на сетке 64×64.

DMCA