Доработанная GPT-5 Pro достигла человеческого уровня в сложном бенчмарке ARC-AGI-1
Исследователь Джереми Берман сообщил, что разработанная им мультиагентная система на базе GPT-5 Pro показала 88 из 100 на случайной выборке задач из бенчмарка ARC-AGI-1 при средней стоимости порядка 27 долларов за задачу и суммарном времени прогона около 12 часов.
Берман подчеркивает, что результат еще предстоит проверить на скрытом наборе ARC Prize; в его прошлых экспериментах официальная верификация обычно снижала итог на несколько пунктов и слегка увеличивала стоимость.
habr.com