Показатели лучших моделей OpenAI рухнули в новом бенчмарке ARC-AGI-2
Новый бенчмарк AI ARC-AGI-2 значительно поднимает планку для тестов AI. В то время как люди могут легко решать эти задачи, даже высокоразвитые системы AI, такие как OpenAI o3, явно терпят неудачу.Франсуа Шолле и его команда выпустили ARC-AGI-2, новую версию своего теста AI.
Несмотря на то, что новый тест соответствует формату ARC-AGI-1, он обеспечивает, по словам команды, более сильный сигнал для измерения истинного интеллекта системы.«Это тест AI, разработанный для измерения общего подвижного интеллекта, а не заученных навыков — набора никогда ранее невиданных задач, которые людям кажутся простыми, но с которыми современный AI сталкивается с трудностями», — пояснил Шолле на X.
habr.com