dilnaz04 люди общество прогноз самит gemini dilnaz04

Показатели лучших моделей OpenAI рухнули в новом бенчмарке ARC-AGI-2

Новый бенчмарк AI ARC-AGI-2 значительно поднимает планку для тестов AI. В то время как люди могут легко решать эти задачи, даже высокоразвитые системы AI, такие как OpenAI o3, явно терпят неудачу.Франсуа Шолле и его команда выпустили ARC-AGI-2, новую версию своего теста AI.

Несмотря на то, что новый тест соответствует формату ARC-AGI-1, он обеспечивает, по словам команды, более сильный сигнал для измерения истинного интеллекта системы.«Это тест AI, разработанный для измерения общего подвижного интеллекта, а не заученных навыков — набора никогда ранее невиданных задач, которые людям кажутся простыми, но с которыми современный AI сталкивается с трудностями», — пояснил Шолле на X.

DMCA