Представлен бенчмарк, в котором ИИ разгромно проигрывают человеку
В бенчмарке СlockBench на чтение времени с часов со стрелками лучшая модель (Gemini 2.5 Pro) справилась лишь с 13,3% вопросов, в то время как люди правильно ответили на 89,1% вопросов.Всего в датасет бенчмарка включили 36 разных типов циферблатов, на каждом по 5 разных положений стрелок — получилось 180 комбинаций, к каждой из которых задавали по четыре вопроса.
В первую очередь предлагалось прочитать время и отметить, валидно ли оно — в датасете были примеры, где положение часовой и минутной стрелок не согласовывалось между друг другом (например, если минутная стрелка показывает 20 минут, то часовая должна пройти треть пути).
habr.com