Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами
Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами.
Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов).
habr.com