daniilshat люди общество gemini daniilshat

Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами

Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами.

Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов).

DMCA