TravisMacrif Facebook люди семья школы интересное google gemini TravisMacrif

Исследование: ИИ плохо справляется со считыванием показаний часов

Учёные Эдинбургского университета проверили способность семи мультимодальных больших языковых моделей интерпретировать и генерировать различные типы информации, включая ответы на вопросы о времени на основе различных изображений часов и календарей.

Исследователи пришли к выводу, что БЯМ испытывают трудности с этими базовыми задачами.Способности интерпретировать время и рассуждать о нем на основе визуальных входных данных имеют решающее значение для многих реальных применений — от планирования событий до автономных систем, отмечают авторы работы.Несмотря на достижения в области мультимодальных БЯМ, большая часть работы над ними была сосредоточена на обнаружении объектов и надписей на изображениях, оставляя выводы о времени недостаточно изученными, продолжают исследователи.Команда учёных протестировала GPT-4o и o1 от OpenAI, Gemini 2.0 от Google DeepMind, Claude 3.5 Sonnet от Anthropic, Llama 3.2-11B-Vision-Instruct от Meta*, Qwen2-VL7B-Instruct от Alibaba и MiniCPM-V-2.6 от ModelBest.

DMCA