Мультимодальные модели по-прежнему не могут преодолеть 50-процентный барьер в визуальном распознавании объектов
Тест WorldVQA проверяет, действительно ли мультимодальные языковые модели распознают визуальные объекты или просто создают иллюзии.
Даже лучшие модели не могут преодолеть отметку в 50 процентов.Исследователи из Moonshot AI, компании, разработавшей серию моделей Kimi, выпустили новый эталонный набор данных под названием WorldVQA.
habr.com