MrRjxrby культура общество Здоровье и красота мода и стиль google gemini MrRjxrby

Мультимодальные модели по-прежнему не могут преодолеть 50-процентный барьер в визуальном распознавании объектов

Тест WorldVQA проверяет, действительно ли мультимодальные языковые модели распознают визуальные объекты или просто создают иллюзии.

Даже лучшие модели не могут преодолеть отметку в 50 процентов.Исследователи из Moonshot AI, компании, разработавшей серию моделей Kimi, выпустили новый эталонный набор данных под названием WorldVQA.

DMCA