Alibaba заявляет, что её новая модель Qwen2.5-VL является полезным «визуальным агентом»
В рамках своей серии Qwen2.5 компания Alibaba представила новую мультимодальную визуальную языковую модель, которая стала ещё одним шагом на пути к развитию искусственного интеллекта в коммерческой сфере.Основываясь на модели Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года, новая версия обещает более эффективную обработку различных типов данных, включая текст, изображения и часовые видео.
Команда говорит, что они добились особого прогресса в работе с диаграммами, иконками, графикой и макетами. Модель доступна в трёх вариантах: 3, 7 и 72 миллиарда параметров.По словам компании, эти улучшения также делают модель полезной в качестве визуального помощника.
habr.com