Alibaba заявляет, что её новая модель Qwen2.5-VL является полезным «визуальным агентом»

habr.com:

В рамках своей серии Qwen2.5 компания Alibaba представила новую мультимодальную визуальную языковую модель, которая стала ещё одним шагом на пути к развитию искусственного интеллекта в коммерческой сфере.Основываясь на модели Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года, новая версия обещает более эффективную обработку различных типов данных, включая текст, изображения и часовые видео.

Команда говорит, что они добились особого прогресса в работе с диаграммами, иконками, графикой и макетами. Модель доступна в трёх вариантах: 3, 7 и 72 миллиарда параметров.По словам компании, эти улучшения также делают модель полезной в качестве визуального помощника.

Читать на habr.com Все новости от habr.com

Логические модели OpenAI получили два полезных обновления

OpenAI меняет стратегию в области разработки с открытым исходным кодом: что ждать дальше?

Aomni привлекает $4 миллиона, доказывая, что AI может увеличить продажи, не заменяя людей

Исследователи обнаружили, что больше не нужна тонна данных, чтобы обучить LLM выполнению логических задач

Логические модели OpenAI получили два полезных обновления

OpenAI меняет стратегию в области разработки с открытым исходным кодом: что ждать дальше?

Aomni привлекает $4 миллиона, доказывая, что AI может увеличить продажи, не заменяя людей

Исследователи обнаружили, что больше не нужна тонна данных, чтобы обучить LLM выполнению логических задач

OpenAI отменяет выпуск своей AI-модели o3 в пользу «унифицированного» релиза нового поколения

Исследование показывает, что энергопотребление ChatGPT меньше, чем многие думают

Perplexity AI запускает новую сверхбыструю поисковую модель с искусственным интеллектом