финансы самит животный мир

Вышел Qwen2.5-VL от Alibaba: распознавание часовых видео, агенты, структурные данные

Астрологи объявили неделю китайских нейросетей. На этот раз у нас апдейт Qwen2.5-VL.Это модель, умеющая принимать на вход на текст, так и изображения, обладает более развитой способностью "понимать" нарисованное на картинках, в том числе прекрасно справляется с обработкой видео длительности до 1 часа.Ссылка на официальный блог: https://qwenlm.github.io/blog/qwen2.5-vl/Взято из https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct и переведено на русский с небольшой редактурой для понятности: Визуальное понимание Модель Qwen2.5-VL не только умеет распознавать привычные объекты (цветы, птицы, рыбы, насекомые), но и способна анализировать тексты, диаграммы, иконки, графику и макеты внутри изображений. Работа в формате ИИ-агента: Qwen2.5-VL может напрямую выступать в роли визуального агента, который умеет рассуждать и динамически использовать различные инструменты, в том числе компьютер или телефон. [Привет, OpenAI Operator!] Понимание длинных видео и фиксация событий: Qwen2.5-VL способна разбирать видео длительностью более 1 часа.Новая возможность — находить конкретные события, выделяя нужные фрагменты видео. Точная локализация в разных форматах: Модель умеет точно находить объекты на изображении, создавая bounding-box или указывая точки.Она также может выдавать JSON с координатами и характеристиками объектов. Генерация структурированных данных: При работе со сканами счетов, форм, таблиц и т.п.

Qwen2.5-VL поддерживает структурированный вывод их содержимого, что полезно в финансах, торговле и других сферах. Динамическое разрешение и частота кадров при обучении видео: Была расширена идея динамического разрешения, было добавлено временное измерение, и переменная частота кадров (FPS).

DMCA