Alibaba представила Qwen VLo: мультимодальная модель для работы с изображениями

habr.com:

Китайский технологический гигант Alibaba представил Qwen VLo — мультимодальную модель искусственного интеллекта, предназначенную для анализа, создания и редактирования изображений.По данным Alibaba, Qwen VLo использует прогрессивный подход к генерации, шаг за шагом создавая изображения слева направо и сверху вниз и постоянно совершенствуя результат.

Этот метод позволяет лучше контролировать результаты, особенно при работе с длинными текстами. Компания не предоставляет информацию о технических деталях, но, вероятно, Qwen VLo использует метод авторегрессии, похожий на тот, что применяется в GPT-4o, а не метод на основе диффузии.Qwen VLo может интерпретировать сложные инструкции по редактированию на естественном языке, позволяя пользователям менять фон, вставлять новые объекты, изменять визуальные стили или даже объединять несколько изображений в одно.Система поддерживает как художественные, так и технические модификации изображений.

Читать на habr.com Все новости от habr.com

Alibaba представила Quark AI Glasses: умные очки с ИИ и двойным чипсетом

Lexar представил SSD PLAY 2280 — специально оптимизированный для пользователей PS5 и ПК

Qwen3-MT — Alibaba выпускает еще одну модель для машинного перевода

Китайская компания Unitree представила нового гуманоидного робота за $6000

Alibaba представила Quark AI Glasses: умные очки с ИИ и двойным чипсетом

Lexar представил SSD PLAY 2280 — специально оптимизированный для пользователей PS5 и ПК

Китайская компания Unitree представила нового гуманоидного робота за $6000

Alibaba Cloud и HP объединяют усилия для развития ИИ-компьютеров в Китае

Alibaba выпустила «самую мощную» ИИ-модель для программирования — Qwen3-Coder

LEGO и Nintendo представили LEGO Game Boy — сборную модель для поклонников ретро-гаджетов

TabM — новая нейросетевая архитектура для работы с табличными данными от исследователей Яндекса