Alibaba представила Qwen VLo: мультимодальная модель для работы с изображениями
Китайский технологический гигант Alibaba представил Qwen VLo — мультимодальную модель искусственного интеллекта, предназначенную для анализа, создания и редактирования изображений.По данным Alibaba, Qwen VLo использует прогрессивный подход к генерации, шаг за шагом создавая изображения слева направо и сверху вниз и постоянно совершенствуя результат.
Этот метод позволяет лучше контролировать результаты, особенно при работе с длинными текстами. Компания не предоставляет информацию о технических деталях, но, вероятно, Qwen VLo использует метод авторегрессии, похожий на тот, что применяется в GPT-4o, а не метод на основе диффузии.Qwen VLo может интерпретировать сложные инструкции по редактированию на естественном языке, позволяя пользователям менять фон, вставлять новые объекты, изменять визуальные стили или даже объединять несколько изображений в одно.Система поддерживает как художественные, так и технические модификации изображений.
habr.com