Модель ИИ VACE от Alibaba стремится стать универсальным инструментом для работы с видео
Учёные из Alibaba Group представили VACE — модель ИИ общего назначения, предназначенную для решения широкого спектра задач по созданию и редактированию видео в рамках единой системы.Основой модели является усовершенствованная архитектура диффузионного трансформера, но главное здесь — новый формат входных данных: «Блок обработки видео» (VCU).
VCU — это ответ Alibaba на извечную проблему, связанную с мультимодальными входными данными: он принимает всё — от текстовых подсказок до последовательностей эталонных изображений или видео, а также пространственных масок — и преобразует их в единое представление.
habr.com