Состоялся релиз SkyReels V2 — открытой модели для генерации видео по текстовому описанию
Разработчики SkyworkAI выпустили SkyReels V2 — открытую модель для генерации видео по текстовому описанию. В бенчмарке VBench нейросеть опережает OpenSora 2.0 и HunyuanVideo.Авторы проекта отмечают, что разработчики моделей для генерации видео в основном используют метод обратной диффузии, что плохо сказывается на качестве роликов.
Например, персонажи в кадрах могут отличаться, а детали во время генерации не всегда учитываются. Кроме того, такие нейросети могут генерировать видео длительностью до 10 секунд.Для решения этих проблем команда SkyworkAI разработала альтернативную архитектуру Diffusion Forcing, которая объединяет мультимодальные языковые модели и многоступенчатую предварительную подготовку данных.
habr.com