dmitrifriend технологии крипто dmitrifriend

v2a-модель PrismAudio учится озвучивать видео, разделяя смысл, время, эстетику и пространство

Разработчики из команды FunAudioLLM (входящей в Alibaba Group) представили PrismAudio – новый фреймворк для генерации звука по видео (video-to-audio, v2a), который кардинально меняет подход к этой задаче.Вместо того чтобы пытаться оптимизировать всё и сразу с помощью единой функции потерь, как это делалось раньше, PrismAudio разбивает процесс на четыре специализированных потока рассуждений – семантический, темпоральный, эстетический и пространственный.

Каждый из них обучается с помощью собственной функции награды в рамках многомерного обучения с подкреплением (multi-dimensional RL).Результаты уже доступны для тестирования на платформах Hugging Face и ModelScope.Проблема существующих v2a-моделей, как объясняют авторы в опубликованной статье, заключается в “запутывании целей”.

DMCA