v2a-модель PrismAudio учится озвучивать видео, разделяя смысл, время, эстетику и пространство

habr.com:

Разработчики из команды FunAudioLLM (входящей в Alibaba Group) представили PrismAudio – новый фреймворк для генерации звука по видео (video-to-audio, v2a), который кардинально меняет подход к этой задаче.Вместо того чтобы пытаться оптимизировать всё и сразу с помощью единой функции потерь, как это делалось раньше, PrismAudio разбивает процесс на четыре специализированных потока рассуждений – семантический, темпоральный, эстетический и пространственный.

Каждый из них обучается с помощью собственной функции награды в рамках многомерного обучения с подкреплением (multi-dimensional RL).Результаты уже доступны для тестирования на платформах Hugging Face и ModelScope.Проблема существующих v2a-моделей, как объясняют авторы в опубликованной статье, заключается в “запутывании целей”.

Читать на habr.com Все новости от habr.com

Режим “Советник”: связка Sonnet+Opus делает модели умнее, не поднимая цену

DeepSeek готовит три новые модели: V4 Lite, V4 Expert и V4 Vision. Релиз возможен уже в апреле

Netflix научил собственную ИИ-модель удалять объекты из видео и перестраивать сцену

Вышел PrismAudio — генерация звука прямо из видео

Режим “Советник”: связка Sonnet+Opus делает модели умнее, не поднимая цену

DeepSeek готовит три новые модели: V4 Lite, V4 Expert и V4 Vision. Релиз возможен уже в апреле

Netflix научил собственную ИИ-модель удалять объекты из видео и перестраивать сцену

Вышел PrismAudio — генерация звука прямо из видео

Netflix выпустил открытую ИИ-модель для видео, которая удаляет объекты и пересчитывает физику

Netflix выкатил open-source модель, которая изменит видео-редакторы

Gemini от Google пришёл на ТВ через YouTube – нажимайте кнопку “Спросить” и говорите с видео