daniilshat Microsoft продукты Nvidia daniilshat Microsoft

Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут

Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.В основе архитектуры VibeVoice лежит языковая модель Qwen2.5-1.5B.

Она анализирует сценарий, удерживает контекст и управляет генерацией. Также в системе есть два токенизатора: акустический и семантический.

DMCA