Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут
Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.В основе архитектуры VibeVoice лежит языковая модель Qwen2.5-1.5B.
Она анализирует сценарий, удерживает контекст и управляет генерацией. Также в системе есть два токенизатора: акустический и семантический.
habr.com