Mistral выпустила открытую модель синтеза речи Voxtral
Компания Mistral AI представила модель Voxtral TTS, предназначенную для генерации речи с высокой степенью реализма. Модель поддерживает 9 языков и умеет клонировать голос по короткому аудиосэмплу длительностью менее 5 секунд, передавая не только тембр, но и микроинтонации, акценты и особенности дикции.Одной из ключевых возможностей Voxtral стала способность переключаться между языками на лету, сохраняя при этом характеристики исходного голоса.
Это открывает новые сценарии использования, включая мультиязычные голосовые интерфейсы и персонализированные аудиосервисы.Архитектура модели построена на базе LLM Ministral 3B.
habr.com