«Невероятно маленькая и очень качественная». Zyphra представила Zonos, 1.6B модель для генерации речи любым голосом
2025 год богат на свершения от ноунейм компаний. В этот раз в прицеле нашего внимания Zyphra, которая на днях релизнула модель Zonos-v0.1, крайне впечатляющую не столько тем, что в бенчмарках она рядом с ElevenLabs и прочими (а некоторых даже превосходит), сколько тем, что в ней всего 1.6 миллиарда параметров (что очень мало для такого уровня качества).Zonos-v0.1 — инновационная система синтеза речи с открытыми весами и лицензией Apache 2.0 (что дико круто - её можно юзать для коммерческих проектов), демонстрирующая качество и экспрессивность (тональность голоса), сопоставимые с лидерами рынка.Модель позволяет осуществлять голосовое клонирование: достаточно 5–30 секунд аудио для точного воспроизведения голоса.
Помимо текстового ввода, поддерживается аудио-префикс для расширенного контроля, то есть можно дать начало звуковой дорожки, а модель продолжит запись (это полезно для необычных записей, например, шепота).
habr.com