Вышла Chroma 1.0. Первая полностью открытая speech to speech модель с клонированием голоса в реальном времени
Команда FlashLabs выпустила Chroma 1.0 и фактически задала новую планку для open source голосовых систем. Это первая полностью открытая модель, которая работает по схеме «голос → голос» без промежуточного этапа текста и при этом умеет клонировать голос спикера.Ключевая особенность Chroma в том, что это действительно end to end система.
Модель не распознает речь в текст, не передает его в отдельную LLM и не запускает TTS. Весь диалог идет напрямую в аудиоформате, что резко снижает задержки и убирает искажения, типичные для каскадных пайплайнов.По заявленным характеристикам задержка менее 150 миллисекунд от входного звука до выходного.
habr.com