Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах
Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.Модель под названием Stable Audio Open Small основана на методе, известном как «состязательный релятивистско-контрастный» (ARC), разработанном исследователями из Калифорнийского университета в Беркли и других учреждений.
На высокопроизводительном оборудовании, таком как графический процессор Nvidia H100, она может воспроизводить стереозвук частотой 44 кГц всего за 75 миллисекунд — достаточно быстро для генерации практически в реальном времени.Первоначальная версия Stable Audio Open была выпущена в прошлом году как бесплатная модель с открытым исходным кодом с 1,1 миллиарда параметров.
habr.com