cognitronn бизнес продукты мода и стиль google Шоу бизнес cognitronn

Google DeepMind выпустила Gemini 3.1 Flash TTS с управлением голосом через текст

Google DeepMind представила новую модель синтеза речи — Gemini 3.1 Flash TTS, сделав акцент на управляемости и гибкости генерации.Главная фишка — Audio Tags.

Это текстовые команды прямо внутри промпта, с помощью которых можно задавать стиль, эмоцию, темп и подачу речи. По сути, пользователь не просто генерирует голос, а «режиссирует» озвучку через текст.Помимо этого, модель получила:• более естественное и плавное звучание• поддержку 70+ языков, включая русский• встроенную маркировку аудио через SynthID, чтобы отличать синтезированную речь от реальнойПо качеству модель сразу вошла в топ: на бенчмарке Artificial Analysis TTS Arena она заняла 2-е место с Elo-рейтингом 1211, уступив только Inworld TTS 1.5 Max и обогнав ElevenLabs v3.Доступ к Gemini 3.1 Flash TTS уже открыт в формате preview через Gemini API и Google AI Studio, для бизнеса — через Vertex AI.

DMCA