Qwen3-Omni-Flash: китайская модель догнала Gemini 2.5 Pro по аудио — и стоит в 3 раза дешевле
Alibaba выпустила обновленную версию Qwen3-Omni-Flash — мультимодальную модель, которая понимает текст, изображения, аудио и видео, а также отвечает голосом в реальном времени.
По ключевым аудио-бенчмаркам она догоняет Gemini 2.5 Pro и обгоняет GPT-4o (до сих пор используется как основной голосовой ассистент в ChatGPT).На распознавании речи (ASR) Qwen3-Omni-Flash показывает ошибку 2,74% на английском и 2,19% на китайском — это лучше, чем у Gemini 2.5 Pro (2,94% и 2,71%) и GPT-4o (3,32% и 2,44%).
habr.com