курс мода и стиль крипто

Вышла Qwen3-Omni: изначально омни-модальная базовая модель

Qwen3-Omni — это изначально многоязычная омни-модель с поддержкой end-to-end. Она обрабатывает текст, изображения, аудио и видео и выдает потоковые ответы в реальном времени — как в виде текста, так и в живой речи.

Мы добавили ряд улучшений для повышения производительности и эффективности. Ключевые особенности: Изначально омни-модальное предобучение: Qwen3-Omni — это нативная end-to-end многоязычная омни-модель, которая не уступает по производительности специализированным моделям для отдельных модальностей.Высокая производительность: Qwen3-Omni достигает SOTA-результатов на 32 бенчмарках и занимает первое место в 22 из 36 аудио- и аудиовизуальных тестов, обгоняя сильные закрытые модели, такие как Gemini-2.5-Pro, Seed-ASR и GPT-4o-Transcribe.Многоязычная поддержка: Qwen3-Omni понимает текст на 119 языках, речь — на 19 языках и может генерировать речь на 10 языках.Быстрый отклик: задержка в аудиосценариях может быть всего 211 мс, а в аудио-видео сценариях — от 507 мс.Глубокое понимание: поддерживается анализ аудио продолжительностью до 30 минут.Персонализация: Qwen3-Omni можно адаптировать с помощью системных промптов, меняя стиль ответов, личность и поведенческие характеристики.Вызов инструментов: Qwen3-Omni поддерживает вызов функций, что позволяет бесшовно интегрироваться с внешними сервисами и инструментами.Open source универсальный аудиокапшенер: Qwen3-Omni-30B-A3B-Captioner — это подробная и устойчивая к галлюцинациям модель для генерации описаний аудио, которая закрывает важный пробел в Open source сообществе.Qwen3-Omni построена на архитектуре Thinker-Talker.

DMCA