Alibaba представила подробный технический отчет Qwen3-VL
Спустя несколько месяцев после анонса Qwen3-VL компания Alibaba опубликовала детальный технический отчет о своей открытой мультимодальной модели.
Данные свидетельствуют, что система исключительно эффективно решает математические задачи на основе изображений и способна анализировать многочасовые видео.Ключевой особенностью модели является работа с большими объемами данных: система обрабатывает двухчасовые видеоролики или сотни страниц документов благодаря контекстному окну объемом 256 000 токенов.В тестах «иголка в стоге сена» флагманская модель с 235 миллиардами параметров продемонстрировала 100% точность обнаружения отдельных кадров в 30-минутных видео.
habr.com