Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке
Компания Tencent анонсировала новую мультимодальную модель HunyuanVision, объединяющую возможности обработки визуальных данных и текста в едином фреймворке.
Модель способна не только распознавать изображения, но и рассуждать на их основе, решать сложные визуально-текстовые задачи, а также поддерживать мультиязычные кейсы, включая русский язык.Ключевые особенности HunyuanVision включают глубокое понимание изображений и сцен (Visual Reasoning), поддержку нескольких языков (Multilingual Support), ведение диалогов на основе изображений и текста (Visual Dialogue) и способность рассуждать на уровне визуальных деталей (Thinking-on-Image).
habr.com