cognitronn курс Tencent cognitronn

Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке

Компания Tencent анонсировала новую мультимодальную модель HunyuanVision, объединяющую возможности обработки визуальных данных и текста в едином фреймворке.

Модель способна не только распознавать изображения, но и рассуждать на их основе, решать сложные визуально-текстовые задачи, а также поддерживать мультиязычные кейсы, включая русский язык.Ключевые особенности HunyuanVision включают глубокое понимание изображений и сцен (Visual Reasoning), поддержку нескольких языков (Multilingual Support), ведение диалогов на основе изображений и текста (Visual Dialogue) и способность рассуждать на уровне визуальных деталей (Thinking-on-Image).

DMCA