Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке

habr.com:

Компания Tencent анонсировала новую мультимодальную модель HunyuanVision, объединяющую возможности обработки визуальных данных и текста в едином фреймворке.

Модель способна не только распознавать изображения, но и рассуждать на их основе, решать сложные визуально-текстовые задачи, а также поддерживать мультиязычные кейсы, включая русский язык.Ключевые особенности HunyuanVision включают глубокое понимание изображений и сцен (Visual Reasoning), поддержку нескольких языков (Multilingual Support), ведение диалогов на основе изображений и текста (Visual Dialogue) и способность рассуждать на уровне визуальных деталей (Thinking-on-Image).

Читать на habr.com Все новости от habr.com

IBM представила компактные LLM для кибербезопасности

FacebookResearch представил мощную языковую модель для смартфонов

Unitree представила нового человекоподобного робота H2

Anthrogen представил самую мощную модель для редактирования белков

IBM представила компактные LLM для кибербезопасности

FacebookResearch представил мощную языковую модель для смартфонов

Unitree представила нового человекоподобного робота H2

Anthrogen представил самую мощную модель для редактирования белков

Фреймворк PyTorch получил крупное обновление

Apple представила чип M5, ставший скачком в развитии фирменных процессоров

Anthropic представила Claude Haiku 4.5: быструю и дешёвую версию Sonnet 4