runawayllm Пекин связь люди экономика общество самит токен runawayllm Пекин

DeepSeek учит модель «тыкать пальцем» в кадр по ходу рассуждения

DeepSeek совместно с Пекинским университетом и университетом Цинхуа 30 апреля выложил технический отчет "Thinking with Visual Primitives" — новый подход к мультимодальному рассуждению, который помогает модели лучше видеть изображения и видео, понимая, что действительно на них произошло.

Идея простая: вместо словесных описаний вида "третий пес слева" модель прямо в цепочке рассуждений выдает координаты объектов на картинке, словно тыкая в них пальцем.

DMCA