Cohere выпустила новую мультимодальную модель Command A Vision
Command A Vision предназначена для анализа изображений, диаграмм, PDF-файлов и других визуальных данных. По заявлению разработчиков, на стандартных бенчмарках для компьютерного зрения она превосходит GPT-4.1, Llama 4 и Mistral Medium 3.Модель способна не только считывать текст с документов, но и понимать их структуру, выдавая результат в формате JSON.
Кроме того, Command A Vision может анализировать и реальные изображения, например, для выявления потенциальных рисков на промышленных объектах.Обратите внимание, что использование этого инструмента не поддерживается в модели.
habr.com