Apple представила FastVLM — визуально-языковую модель высокой точности, которая работает на смартфоне
ML-исследователи Apple представили FastVLM — быструю и точную визуально-языковую модель машинного обучения, которую можно запустить на смартфоне.Авторы проекта отмечают, что визуально-языковые модели объединяют в себе возможности обработки визуальной и текстовой информации.
Такие модели распознают сложные изображения и понимают контекст. Главная их проблема в том, что для высокой точности на вход надо подавать изображение в высоком разрешении.
habr.com