Hugging Face выпустила SmolVLM — коллекцию компактных визуально-текстовых моделей
Команда платформы Hugging Face выпустила коллекцию компактных визуально-текстовых моделей машинного обучения SmolVLM. Их главное преимущество в том, что модели можно развернуть локально на устройстве с ограниченными ресурсами.
Код проекта открыт.Коллекция состоит из четырёх моделей:SmolVLM Base — для файнтюнинга;SmolVLM Synthetic — с синтетическими данными;SmolVLM Instruct — настроенные инструкции для использования в приложениях.VLM (Vision-Language Model) — тип мультимодальных моделей машинного обучения, которые объединяют обработку визуальных и текстовых данных.
habr.com