В llama.cpp добавили функцию для динамического переключения моделей без перезагрузки сервера
Разработчики llama.cpp добавили поддержку router mode — режима, с помощью которого можно динамически загружать, выгружать и переключать несколько моделей без перезагрузки сервера.
В блоге Hugging Face отмечают, что чаще всего пользователи просили реализовать именно эту функцию.llama.cpp — легковесный HTTP-сервер для локального запуска языковых моделей, совместимый с эндпоинтами OpenAI.Чтобы воспользоваться функцией, надо запустить сервер в режим роутера без явного указания нужной модели:Если до этого пользователь скачивал модели с помощью llama-server -hf user/model, то они автоматически станут доступны из кэша (LLAMA_CACHE или ~/.cache/llama.cpp).
habr.com