FlexOlmo позволяет организациям совместно обучать языковые модели без обмена данными
FlexOlmo, разработанный в Институте искусственного интеллекта Аллена, демонстрирует возможность совместной работы организаций над языковыми моделями на основе локальных наборов данных без передачи конфиденциальных данных.FlexOlmo основан на архитектуре Mixture-of-Experts (MoE), где каждый эксперт соответствует модулю прямой передачи (FFN), обученному независимо.
Фиксированная общедоступная модель (обозначается как Mpub) служит общим якорем. Каждый владелец данных обучает эксперта Mi на своём частном наборе данных D_i, в то время как все слои внимания и другие параметры, не относящиеся к экспертам, остаются замороженными.
Google представляет MedGemma — набор моделей ИИ с открытым исходным кодом для медицинских приложений
habr.com