Rednote выпускает свою первую языковую модель с открытым исходным кодом и архитектурой Mixture-of-Experts
Компания Rednote, занимающаяся социальными сетями, выпустила свою первую большую языковую модель с открытым исходным кодом. Система Mixture-of-Experts (MoE), получившая название dots.llm1, предназначена для того, чтобы соответствовать производительности конкурирующих моделей при значительно меньшей стоимости.Согласно техническому отчёту Rednote, в dots.llm1 используется 14 миллиардов активных параметров из 142 миллиардов в общей сложности.
Архитектура MoE делит модель на 128 специализированных экспертных модулей, но для каждого токена активируются только шесть лучших модулей, а также два модуля, которые работают постоянно.
OmniGen 2 сочетает в себе генерацию изображений и текста, как GPT-4o, но имеет открытый исходный код
habr.com