LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE?
Команда LMSYS ORG, известная своими опенсорс-инициативами и Chatbot Arena, представила новый фреймворк Miles.
Он ориентирован на RL-обучение моделей в промышленном масштабе и создан как развитие проекта slime, который уже применялся в пост-трейне современных моделей.
habr.com