️ Zyphra выкатила ZAYA1-8B — маленькую MoE-модель, которая выглядит слишком бодро для своего размера
У модели меньше 1 млрд активных параметров, но Zyphra заявляет, что она конкурирует с куда более крупными open-weight и proprietary-моделями на математике, кодинге и reasoning-бенчмарках.ZAYA1-8B - это ставка на весь стек сразу:MoE-архитектура с Compressed Convolutional Attention;новый MLP-router для более стабильного выбора экспертов;learned residual scaling для контроля роста residual-норм;pretraining на AMD Instinct MI300x, без NVIDIA-стека;большой post-training pipeline с SFT, reasoning warmup, RLVE-Gym, math/code RL и RLHF/RLAIF;test-time compute метод Markovian RSA.Markovian RSA - самая любопытная часть.
Модель генерирует несколько reasoning-трасс параллельно, затем рекурсивно агрегирует их и продолжает рассуждение кусками, не раздувая контекст бесконечно.
habr.com