️ Zyphra выкатила ZAYA1-8B — маленькую MoE-модель, которая выглядит слишком бодро для своего размера

habr.com:

У модели меньше 1 млрд активных параметров, но Zyphra заявляет, что она конкурирует с куда более крупными open-weight и proprietary-моделями на математике, кодинге и reasoning-бенчмарках.ZAYA1-8B - это ставка на весь стек сразу:MoE-архитектура с Compressed Convolutional Attention;новый MLP-router для более стабильного выбора экспертов;learned residual scaling для контроля роста residual-норм;pretraining на AMD Instinct MI300x, без NVIDIA-стека;большой post-training pipeline с SFT, reasoning warmup, RLVE-Gym, math/code RL и RLHF/RLAIF;test-time compute метод Markovian RSA.Markovian RSA - самая любопытная часть.

Модель генерирует несколько reasoning-трасс параллельно, затем рекурсивно агрегирует их и продолжает рассуждение кусками, не раздувая контекст бесконечно.

Читать на habr.com Все новости от habr.com

Ferrari Luce и Toblerone: Когда дизайн стал слишком «гладким»

Кошмар в Петах-Тикве — мужчина насиловал маленькую дочь и слал отчеты

Астрономы с помощью телескопа Джеймса Вебба обнаружили сверхмассивную черную дыру, которая сформировалась еще до появления своей галактики

Специалисты Microsoft ликвидировали платформу signspace[.]cloud, которая использовалась для подписания вирусов

Ferrari Luce и Toblerone: Когда дизайн стал слишком «гладким»

Кошмар в Петах-Тикве — мужчина насиловал маленькую дочь и слал отчеты

Специалисты Microsoft ликвидировали платформу signspace[.]cloud, которая использовалась для подписания вирусов

Кофейня «Дринкит» и Yandex B2B Tech представили нейробариста — ИИ-агента, который создаёт уникальные напитки для гостей

Почти 20 лет ожиданий не были напрасными: Metal Gear Solid 4 выглядит превосходно на современных платформах — показан час геймплея

Portronics представила Vayu Nano — сверхкомпактный насос для шин размером со смартфон

ТОП-9 вещей, которые вы должны знать о своей кошке