pythonleader Xiaomi курс google крипто pythonleader

Xiaomi разогнали 1T-модель до 1200 tok/s на стандартных GPU

Китайские команды MiMo и TileRT опубликовали режим UltraSpeed для модели MiMo V2.5 Pro (1,02T параметров).На одном 8-карточном сервере со стандартными GPU, до ~1200 токенов в секунду.

Cerebras выдаёт похожие скорости на кастомном железе. Здесь обошлись без него.В кратце работает так:MoE-слои сжали с 16 до 4 бит: они занимают большую часть весов и хорошо переносят потерю точности, остальное оставили нетронутымРядом с основной моделью запускается маленькая, которая угадывает сразу 8 токенов вперёдОсновная проверяет их разом и принимает правильныеВ coding-сценариях угадывается ~6,3 токенов из 8Похожий механизм Google применяет в Gemma 4.На видео можно заценить скорость: 12 секунд против 6 минут на стандартных скоростях, к которым мы сейчас привыкли.Друзья!

DMCA