Gemma 4 стала быстрее в 3 раза без потери качества
Google открыла веса вспомогательных моделей для всей линейки Gemma 4 — E2B, E4B, 26B MoE и 31B Dense. Они доступны на Hugging Face и Kaggle под Apache 2.0 и уже работают с transformers, MLX, vLLM, SGLang и Ollama.Стандартная генерация токенов устроена неэффективно: процессор большую часть времени тратит не на вычисления, а на перекачку весов модели из памяти.
Из-за этого даже мощные GPU простаивают, пока генерируется один токен.Speculative decoding решает это следующим образом: маленькая вспомогательная модель (drafter) набрасывает несколько следующих токенов сразу, а основная проверяет их за один проход.
habr.com