3 бита хватит: Google ускорила работу LLM за счет сжатия кэша
Google Research представила TurboQuant — алгоритм, который сжимает внутренний кэш больших языковых моделей до 3 бит. При этом качество ответов модели не падает, а дообучение не требуется.
Работу покажут на конференции ICLR 2026.Когда языковая модель обрабатывает длинный текст, она сохраняет промежуточные данные в так называемом кэше "ключ-значение" (key-value cache).
habr.com