runawayllm технологии конференция google runawayllm

3 бита хватит: Google ускорила работу LLM за счет сжатия кэша

Google Research представила TurboQuant — алгоритм, который сжимает внутренний кэш больших языковых моделей до 3 бит. При этом качество ответов модели не падает, а дообучение не требуется.

Работу покажут на конференции ICLR 2026.Когда языковая модель обрабатывает длинный текст, она сохраняет промежуточные данные в так называемом кэше "ключ-значение" (key-value cache).

DMCA