dmitrifriend промышленность конференция Nvidia общество книги самит google dmitrifriend

TurboQuant: Google сжал KV-кеш LLM до 3 бит без потери точности – ускорение на H100 до 8 раз

Команда Google Research представила TurboQuant – новый алгоритм сжатия, который сокращает объём памяти, занимаемой KV-кешем больших языковых моделей, в 6 и более раз, при этом не жертвуя точностью.

В тестах на ускорителях NVIDIA H100 использование 4-битной версии TurboQuant дало восьмикратный прирост производительности при вычислении логитов внимания, по сравнению с 32-битными неквантованными ключами.Проблема KV-кеша хорошо знакома всем, кто запускает LLM с длинным контекстом.

DMCA