TurboQuant: Google сжал KV-кеш LLM до 3 бит без потери точности – ускорение на H100 до 8 раз

habr.com

habr.com:

Команда Google Research представила TurboQuant – новый алгоритм сжатия, который сокращает объём памяти, занимаемой KV-кешем больших языковых моделей, в 6 и более раз, при этом не жертвуя точностью.

В тестах на ускорителях NVIDIA H100 использование 4-битной версии TurboQuant дало восьмикратный прирост производительности при вычислении логитов внимания, по сравнению с 32-битными неквантованными ключами.Проблема KV-кеша хорошо знакома всем, кто запускает LLM с длинным контекстом.

Читать на habr.com Все новости от habr.com

ИИ-симуляторы пользователей оказались слишком вежливыми – и это проблема. Google придумала, как их раскусить

Как сварить идеальный кофе по-бразильски в обычной кастрюле

Разработчик потерял исходники, но сохранил скрипты. Claude Code восстановил игру за один уикенд

Интернет обложат пошлинами? Разбираемся, кого коснется «растаможка» всемирной сети

ИИ-симуляторы пользователей оказались слишком вежливыми – и это проблема. Google придумала, как их раскусить

Как сварить идеальный кофе по-бразильски в обычной кастрюле

Разработчик потерял исходники, но сохранил скрипты. Claude Code восстановил игру за один уикенд

Интернет обложат пошлинами? Разбираемся, кого коснется «растаможка» всемирной сети

Google объявила о требовании 64-битной версии для экосистемы умных часов

Google выпустила Gemma 4 2B/4B/26B/31B: открытые веса и 3-е место на Arena AI

Gemini от Google пришёл на ТВ через YouTube – нажимайте кнопку “Спросить” и говорите с видео

Революция графики: NVIDIA представила технологию Neural Texture Compression, которая уменьшает вес текстур на 85% без потери в качестве

В 20 раз меньше кубитов на взлом криптовалют: новые расчеты Google Quantum AI

Zhipu и MiniMax показали ИИ-экономику без прикрас: убытки до 6 раз больше выручки

Google показала свой фитнес-браслет Fitbit без экрана

Mythos Meltdown: как утечка о новой LLM обвалила кибербезопасность на $50 млрд

Корпоративные покупки биткоина без учета Strategy обвалились на 99% — аналитики

В Москве прошло награждение победителей Международной олимпиады по промышленной разработке PROD

3 бита хватит: Google ускорила работу LLM за счет сжатия кэша

Google DeepMind выпустила Lyria 3 Pro: теперь нейросеть пишет 3-минутные треки

Google Gemini теперь принимает «чужие» воспоминания: как переехать с ChatGPT без потери контекста

Google DeepMind показала, как Gemini 3.1 Flash Lite создаёт веб-сайты во время навигации

Новый режим Claude Code – auto mode: ИИ сам решает, какие действия безопасны

v2a-модель PrismAudio учится озвучивать видео, разделяя смысл, время, эстетику и пространство

Кризис отменяется: Google изобрел квантовый алгоритм сокращения объема памяти для ИИ в 6 раз

Google объявила о многомиллионных инвестициях в безопасность открытого программного обеспечения

OpenAI выпустила GPT-5.4 mini и nano — быстрее, дешевле и почти без потери в качестве

GTC 2026: Хватит собирать данные, просто купите еще сто тысяч H100 – стратегия Nvidia

“Encyclopedia Britannica” подаёт в суд на OpenAI из-за обучения на почти 100 000 статей без разрешения

Текстовые ИИ-данные иссякают. Meta⚹ предлагает переключиться на неразмеченное видео

Релиз открытого проекта CompressO 2.1.0 для сжатия видео без потери качества

Неочевидный сигнал крепких отношений, о котором говорят исследователи

Кости, пушки и униформа – что нашли на дне гавани спустя два столетия

Casio представила ограниченную серию Oceanus Manta с титановым корпусом и сапфировым безелем

OpenAI представила обновление Codex для разработчиков: какие функции стали доступны пользователям

Продукты, укрепляющие организм, назвали диетологи

Meta тестирует обновленный дизайн веб-версии Threads с поддержкой личных сообщений

Сколько шагов в день нужно, чтобы снизить риск ранней смерти

Anthropic обсуждает мораль и религию для Claude с христианскими лидерами

Claude Code теперь работает сам: Anthropic запустила Routines с триггерами по cron, API и GitHub

iPhone 18 Pro получит долгожданную переменную диафрагму

Amazon покупает Globalstar для усиления спутниковой связи и конкуренции со Starlink

Bambu Lab представила X2D — флагманский 3D-принтер с двумя экструдерами и гибридной подачей филамента

AI-специалисты массово возвращаются из США в Китай

ТОП-8 опасных побочных эффектов пищевых добавок и витаминов

Как ускорить работу смартфона - эксперты назвали простой способ

Во время съемки для Apple Vision Pro погибла парализованная путешественница

Летом 2028 года: Activision и Paramount назвали дату премьеры фильма Call of Duty

DJI Osmo Pocket 4: Дюймовый сенсор и 240 кадров в секунду для тех, кто ценит стабильность

Студия Watt показала первый геймплейный ролик игры Tsarevna

Ежедневные ритуалы по-настоящему счастливых и успешных людей

Когда Земля станет непригодной для жизни - ответ ученых

Продукты, которые не стоит есть на ужин, назвали врачи

Представлено умное кольцо Smalth Titanium Lava с эффектом застывшей лавы

Суд признал банкротом ООО «Майкрософт Рус»

Samsung Galaxy A27: бюджетник, наконец-то перестав стесняться своего внешнего вида

Москва в руинах, диктатура неонацистов и мрачность нового уровня — представлен дебютный трейлер Metro 2039

Когда наступит конец света - неожиданный прогноз суперкомпьютера NASA

Страх и вранье: топ-менеджер OpenAI раскритиковала Anthropic в утекшем меморандуме

Доверять ИИ свое здоровье опасно - названы главные причины

Huawei Wi-Fi X: мобильный роутер по цене неплохого смартфона

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA