SwiftKV: как снизить затраты и ускорить логический вывод больших языковых моделей
Исследовательская группа Snowflake AI представляет SwiftKV - решение, разработанное для повышения производительности LLM-выводов и снижения связанных с этим затрат.
SwiftKV использует методы кэширования пар «ключ-значение» для повторного использования промежуточных вычислений во время выводов.
Компания Allen AI: новая модель Tülu 3 405B с открытым исходным кодом конкурирует с лучшими моделями
habr.com