cognitronn Microsoft технологии Nvidia история общество самит крипто cognitronn Microsoft

Microsoft Azure преодолела барьер инференса в 1 млн токенов в секунду

Microsoft объявила о новом рекорде производительности в области инференса больших языковых моделей. На виртуальных машинах Azure ND GB300 v6, работающих на стоечных системах NVIDIA GB300 NVL72, инженерам удалось достичь скорости 1.1 миллиона токенов в секунду при работе с моделью Llama 2 70B.

Это примерно на 27% выше предыдущего мирового показателя, установленного на оборудовании поколения GB200. Архитектура Blackwell, на которой основаны новые GPU, обеспечивает почти пятикратный рост пропускной способности по сравнению с H100, а использование формата FP4 и обновлённой библиотеки NVIDIA TensorRT-LLM позволило сократить задержки при обработке данных и повысить эффективность на уровне ядра.

DMCA