NVIDIA ускорила языковую модель в 4 раза: вышла Nemotron-Labs Diffusion
NVIDIA выпустила открытое семейство языковых моделей Nemotron-Labs Diffusion — на флагманском GPU B200 они генерируют 865 токенов в секунду, в 4 раза быстрее обычной токен-за-токеном генерации на том же железе и без потери качества.
Линейка включает модели на 3, 8 и 14 миллиардов параметров, плюс мультимодальный вариант на 8 миллиардов с поддержкой картинок.Главная идея — режим, который в NVIDIA называют self-speculation (самоспекуляция).
habr.com