Nvidia интересное AMD

Представлена открытая LLM модель для кода DeepSeek-Coder-V2 на 16B и 236B. Теоретический конкурент для Codestral 22B

DeepSeek, вслед за своей моделью DeepSeek-V2, представила модель специализирующуюся на коде DeepSeek-Coder-V2. Модель представлена в двух видах: DeepSeek-Coder-V2 размером 236B и DeepSeek-Coder-V2-Lite размером 16B.

Старшая модель в большинстве представленных бенчмарков обходит платных конкурентов.DeepSeek-Coder-V2 - построена на архитектуре MoE (Mixture-of-Experts), что означает, что в момент инференса активна только часть весов (2.4B и 21B соответственно для старшей и младшей модели), что ускоряет генерацию.

DMCA