DeepSeek-V3: Китайская языковая модель превзошла Claude 3.5 Sonnet в работе с кодом
Компания DeepSeek, поддерживаемая китайским хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3, которая продемонстрировала впечатляющие результаты в работе с кодом. Архитектурные особенности DeepSeek-V3 представляет собой значительный шаг вперед по сравнению со своим предшественником.
Модель имеет 685 миллиардов параметров. В основе архитектуры лежит подход Mixture of Experts (MoE) с 256 экспертами, из которых 8 активируются для каждого токена.По сравнению с предыдущей версией, DeepSeek-V3 получила существенные улучшения во всех ключевых параметрах.
habr.com