связь курс

DeepSeek-V3.2-Exp: китайцы снова мутят что-то хитрое

DeepSeek выпустили экспериментальную модель DeepSeek-V3.2-Exp — видимо, промежуточный шаг к их следующему «монстру». Главное новшество — DeepSeek Sparse Attention: хитрый способ сделать работу трансформеров на длинных текстах быстрее и дешевле.Если по-простому: модель учится «не тратить внимание впустую».

Вместо того чтобы пересчитывать все связи между словами, она обрабатывает только важные — и при этом почти не теряет качество ответа.

DMCA