Представлен DeepSeek-V3.2-Exp: в разы дешевле при той же производительности

habr.com:

Представлена экспериментальная модель DeepSeek-V3.2-Exp, в которой разработчики впервые опробовали новую схему разреженного внимания (DSA).

Модель доступна в веб-версии и приложениях (раскатка может идти поэтапно), API, а также на Hugging Face.Особенность DSA в том, что схема выбирает лишь самые «важные» позиции в длинном контексте и считает полное внимание только по ним — поэтому время и стоимость растут почти линейно по числу выбранных токенов, а не квадратично по длине всего текста.

Читать на habr.com Все новости от habr.com

DeepSeek вышел на первое место в бенчмарке по торговле криптовалютой

GPT-5 Pro нашла контрпример к давней математической гипотезе

Мощнее DeepSeek-V3.1 и Qwen3: Alibaba выпустила ИИ с открытым кодом Ling-1T/Ring-1T

Почти 50% кода в Google пишет ИИ — статистика с мероприятия Gemini at Work

DeepSeek вышел на первое место в бенчмарке по торговле криптовалютой

GPT-5 Pro нашла контрпример к давней математической гипотезе

Мощнее DeepSeek-V3.1 и Qwen3: Alibaba выпустила ИИ с открытым кодом Ling-1T/Ring-1T

Почти 50% кода в Google пишет ИИ — статистика с мероприятия Gemini at Work

DeepSeek R1, Claude Sonnet 4 и Genie-3 вошли в список лучших изобретений 2025 года

Представлен человекоподобный робот Figure 03. Цель — безопасное применение дома

У ChatGPT уже 800 миллионов пользователей в неделю, а популярность Codex выросла в 10 раз