Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5
Позавчера DeepSeek загадочно и молчаливо залили новую модель на HuggingFace, даже не написав ничего ни в блоге, ни в README файле.Сегодня, наконец, вышел анонс с подробным описанием характеристик новой модели (а точнее, крутого обновления старой модели).
Давайте разбираться, что в этот раз нам подогнали китайские исследователи.В первую очередь, давайте посмотрим на результаты бенчей по математике и программированию:MMLU-Pro: вырос с 75.9 → 81.2 (+5.3)GPQA: вырос с 59.1 → 68.4 (+9.3)AIME: вырос с 39.6 → 59.4 (+19.8) (вау, SOTA, с сильным отрывом)LiveCodeBench: 39.2 → 49.2 (+10.0)В усреднённых результатах по всем тестам мы видим, что V3-0324 обгоняет текущие результаты Claude 3.5 (в целом, 3.5 - старая модель, ничего удивительного).
habr.com