DeepSeek дообучили без Nvidia: 1000 Ascend 910C и 1500 итераций без сбоев
Исследовательская команда во главе с Huawei провела полное дообучение (full-parameter post-training) модели DeepSeek V4-Pro на 1,6 трлн параметров, используя кластер минимум из 1000 ускорителей Ascend 910C.
Об этом 5 июня сообщило в соцсетях правительство Шэньчжэня, на пост обратила внимание South China Morning Post. По данным команды, прогон занял свыше 1500 итераций обучения и прошел без единого сбоя, а математические способности модели в результате улучшились.Вместе с Huawei над проектом работали шэньчжэньский кампус Харбинского политехнического института, Шэньчжэньский институт больших данных и Shenzhen Loop Area Institute.
habr.com