DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

habr.com

habr.com:

На нашем замере DeepSeek v4 оказался примерно в полтора раза медленнее GLM 5.1 по скорости генерации - 29.81 против 47.65 токенов в секунду. DeepSeek v4: Лучше финализирует задачи (0.69 vs 0.63)Продуктивнее в длинных сценариях (0.73 vs 0.66)Слабее в формальной дисциплине (0.48 vs 0.53)Медленнее через API (29.81 tok/s) GLM 5.1: Аккуратнее следует формальным требованиям (0.53 vs 0.48)Меньше критических сбоев (0.52 vs 0.47)Быстрее на on-premise (47.65 tok/s)Слабее на финализации (0.63 vs 0.69)Профили моделей разные, и выбор зависит от приоритетов: если важнее надежный финал и продуктивность - DeepSeek, если критична формальная дисциплина и скорость отклика на своей инфраструктуре - GLM 5.1. 🔥 Акция до конца майских праздников - авторежим со скидкой 60% по минутам. В режиме Auto по умолчанию сейчас стоит GPT‑5.5 с максимальным reasoning (xHigh).

Если по какой-то причине модель недоступна — автоматически подключается Opus 4.7. Прогнали через бенчмарк GPT‑5.5 против GPT‑5.4: +20% закрытых задач, 100% success rate инструментов, агент доводит до конца там, где старый сдавался.🔥Самое время проверить, как далеко агент дойдёт без вашего участия. → Установить плагин (https://veai.ru/download)

Читать на habr.com Все новости от habr.com

Разработан бенчмарк GeomMotif из 57 задач для выявления ошибок ИИ-моделей при проектировании геометрии белковых структур

BingX запустила платформу EventX для торговли на основе реальных событий

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

DeepSeek вспомнил всё: в популярном ИИ-сервисе появился поиск по истории чатов

Разработан бенчмарк GeomMotif из 57 задач для выявления ошибок ИИ-моделей при проектировании геометрии белковых структур

BingX запустила платформу EventX для торговли на основе реальных событий

DeepSeek вспомнил всё: в популярном ИИ-сервисе появился поиск по истории чатов

Машинное обучение в реальных условиях: проверьте свои силы на Yandex ML Challenge

Конец независимости DeepSeek: лаборатория Ляна Вэньфэна идет за деньгами

Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg

СМИ: DeepSeek приблизился к оценке в $45 млрд после интереса китайского «Большого фонда»

Архив, на котором учились ChatGPT, Claude и DeepSeek, попал под атаку 20 крупных издателей

DeepSeek учит модель «тыкать пальцем» в кадр по ходу рассуждения

Галлюцинации недели: DeepSeek V4, Kimi K2.6 и неконтролируемые галлюцинации нового флагмана OpenAI

И это ваш AGI? DeepSeek V4 допустил мрачную ошибку в задаче про апельсины и нож

DeepSeek AI: “V4 отстаёт от лучших ИИ-моделей всего на 3–6 месяцев”

DeepSeek масштабно снизил цены на свои новые решения в области ИИ

Госдеп США против DeepSeek: как дистилляция ИИ стала дипломатическим оружием

GPT-5.5, DeepSeek V4 и Kimi K2.6 уже доступны в Veai

DeepSeek-V4: Тихий гигант

DeepSeek V4 Pro: Китайские нейросети пересаживаются на оборудование Huawei

DeepSeek V4 уже доступен бесплатно в чат-приложении — 1М контекста и приличные бенчмарки

DeepSeek представляет флагманскую модель искусственного интеллекта

Китайский DeepSeek задержал запуск V4 из-за чипов Huawei

Google выпустила Android Studio Panda 4 с режимом планирования задач и встроенным веб-поиском для AI-агентов

Утечка: DeepSeek V4 обходит Gemini 3.1 Pro, GPT-5.3 и Claude Opus 4.6 по всем 12 бенчмаркам

Microsoft помещает ИИ-агентов в панель задач Windows 11: начало «агентной» эры

$11 млрд и 25 000 кастомных агентов: ИИ-агенты Harvey выполняют юридическую работу целиком

В Claude Code появились routines для автоматизации задач разработки

До конца месяца будет представлена ИИ-модель DeepSeek V4

DeepSeek готовит три новые модели: V4 Lite, V4 Expert и V4 Vision. Релиз возможен уже в апреле

Apple готовит обновление Siri в iOS 27: ИИ-ассистент интегрируют в Dynamic Island

11 признаков, что родители ломали вашу психику

Какая рыба самая полезная для здоровья - ответ диетологов

Минимальное необходимое количество часов сна назвали ученые

Какие люди чаще всего довольны жизнью - исследование

C 27 мая Минпромторг исключил из параллельного импорта компьютерную технику ведущих иностранных производителей

«Репетиция перед AGI»: Хассабис — о нынешней эпохе ИИ-агентов

Вышел Rhino Linux 2026.1

LG может рассмотреть продажу ТВ-бизнеса: обсуждения с Hisense вызвали волну слухов

Microsoft признала, что выделенная клавиша Copilot была не лучшей идеей: теперь её можно будет переназначить

Крах стереотипов – названы лучшие наушники по качеству звука

Amazon покупает Globalstar: Джефф Безос забирает долю Apple в спутниковом бизнесе

В Европе дебютировали Xiaomi Watch S5 — флагманские смарт-часы с легким и тонким стальным корпусом, ярким AMOLED-экраном и автономностью до 21 дня

Главную причину развития диабета назвали ученые

Ночные кошмары могут быть симптомом опасной болезни

Обновления BIOS от HP ломают дорогие ноутбуки

Ваши артерии "забиты" жиром и холестерином - 5 признаков

О неожиданной опасности смартфонов для зрения рассказали врачи

Один Claude пишет, другой проверяет: в Claude Code появился поиск уязвимостей в реальном времени

YouTube усиливает маркировку ИИ-контента: платформа станет прозрачнее

Юбилейные часы Casio Frogman получили ручную обработку и эксклюзивные материалы

Как мозг воспринимает время - исследование

Минцифры РФ напомнило аккредитованным IT‑компаниям о сроке подтверждения статуса и налоговых льгот до 1 июня

Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

Учёные поняли, как в 2010 году направление течения внешних слоёв ядра Земли изменилось на противоположное

«Невыездные» из-за ИИ: топ-менеджерам Alibaba и DeepSeek закрыли свободный выезд

СМИ: Krafton все же выплатит $250 млн авторам Subnautica 2 — издательство хочет завершить некрасивый конфликт

Продукты, которые повышают риск смертельной болезни, назвали диетологи

Как поздние ужины увеличивают риск рака, рассказали ученые

Пять продуктов, которые нельзя сочетать с рыбой, назвали врачи

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA