Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

habr.com

habr.com:

Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний бенчмарк на боевых workflow: миграция, рефакторинг, тесты, документация.Если коротко: новый Opus 4.7 не просто обгоняет 4.6 - он доводит задачи до конца там, где старый сдавался. Итоговый результат 0.77 против 0.56 Удобство работы 0.88 против 0.71Качество работы с инструментами 0.88 против 0.73 - полная доминация по всем осям агентского качества, причём разница статистически значима (p=0.002 по итоговому качеству, p=0.005 по соблюдению регламента, p=0.008 по ощущению от взаимодействия).Главный операционный разрыв — в завершённости. Старый Opus 4.6 заметно чаще оставлял задачу в непроверенном или сломанном состоянии; 4.7 же существенно чаще доводит работу до рабочего и подтверждённого результата.

По экспертным разборам он чётче держит изменения в границах запроса, аккуратнее проходит обязательные остановки и проверки, лучше восстанавливается после сбоев — и в итоге воспринимается как более предсказуемый напарник.Но есть и цена.

Читать на habr.com Все новости от habr.com

В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

GPT-5.5 и Opus 4.7 провалились в ARC-AGI-3. Вот почему

Copilot сделает Claude Opus в 27 раз дороже

Единая цена, Auto-режим и оркестрация: как Veai выбирает модель за вас

В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

GPT-5.5 и Opus 4.7 провалились в ARC-AGI-3. Вот почему

Copilot сделает Claude Opus в 27 раз дороже

Единая цена, Auto-режим и оркестрация: как Veai выбирает модель за вас

GPT-5.5, DeepSeek V4 и Kimi K2.6 уже доступны в Veai

Veai на Heisenbug Spring и JPoint 2026

️ Veai уже поддерживает GPT‑5.5

Veai включен в реестр российского ПО

Claude Opus 4.7 достиг 1-го места на Artificial Analysis

GPT-5.4 и Opus 4.6 воспроизвели находки закрытой модели Mythos от Anthropic

Утечка: DeepSeek V4 обходит Gemini 3.1 Pro, GPT-5.3 и Claude Opus 4.6 по всем 12 бенчмаркам

Claude Opus взломал Chrome — а та же дыра сидит в Claude Desktop

Anthropic готовит убийцу Figma? Майк Кригер ушёл из Figma за день до анонса Opus 4.7

Opus 4.7 галлюцинирует в два раза реже Opus 4.6 — при той же точности

Вышел Claude Opus 4.7 — втрое лучше видит, строже слушает инструкции

Anthropic выпустила Claude Opus 4.7

Anthropic выпустили Claude Opus 4.7

Вышел Claude Opus 4.7. Модель уже доступна в Veai для JetBrains IDE

Anthropic выпустила ИИ-модель Claude Opus 4.7, ориентированную на продвинутую разработку

Anthropic запустила Claude Opus 4.7 после скандала с Mythos

Anthropic только что представила новую модель Opus 4․7, ориентированную на передовую разработку

Вышел в релиз Microsoft Agent Framework

Anthropic научили Sonnet консультироваться с Opus

Режим “Советник”: связка Sonnet+Opus делает модели умнее, не поднимая цену

Just AI открыла публичный доступ к Agent Platform Cloud

Solana Foundation представила набор Agent Skills для разработчиков

Solana Foundation представила набор Agent Skills для разработчиков

Скрытые функции авто – что нужно знать о маркировке на рычаге передач

Во сколько лучше ложиться спать и просыпаться, рассказали врачи

Шум в ушах может быть опасным симптомом - предупреждение врачей

Мошенники придумали новый способ похитить данные

Samsung выпустила обновления для беспроводных наушников Galaxy Buds3 Pro и Buds4 Pro

В Югре задержали сотрудника МФЦ, продававшего незаконный доступ к аккаунтам на «Госуслугах»

Какие болезни человека и катаклизмы могут предсказать кошки

Более пяти миллионов геймеров ожидают погружение в Subnautica 2 — разработчики открыли предзагрузку в Steam и анонсировали приятный бонус

Почему одни люди думают быстрее других - ответ ученых

Apple пока не планирует добавлять Touch ID в Apple Watch — компания делает ставку на батарею и датчики здоровья

️ Zyphra выкатила ZAYA1-8B — маленькую MoE-модель, которая выглядит слишком бодро для своего размера

Sony отмечает своё 80-летие

Как голод может замедлить старение - открытие ученых

Напиток долголетия – что лучше пить перед сном для сердца

Xiaomi вспомнила о «пенсионерах»: зачем компания обновляет смартфоны, поддержка которых официально завершена

Смартфон-хамелеон от Huawei: флагман Pura 90 Pro Max умеет становиться полупрозрачным

Официально: Microsoft открывает Xbox Game Pass Starter Edition — новый тариф автоматически получают подписчики Discord Nitro

Владельцев Android-смартфонов предупредили о новой угрозе

Число нового вредоносного ПО выросло на 38%

Valve выпустила файлы CAD для Steam Controller под лицензией CC

Продукты, которые приводят к сильной потливости, назвали эксперты

Как похудеть без диет - диетологи подсказали 12 простых способов

Трудные времена подтолкнули к доисторическому творчеству

AUDI E7X: огромный кроссовер по цене компактного Q3

Больше чем просьба о ласке – 7 причин, почему собака ложится на спину

Скандал в науке – ученый выдумал международную премию ради самого себя

WhatsApp Plus появился на iPhone: подписка добавляет темы, иконки и новые возможности персонализации

BlackRock и a16z приняли участие в предпродаже токенов Arc от Circle на $222 млн

Strategy пополнила свой портфель на 535 BTC после заявления о возможной продаже биткоинов

ТОП "вредных" продуктов, которые на самом деле принесут пользу

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA