Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR

habr.com

habr.com:

Организация METR опубликовала результаты оценки Claude Opus 4.6 по бенчмарку Time Horizon 1.1, который измеряет сложность задач, доступных ИИ-агентам.

Новая модель Anthropic показала 50%-й временной горизонт около 14,5 часов — это длительность задачи (в пересчете на время человека-эксперта), которую модель решает с вероятностью успеха 50%.

Читать на habr.com Все новости от habr.com

«Claude купил мне машину»: разработчик натравил ИИ на 20 дилеров — и получил скидку $2 000

Claude рисует диаграммы прямо в чате — и это не генерация картинок, а кое-что круче

Claude уже пишет до 90% кода своих будущих версий — и в Anthropic говорят, что это только начало

Подписка Claude Max не стоит Anthropic $5000 — просто цены на API завышены до 10 раз

«Claude купил мне машину»: разработчик натравил ИИ на 20 дилеров — и получил скидку $2 000

Claude рисует диаграммы прямо в чате — и это не генерация картинок, а кое-что круче

Claude уже пишет до 90% кода своих будущих версий — и в Anthropic говорят, что это только начало

Подписка Claude Max не стоит Anthropic $5000 — просто цены на API завышены до 10 раз

Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку

Claude Opus 4.6 за час решил задачу, над которой Дональд Кнут бился неделями

Claude Opus 4.6 стал лучшим ИИ для веб-поиска. Модель лидирует в трех главных категориях Arena.ai

Anthropic отказала Пентагону: Claude не станет автономным оружием и инструментом слежки

Claude Code отладил баг в Linux за 5 минут вместо нескольких часов

Claude Code научился работать с COBOL — и обвалил акции IBM на 13%

Разработчик создал локальную память для Claude Code, Codex и Cursor

Скриншот за 28 млн токенов: как Opus попытался взломать свои ограничения — и почти преуспел

Claude Opus 4.6 и Sonnet 4.6 прокачали веб-поиск

Claude Code научили работать с Figma

IT-аутсорсинг убьет сам себя? Infosys строит агентов на Claude

Представлен Sonnet 4.6 — лишь чуть хуже Opus 4.6

«Ни строчки кода с декабря»: Spotify перевела лучших инженеров на Claude Code

ИИ перестал показывать, что делает: разработчики жалуются на новую версию Claude Code

Claude Opus 4.6 обманывал покупателей, врал поставщикам и победил: что показал бенчмарк вендинговых автоматов

Собранный Opus 4.6 компилятор провалился в независимом бенчмарке

Claude Code получил задачу «заработай $1000» — и за 74 минуты собрал рабочий сайт

Claude Opus 4.6 возглавил рейтинг ИИ-дизайна. Всего модели Anthropic держат 3 места в топ-5

Claude Opus 4.6 обошел человека в «тесте на AGI». Но это только начало

Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках

Баг в GitHub Copilot дает бесплатный доступ к Claude Opus 4.5 — Microsoft отказалась чинить

В Vertex AI засветился Claude Sonnet 5: «свора агентов» и цена вдвое ниже Opus

Жирный продукт, который снижает риск инфаркта и инсульта

Как замедлить старение - эффективные практические советы дал невролог

Как понять, что человек плохо к вам относится и пытается это скрыть

Что ни в коем случае нельзя делать во время зарядки смартфона

Сегодня последний день регистрации на PGConf.Россия 2026

Samsung вкладывает 73 млрд долларов в исследования и разработки

Hong Kong Web3 Festival 2026 сосредоточится на ИИ, криптофинансах и токенизации активов

Huawei Mate 80 Wind Chaser: Смартфон с пропеллером, который мы (не) ждали

Безос строит облачный город: Зачем Blue Origin 51 600 ИИ-спутников на орбите?

Xiaomi Smart Door Lock G100: девять способов забыть про ключи и ни единого шанса для взломщиков

Ledger открыла офис в Нью-Йорке и назначила нового финдиректора

MiniMax представила M2.7 — модель, которая участвовала в собственной разработке

ИИ научился определять рак груди по анализу крови. Чувствительность — 95%

АРПП попросила правительство сохранить доступ к заблокированным мессенджерам

«Никто не знает, что делать»: создатель ChatGPT — о ближайших годах рынка труда

Как понять, что батарею iPhone пора менять: 9 признаков

MagSafe для богатых: Hermès выпустила премиальную сумочку Grand Paddock для зарядных гаджетов Apple

Гибкий iPhone задержится: Apple готовит декабрьский сюрприз и новую путаницу в линейке

С “Awesome” интрига невозможна: уже на следующей неделе Samsung представит среднебюджетные смартфоны Galaxy A37 и Galaxy A57

В какой день не стоит делать операции из-за риска осложнений

Одиночный тап теперь будет ставить Reels в Instagram на паузу

BingX запустила ИИ-аналитика AI Claw для мультиактивной торговли

Фейковые компании, поддельные декларации и 40 BTC: как таксист из США обманул государство на $2 млн

Эксперты объяснили, как украинцам защитить криптоактивы от атак на смартфоны

Биткоин-кит с 2100 BTC проснулся после почти 14 лет бездействия

«Т‑Технологии» купили «Авто.ру» у «Яндекса»

Почему к кофе обязательно подавать стакан воды, объяснили эксперты

Мини-ПК ViewDock: когда одного монитора недостаточно, а место на столе ограничено

За январь‑февраль 2026 года американские IT‑компании уволили более 33 тысяч человек — на 51% больше, чем год назад

В iFixit разобрали iPhone 17e и оценили его ремонтопригодность в 7 из 10 баллов

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA