Claude Opus 4.5 стал лучшим в бенчмарке на реальные рабочие задачи

habr.com

habr.com:

Компания Artificial Analysis представила GDPval-AA — собственную реализацию бенчмарка OpenAI на реальных рабочих задачах. Тест охватывает 44 профессии и 9 отраслей: модели создают презентации, заполняют таблицы Excel, пишут документы Word и даже рендерят видео.

Лидером стал Claude Opus 4.5 с результатом 1426 Elo.В топ-5 вошли Claude Opus 4.5, GPT-5 (1311 Elo), Claude Sonnet 4.5 (1291), а DeepSeek V3.2 и Gemini 3 Pro разделили пятое место с 1206 очками.

Читать на habr.com Все новости от habr.com

Автор «теста на AGI» объяснил истинную цель своего бенчмарка

Anthropic и OpenAI удвоили лимиты до Нового года. Пользователи Claude не заметили разницы

Глава Google DeepMind: У человечества осталось 10 лет на адаптацию к новому миру

Атеистический Китай сделал самый христианский ИИ: Qwen3 победил в религиозном бенчмарке

Автор «теста на AGI» объяснил истинную цель своего бенчмарка

Anthropic и OpenAI удвоили лимиты до Нового года. Пользователи Claude не заметили разницы

Глава Google DeepMind: У человечества осталось 10 лет на адаптацию к новому миру

Атеистический Китай сделал самый христианский ИИ: Qwen3 победил в религиозном бенчмарке

Claude Opus 4.5 побил рекорд автономности: справляется с 5-часовыми задачами, но есть нюансы

Anthropic встроила Claude в Chrome и открыла доступ всем платным тарифам

Claude в роли ИИ-продавца научился работать без убытков. А по ночам нахваливал своего ИИ-директора

Claude Code, GPT-5.2 и DeepSeek V3.2 возглавили рейтинг ИИ-программистов — в разных категориях

Gemini 3 Flash стала доступна подписчикам приложения Gemini

GPT-5.2 и Gemini 3 Pro стали ИИ с самым высоким уровнем IQ

Как устроена память в ChatGPT и Claude? Инженер вскрыл интересные особенности

Новая GPT-5.2 поставила рекорд в сложнейшем «бенчмарке на AGI»

Mistral выпустила две модели для кодинга: одна соперничает с Claude Sonnet, вторая работает на домашнем GPU

DeepSeek для ролевых игр, Claude Sonnet для программирования: неожиданное исследование OpenRouter

Стартап из шести выходцев DeepMind обошел Gemini 3 на главном бенчмарке абстрактного мышления ARC-AGI-2

Разработчик дал трем ИИ задачу собрать клон Counter-Strike. Вот что из этого вышло

«Их задача — не дать ИИ все разрушить». Как работает команда безопасности Anthropic

GPT-5.1, DeepSeek и другие ИИ ушли в минус торгуя акциями за реальные деньги

DeepSeek — единственная в Китае компания, накопившая GPU. Остальные ищут ресурсы за рубежом

До 40% рабочих мест в США могут перейти к ИИ-агентам и роботам — McKinsey

Claude Opus 4.5 назвали лучшим ИИ для веб-разработки

Claude Opus 4.5 стал лидером в сложнейшем тесте ИИ

Вышел Claude Opus 4.5: лучший ИИ для кода втрое дешевле прежнего Opus

Gemini 3 Pro стал первым ИИ, достигшим уровня IQ 130

ChatGPT, Grok и Claude оправдали подростка в учебном суде. Реальный судья вынес обвинительный приговор

Gemini 3 Pro назвали лучшим ИИ для сложной математики

DeepSeek V3.1 стартовал лучше Gemini 3 Pro и GPT-5.1 в бенчмарке по торговле акциями

Первые запуски модулей Российской орбитальной станции перенесут с Восточного на Байконур

Universal Music подписала соглашение с Nvidia о сотрудничестве в области ИИ

Правда о еде: что нас кормит, а что нас убивает? | ФОКУС ВНИМАНИЯ

Модный напиток, который может вызвать выпадение волос

Три эффективных метода минимизировать вред от соленых блюд

Не ждите возвращения Prototype: Microsoft и Activision не заинтересованы в развитии франшизы

Instagram отрицает факт взлома или утечки данных

В Украине впервые запустили пилотный 5G во Львове: сеть планируют масштабировать на другие города

Casio представила WS1800 — “вечные” спортивные часы в ретро-стиле всего за $40

Microsoft добавит возможность удаления Copilot из Windows 11, но сделать это практически нереально

Xiaomi берет пример с Huawei: компания готовит смартфон с собственным чипсетом, операционной системой и генеративным ИИ

NVIDIA показала Vera Rubin — платформу, которая должна радикально удешевить обучение ИИ

WSJ: Венесуэла использовала USDT для обхода санкций

Во Львове стартовало тестирование 5G с более чем двадцатью базовыми станциями

Курс Monero обновил исторический максимум на уровне чуть ниже $600

X запустит Smart Cashtags для криптоактивов и акций в феврале

Южная Корея сняла девятилетний запрет на инвестиции компаний в криптовалюты

С 1 января вносить правки в статьи онлайн-энциклопедии «Рувики» могут только верифицированные пользователи

Asus выпустила игровые ноутбуки TUF Gaming A14 FA401GM и FA401EA

Как таблетка от боли может стать угрозой для сердца, предупредил врач

Когда полезнее всего выходить на прогулку зимой

GPT-5.2 и ИИ Aristotle решили 50-летнюю математическую задачу Эрдёша

Volkswagen начала возвращать в машины физические кнопки

Рекламный баннер Ubisoft намекнул на юбилейное переиздание шутера The Division

Google с 2026 года начнёт выпускать исходный код Android Open Source Project (AOSP) только два раза в год

Razer представила концепт наушников с камерами

xAI завершила раунд Series E на $20 млрд с участием стратегических инвесторов Nvidia и Cisco

Tether заморозила 182 млн USDT

Количество просмотров криптовалютного контента на YouTube заметно сократилось

Председатель ФРС заявил о давлении со стороны Минюста и обвинил в этом Трампа

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA