Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Результат — 1,4%

habr.com

habr.com:

Claude Opus 4.8 занял первое место в ARC-AGI-3 — интерактивном тесте на общий интеллект, который до сих пор не дается ни одной модели.

Версия в режиме High стала новым лидером с результатом 1,4% на закрытом наборе (1,5% на публичном лидерборде) при стоимости прогона около 10 тысяч долларов.

Читать на habr.com Все новости от habr.com

Сколько раз в день нужно есть - нутрициолог поставил точку в спорах

Sakana Fugu обогнала Opus 4.8 и GPT-5.5, не обучив ни одной большой модели

Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

Сколько раз в день нужно есть - нутрициолог поставил точку в спорах

Sakana Fugu обогнала Opus 4.8 и GPT-5.5, не обучив ни одной большой модели

Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

Рыночная доля ChatGPT упала ниже 50% — при этом чат-бот продолжает ставить рекорды

Местами лучше Claude Fable 5: открытая GLM-5.2 показала сильные результаты в бенчмарках

Связка дешёвых моделей обошла GPT-5.5 и Opus 4.8

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

Галлюцинации недели: Opus 4.8, Step 3.7 Flash и 683 преступления в государстве под управлением Gemini

SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

️Opus 4.8 уже в Veai! По большинству coding-бенчмарков текущий лидер

Anthropic выпустили Opus 4.8: в 4 раза меньше незамеченных багов и fast mode в 3 раза дешевле

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

Opus 4.8 появился в выборе моделей Claude Code в десктопном приложении

«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой

Честнее и дешевле: Anthropic представила Claude Opus 4.8

OpenAI готовится к рекордному IPO на $1 трлн: Альтман продавил S-1 без согласия CFO

Быстрее пули: дрон Blackbird установил неофициальный мировой рекорд в 730 км/ч

Релиз Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro

NVIDIA зарабатывает почти миллиард долларов в день — «продавец лопат» ставит рекорд за рекордом

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

Cisco сократила 4000 человек на фоне рекордной выручки. Уволенным подарили курс по ИИ

Forza Horizon 6 еще не вышла, но уже покоряет Steam: зафиксирован рекорд серии по пиковому онлайну — и это только среди покупателей Premium-издания

В Kodacode добавили Claude Opus 4.7

Армированный военными стандартами: Fujitsu показала один из самых защищённых смартфонов года

GTA VI все же выйдет на дисках: инсайдер и поддержка Rockstar подтвердили отличную новость

Официально: Bohemia Interactive разрабатывает сиквел DayZ

Canonical Livepatch для ARM64 — теперь официально

Tata Electronics, крупный поставщик технологической продукции для Apple и Tesla, подтвердил утечку данных

Мировой рынок видеоигр впервые в истории превысил отметку в $200 млрд по итогам 2025 года

Невидимый враг — как летний зной незаметно отнимает у нас месяцы жизни

Способ пережить жару – все, что нужно знать об охладителях воздуха

Ежедневное употребление яиц - врачи предупредили об опасности

Названы молочные продукты, которые могут навредить здоровью

Больше чем ласка – почему коты на самом деле вылизывают друг друга

Самые опасные вещи на вашей кухне, которые могут быть грязнее унитаза

Почему российские истребители «дымят» в небе – технические причины

Популярный миф о спасении от жары развенчали эксперты

Токен проекта MemeCore упал на более чем 70% без видимых причин

Организация в США собирает данные о заключённых тюрем в одну базу для борьбы с рецидивом преступлений

$3,8 млрд и связи с Центробанком Ирана: эксперты раскрыли сеть отмывания средств через CoinEx

Fujitsu представила Arrows Alpha 2 — сверхпрочный смартфон с акцентом на автономность и ИИ

“Одноклассникам”, Mail ru и сервисам VK больше нет места в App Store — Apple удалила российские приложения из своего магазина

Дайджест обновлений MWS Cloud Platform: локальные NVMe-диски, обновления Managed PostgreSQL и новая LLM

«Слоппенхаймер»: сотрудники Amazon высмеивают ИИ компании в Slack

Quake исполнилось 30 лет

Google опубликовала график перехода к обязательной верификации разработчиков

В России обсуждают ограничение оборота сим‑карт для интернета вещей и eSIM

Microsoft подтвердила выпуск Windows 11 26H2; обновление доступно в экспериментальном и бета-каналах

Epic Games победила: Google Play снижает комиссию и разрешит разработчикам принимать оплату в обход платежной системы Google

GravaStar Mercury K98 Pro: Клавиатурный киберпанк с дисплеем и внушительной автономностью

Apple удалила из App Store «Одноклассники», «Дзен» и ивсе приложения холдинга VK

Точка Банк запустил публичную программу багбаунти с выплатами до 450 тыс. рублей

Работа на ИИ-стройках расколола электриков на два лагеря

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA