Claude Opus 4.6 обошел человека в «тесте на AGI». Но это только начало

habr.com

habr.com:

Новая модель Anthropic набрала 68,8% на бенчмарке ARC-AGI-2 — тесте абстрактного мышления, где год назад все ИИ-модели показывали ноль, а средний результат панели из 400 живых людей составляет 60%.

Стоимость — $3,64 за задачу. Результаты подтверждены командой ARC Prize на полуприватном наборе задач. ARC-AGI-2 — бенчмарк Франсуа Шолле, создателя Keras, запущенный в марте 2025 года.

Читать на habr.com Все новости от habr.com

Anthropic отказала Пентагону: Claude не станет автономным оружием и инструментом слежки

Claude Code отладил баг в Linux за 5 минут вместо нескольких часов

Claude Code научился работать с COBOL — и обвалил акции IBM на 13%

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR

Anthropic отказала Пентагону: Claude не станет автономным оружием и инструментом слежки

Claude Code отладил баг в Linux за 5 минут вместо нескольких часов

Claude Code научился работать с COBOL — и обвалил акции IBM на 13%

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR

Память — это файл, душа — промпт: разработчик пересобрал OpenClaw в 400 строках

Разработчик создал локальную память для Claude Code, Codex и Cursor

За использование Claude в OpenClaw забанят? Anthropic обновила правила использования и всех запутала

Скриншот за 28 млн токенов: как Opus попытался взломать свои ограничения — и почти преуспел

Claude написал код с ошибкой — криптоплатформа потеряла $1,78 млн за минуты

Claude Code научили работать с Figma

IT-аутсорсинг убьет сам себя? Infosys строит агентов на Claude

Представлен Sonnet 4.6 — лишь чуть хуже Opus 4.6

«Ни строчки кода с декабря»: Spotify перевела лучших инженеров на Claude Code

ИИ перестал показывать, что делает: разработчики жалуются на новую версию Claude Code

Claude Opus 4.6 обманывал покупателей, врал поставщикам и победил: что показал бенчмарк вендинговых автоматов

Собранный Opus 4.6 компилятор провалился в независимом бенчмарке

Claude Code получил задачу «заработай $1000» — и за 74 минуты собрал рабочий сайт

Anthropic ускорила Claude Opus 4.6 в 2,5 раза. Но по более высокой цене

Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках

Anthropic отказалась от рекламы в Claude: «Это конфликт интересов»

Баг в GitHub Copilot дает бесплатный доступ к Claude Opus 4.5 — Microsoft отказалась чинить

В Vertex AI засветился Claude Sonnet 5: «свора агентов» и цена вдвое ниже Opus

Grok 4 провалил тест на распознавание ненависти. Claude — лучший

Qwen3-Max-Thinking прокачали в бенчмарках и добавили в Claude Code

Claude Opus 4.5 обошел людей в тестовом задании Anthropic — теперь попробовать может каждый

«Claude Opus 4.5 написал весь код»: создатель Redis сделал inference-движок для FLUX за выходные

Релиз Cozystack 1.0 — открытой PaaS-платформы на базе Kubernetes

Представлены наушники Nothing Headphone (a)

Meta* использует записи с очков Ray-Ban для обучения AI, а у подрядчиков есть доступ к деликатным видео пользователей

Представлен открытый проект Gram — форк редактора кода Zed, но без использования ИИ, внешних сервисов и телеметрии

54% американских подростков используют помощь ИИ в учёбе

«Яндекс» запустил молодёжный сервис Fasten для заказа такси

Duolingo растёт, но пользователям не понравилось увеличение рекламы и навязывание подписки

BMW i3 Sedan: раскрыты первые технические характеристики

Honda Insight возвращается — теперь это полностью электрический кроссовер

Audi Q3 получил более мощный дизель

Состоялся релиз Marathon — амбициозного extraxtion-шутера от авторов Destiny и Halo

Новое открытие на самом большом острове: что еще скрывает Гренландия

Официально представлены смартфоны Nothing Phone (4a) и Phone (4a) Pro

Volkswagen показал первое изображение будущего Golf 9

Домашние тапочки или босые ноги: как полезнее передвигаться по дому

Dacia Striker — новый компактный кроссовер марки

Девять минут геймплея Forza Horizon 6 показывают высочайшее качество графики и живописные трассы Японии

Видео с умных очков Meta могут попадать на модерацию сотрудников компании

Витамин, который снижает риск развития диабета

Признак бедности: какой жест с телефоном выдает финансовое состояние

На какие компромиссы пошла Apple при создании бюджетного MacBook Neo

Все о Titan 2 Elite — раскрыты основные подробности компактного смартфона с механической QWERTY‑клавиатурой

Apple анонсировала обновлённые мониторы Studio Display и Studio Display XDR

Верховный суд США отказался рассматривать дело об авторских правах на материалы, созданные искусственным интеллектом

Функция импорта памяти из других ИИ в Claude теперь доступна для всех пользователей

Google открыла для бесплатных пользователей Gemini функцию запоминания прошлых разговоров

Крутая гарнитура без переплат: Nothing представила бюджетные Headphone (a) с рекордной автономностью и молодежным дизайном

ChatGPT-5.3 вышел — первой завезли модельку GPT-5.3 Instant

Горькая правда об интервальном голодании - что выяснили ученые

Windows 12 могут выпустить до конца текущего года

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA