GPT-5.5 и Opus 4.7 провалились в ARC-AGI-3. Вот почему

habr.com

habr.com:

ARC Prize Foundation опубликовал детальный разбор того, как новейшие модели OpenAI и Anthropic проходят интерактивный бенчмарк ARC-AGI-3.

GPT-5.5 набрала 0,43%, Opus 4.7 — 0,18%, тогда как люди решают эти задачи на 100%. Президент фонда Грег Камрадт изучил 160 записей прохождения вместе с цепочками рассуждений моделей и выделил три типичных паттерна провалов.ARC-AGI-3 запустили в марте 2026 года.

Читать на habr.com Все новости от habr.com

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

«Гипотезу Римана может доказать анонимный аккаунт»: математик MIT — об опыте работы с GPT-5.5-Pro

2,5x скорости за 6x цены: у Opus 4.7 появился турбо-режим

OpenAI представила первую голосовую модель с интеллектом GPT-5

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

«Гипотезу Римана может доказать анонимный аккаунт»: математик MIT — об опыте работы с GPT-5.5-Pro

2,5x скорости за 6x цены: у Opus 4.7 появился турбо-режим

Opus 4.6 в 81% попыток сам «копирует себя» на чужой сервер через дыру в коде — исследование Palisade

Из экспоненты в полином за два часа: что GPT-5.5 Pro сделала с задачей по теории чисел

Claude Opus 4.7 стал лучшим ИИ в рефакторинге кода. Второе место у GPT-5.5

На 52,5% галлюцинаций меньше: вышла GPT-5.5 Instant

В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

GPT-5.5 поручили организовать вечеринку в честь своего запуска — а гостей отобрал Codex

GPT-5.4 Pro решила математическую задачу Эрдёша 1196 — и открыла путь к решению еще четырех гипотез

10 минут вместо 12 часов: GPT-5.5 решила экспертную кибер-задачу за $1.73

Хассабис предложил необычный тест на AGI — открыть теорию относительности во второй раз

Как GPT-5.5 стала одержима гоблинами. OpenAI разобрала собственную ошибку в RL

GPT-2 научили подбирать сплавы для термоядерных реакторов

Соглашение об AGI умерло: Microsoft и OpenAI переписали правила игры

Хассабис: AGI, скорее всего, построят поверх нынешних языковых моделей

GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

Вышла GPT-5.5 — модель, которая сама создала часть своего инференса

GPT-5.5 засветилась в Codex — релиз возможен в ближайшие часы

Опубликована подборка 1000+ промптов для GPT Images 2. Подойдут и для других рисовалок

Claude Opus взломал Chrome — а та же дыра сидит в Claude Desktop

Opus 4.7 галлюцинирует в два раза реже Opus 4.6 — при той же точности

OpenAI выпустила GPT-Rosalind: модель для создания лекарств обошла 95% экспертов в задаче по РНК

Вышел Claude Opus 4.7 — втрое лучше видит, строже слушает инструкции

GPT-5.4 Pro решила задачу Эрдёша приемом, который не заметили математики. Теренс Тао уже строит новую теорию

GPT-5.4-Cyber умеет разбирать бинарники: OpenAI выпустила модель для тестирования киберугроз

Claude Opus 4.7 может выйти на этой неделе — а акции Figma уже упали на 6%

Casio представила компактные часы G-Steel GST-B1000BD с солнечной зарядкой и Bluetooth

MiniMax выпустила M3: открытая мультимодальная модель с контекстом 1M токенов

UserGate сохранил лидерство на рынке сетевой безопасности России

Nvidia выходит на рынок ноутбуков с Windows

Смартфон вас не прослушивает - все намного хуже, говорят эксперты

Asus представила VivoWatch 6 Plus: умные часы с упором на здоровье

Энтузиаст создал из запчастей и скотча портативную консоль на основе PlayStation 2

М.Видео запускает продажу автокресел, детских колясок и других новых категорий товаров для детей

Google хочет выпустить миллионы стерильных комаров - зачем это нужно

Alphabet планирует привлечь $80 млрд для масштабирования ИИ-инфраструктуры

Жуткую закономерность, предшествующую кошмарам, выявили ученые

США, Австралия и Великобритания планируют использовать беспилотники для защиты подводных кабелей

Android-планшеты становятся мощнее: AnTuTu назвал лидеров мая 2026 года

Oura представила Ring 5 — своё самое компактное умное кольцо с автономностью до 9 дней

Экс-инженер Meta* посоветовала уволенным готовиться к году без работы

Инфостарт поддержит Международный технологический конгресс МТК-2026

Hisense представила серию недорогих 4K Mini-LED телевизоров U7SE с частотой 144 Гц и звуком от Devialet

Геймеров ждет крутое шоу: представлен “хайп”-трейлер Summer Game Fest 2026

Рестомод Porsche 911 (964) Theon Design: углепластик и 6000 часов ручной работы

Алкоголь будет вредить меньше - нутрициолог раскрыла 4 правила

Samsung Galaxy Z Fold 8 (Wide): утечки раскрывают более удобный формат и ключевые улучшения

Какое текстовое сообщение вызывает у людей наибольшую тревогу

Что нового в Game Pass: раскрыты новинки, которые пополнят каталог в ближайшее время

MiniMax M3 обошла GPT-5.5 на SWE-Bench Pro и выйдет с открытыми весами

Минобрнауки: стоимость обучения в российских вузах в 2026 году выросла в среднем на 11%

Здоровье под полным контролем: ASUS представила премиальные смарт-часы VivoWatch 6 Plus с новейшими датчиками и глубокой AI-аналитикой

Кровь человека оказалась "порталом" в прошлое - исследование

Как место жительства может влиять на скорость старения - исследование

Психологический хоррор Silent Hill: Townfall получил атмосферный трейлер и дату релиза

Мнение: устная традиция в разработке программного обеспечения может уйти в прошлое из-за ИИ

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA