Доработанная GPT-5 Pro достигла человеческого уровня в сложном бенчмарке ARC-AGI-1

habr.com

habr.com:

Исследователь Джереми Берман сообщил, что разработанная им мультиагентная система на базе GPT-5 Pro показала 88 из 100 на случайной выборке задач из бенчмарка ARC-AGI-1 при средней стоимости порядка 27 долларов за задачу и суммарном времени прогона около 12 часов.

Берман подчеркивает, что результат еще предстоит проверить на скрытом наборе ARC Prize; в его прошлых экспериментах официальная верификация обычно снижала итог на несколько пунктов и слегка увеличивала стоимость.

Читать на habr.com Все новости от habr.com

Вышел DeepSeekMath-V2 — математический ИИ олимпиадного уровня

Илья Суцкевер уверен: AGI нельзя прятать от людей

Claude Opus 4.5 стал лидером в сложнейшем тесте ИИ

Gemini 3 Pro стал первым ИИ, достигшим уровня IQ 130

Вышел DeepSeekMath-V2 — математический ИИ олимпиадного уровня

Илья Суцкевер уверен: AGI нельзя прятать от людей

Claude Opus 4.5 стал лидером в сложнейшем тесте ИИ

Gemini 3 Pro стал первым ИИ, достигшим уровня IQ 130

Андрей Карпати собрал «совет ИИ»: GPT-5.1, Gemini 3 Pro, Claude и Grok спорят за лучший ответ

Gemini 3 Pro назвали лучшим ИИ для сложной математики

DeepSeek V3.1 стартовал лучше Gemini 3 Pro и GPT-5.1 в бенчмарке по торговле акциями

Google Nano Banana Pro: где попробовать бесплатно и что нового

GPT-5 Pro помогла сделать несколько научных открытий

Андрей Карпати рассказал, как его «загазлайтила» Gemini 3 Pro

OpenAI выпустила GPT-5.1 Pro — свой самый мощный ИИ

Появились примеры работы Nano Banana Pro

OpenAI готовит GPT-5.1-Codex-Max — ответ Gemini 3 Pro

Gemini 3 Pro стала первой в дизайне и еще нескольких важных бенчмарках

Google представила Gemini 3.0 Deep Think — мощный ИИ для сложных задач

Google запустила Antigravity — бесплатную среду для вайб-кодинга на базе Gemini 3 Pro

Вышла Gemini 3 Pro — модель можно попробовать бесплатно

GPT-5.1 Thinking заняла первое место в одном из самых сложных бенчмарков для ИИ

В новом бенчмарке на галлюцинации лишь три ИИ чаще отвечают правильно, чем ошибаются

OpenAI готовит к выпуску ИИ олимпиадного уровня

GPT-5.1 Thinking назвали самым умным ИИ. Разбираем бенчмарки новинки

Глава Google намекнул на выход Gemini 3.0 Pro на следующей неделе

В новом бенчмарке ни один ИИ не выставил правильно стрелки на часах

Сэм Альтман рассказал, чем GPT-6 будет отличаться от GPT-5

Gemini 3.0 Pro выйдет до конца ноября — внутренние документы Google

Нейросети предпочитают русский и польский языки — бенчмарк OneRuler

В OpenAI все чаще берут разработчиков уровня super junior

Зачем аэропорты обливают самолеты водой: история необычного ритуала

Показан прототип смартфона Samsung Galaxy Z TriFold с основной квадрокамерой

«Уже пора считать деньги». Как внедрить ИИ не «для галочки» и какие ошибки можно допустить? Кейсы МХП и «Подорожник»

В Cryptology Key поделились прогнозами относительно биткоина и альткоинов

Wintermute: крипторынок вошел в фазу консолидации

DogeCon 2025 представит мост Solana–Doge и объединит механизмы PoW и PoS

OpenAI настаивает на том, что ее рекомендации по покупкам не следует воспринимать как рекламу

Тогда бы никто не хотел родиться: что превратило этот век в кошмар

Вышел AnyDesk 9.6.6 для Windows

Инженеры MIT разрабатывают воздушного микроробота, который может летать со скоростью шмеля

Neowin: новый список поддерживаемых процессоров для Windows 11 может ввести в заблуждение

Железные колесики, деревянный корпус: как менялась компьютерная мышь (инфографика)

В 2026 году Google выпустит две модели смарт-очков с ИИ

Polygon развернул хардфорк Madhugiri для повышения производительности сети

Мир странных законов: за что туристов могут оштрафовать за рубежом

В Ханчжоу представлен первый робот-регулировщик дорожного движения с ИИ

OpenAI обучила модели «признаваться» в плохом поведении

ЕС начал антимонопольное расследование в отношении Google из-за AI Overviews и обучения ИИ

CIO Bitwise: крипторынок может вырасти в 10-20 раз за следующие 10 лет

MetaComp привлекла $22 млн на масштабирование Web2.5-инфраструктуры

В Китае дебютировали первые накопители нового формата Mini SSD со скоростью чтения до 3700 МБ/с

Honor представила бюджетный смартфон Magic 8 Lite с аккумулятором на 7500 мА·ч и сверхъярким OLED‑экраном

В Еврокомиссии планируют начать объединение рынков капитала до 2027 года — Bloomberg

Binance достигла 300 млн пользователей

VARUS.UA и Bitget запустили акцию с еженедельными наградами и главным призом iPhone 17 Pro

Обновление открытого проекта для создания и хранения в электронной библиотеке книг разного формата Calibre 8.16

Финская компания Jolla представила свой смартфон Jolla Phone на ОС Sailfish

Wuque Studio представила клавиатуру весом 8,6 кг со встроенным часовым механизмом

Исследование: Grok выдаёт многие личные данные пользователей по запросу

Cloudflare заблокировала 416 млрд запросов ИИ-ботов на парсинг за пять месяцев

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA