Показатели лучших моделей OpenAI рухнули в новом бенчмарке ARC-AGI-2

habr.com

habr.com:

Новый бенчмарк AI ARC-AGI-2 значительно поднимает планку для тестов AI. В то время как люди могут легко решать эти задачи, даже высокоразвитые системы AI, такие как OpenAI o3, явно терпят неудачу.Франсуа Шолле и его команда выпустили ARC-AGI-2, новую версию своего теста AI.

Несмотря на то, что новый тест соответствует формату ARC-AGI-1, он обеспечивает, по словам команды, более сильный сигнал для измерения истинного интеллекта системы.«Это тест AI, разработанный для измерения общего подвижного интеллекта, а не заученных навыков — набора никогда ранее невиданных задач, которые людям кажутся простыми, но с которыми современный AI сталкивается с трудностями», — пояснил Шолле на X.

Читать на habr.com Все новости от habr.com

OpenAI планирует постепенно исключить GPT-4.5, свою самую большую модель искусственного интеллекта, из своего API

Новые модели AI GPT-4.1 от OpenAI фокусируются на кодировании

Институт Аллена запускает OLMoTrace: инструмент для отслеживания источников ответов языковых моделей в обучающих данных

Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

OpenAI планирует постепенно исключить GPT-4.5, свою самую большую модель искусственного интеллекта, из своего API

Новые модели AI GPT-4.1 от OpenAI фокусируются на кодировании

Институт Аллена запускает OLMoTrace: инструмент для отслеживания источников ответов языковых моделей в обучающих данных

Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

Google поддержит стандарт Anthropic MCP для AI-моделей Gemini

Google запускает бюджетную версию Gemini 2.5 Flash в Vertex AI и готовит локальное развертывание моделей

Новое исследование показывает, что модели OpenAI «запоминают» защищенный авторским правом контент

Meta* выпустила Llama 4, новую серию флагманских моделей AI

Студия Ghibli не прокомментировала натиск копий AI от OpenAI, но фанатский сабреддит сделал это

По данным OpenAI, пользователи ChatGPT сгенерировали более 700 млн изображений с прошлой недели

Эксплуатация модели o3 от OpenAI может оказаться более затратной, чем предполагалось изначально

OpenAI стремится созвать группу для консультирования по некоммерческим целям

Исследователи предлагают OpenAI обучить модели AI на книгах издательства O'Reilly

OpenAI отключает генерацию видео для некоторых пользователей Sora из-за проблем с емкостью

Питер Тиль предупреждал Сэма Альтмана о конфликтах безопасности AI незадолго до кризиса OpenAI

Новая книга раскрывает подробности увольнения Сэма Альтмана из OpenAI: личный фонд и конфликты с руководством

OpenAI использует стандарт конкурирующей компании Anthropic для подключения моделей AI к данным

Google представляет новое поколение моделей рассуждений Gemini 2.5

O1-pro от OpenAI — самая дорогая модель искусственного интеллекта компании на сегодняшний день

Руководитель OpenAI уходит, чтобы основать стартап в области материаловедения

OpenAI начнет тестирование коннекторов ChatGPT для Google Drive и Slack

Суд отклонил ходатайство Илона Маска в отношении OpenAI

OLMo 2 32B устанавливает новый стандарт для моделей LLM с открытым исходным кодом

Bria получает новое финансирование для моделей AI, обученных на лицензированных данных

Google выпускает новое семейство открытых моделей Gemma 3

OpenAI запускает новые инструменты для создания агентов AI

Microsoft готовит внутренние модели AI, способные конкурировать с OpenAI и Anthropic

OneNote для Windows получило поддержку Dynamic DPI

Прорыв в области диабета: напечатанные на 3D-принтере островки поджелудочной железы могут заменить уколы инсулина

Каким "преимуществом" обладают люди, ложащиеся спать рано - ответ ученых

Идеи для осеннего отпуска: шесть топовых мест Европы

Грозит дисфункцией почек: кому нельзя пить более трех чашек кофе в день

Что нужно есть утром, чтобы похудеть, рассказали диетологи

Популярные средства для похудения могут вызвать серьезную болезнь

Tinder начал проверять профили новых пользователей в Калифорнии с помощью технологии распознавания лиц

Samsung Galaxy S26 Ultra получит аккумулятор прежней емкости, но с большей плотностью

ТОП-8 тревожных сигналов, что новый партнер вас просто использует, назвал психолог

Новый Alpine A290 Rallye готов раскидывать грязь и гравий за 60 тысяч евро

Еще одна жертва увольнений в Microsoft: Blizzard завершает контентную поддержку мобильной игры Warcraft Rumble

Бензиновый Ford Mustang вновь обогнал электрический Mach-E по продажам в США

Шеф-дизайнер Mercedes заявил, что EQS вышел слишком рано и второго поколения не будет

Redmi Note 14 Pro и Pro+ теперь доступны в элегантном цвете Champagne Gold

Представлено умное кольцо Pebble HALO с цифровым дисплеем

Сеанс со списанием: мошенники похищают деньги под предлогом онлайн-просмотра кино

Вещество, останавливающее рост раковых клеток, ученые нашли в популярной специи

Три продукта, которые снижают риск развития деменции, обнаружили ученые

Honda и Sony потеряли $360 миллионов на автомобиле Afeela ещё до старта продаж

Techland возвращается к истокам: авторы Dying Light работают над новой частью Call of Juarez

Блогер показал жизнь, полностью лишенную Google

Из-за ошибки тысячи жителей Норвегии стали «миллионерами» после «выигрыша» в лотерее

Instagram** теперь позволяет делиться песнями Spotify со звуком в Stories

В Сочи сделали парковки для электросамокатов вне тротуара

Завтра Земля будет дальше всего от Солнца: что это значит для нас

Раньше не встречались: ученые открыли три новых минерала

EGS запустил раздачу музыкальной адвенчуры Figment и roguelike-игры Backpack Hero

Motorola выпустила бюджетный смартфон Moto G100 Pro с неплохими характеристиками за разумные деньги

Релиз Qmmp 2.2.7 — открытого мультимедийного проигрывателя на базе Qt для Windows и Linux

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA