GPT-5.1 Thinking заняла первое место в одном из самых сложных бенчмарков для ИИ

habr.com

habr.com:

GPT-5.1 Thinking пришла первой в бенчмарках ARC-AGI-1 и ARC-AGI-2, которые считаются одними из самых сложных и важных для ИИ.

Суть этих бенчмарков в том, что они пытаются замерить не знания модели, а ее способность к абстрактному мышлению в духе человека и способности решать задачи, которые он никогда не видел.На старте каждой задачи ИИ показывают два набора цветных табличек из клеток в состоянии "было" > "стало" — из них модель должна вывести правило, а затем применить его на новой задаче.

Читать на habr.com Все новости от habr.com

Глава Google DeepMind: AGI на горизонте, риск для человечества — «значительный»

Google выпустила режим Gemini 3 Deep Think — почти втрое обходит GPT-5.1 на тестах абстрактного мышления

«Nano Banana Pro для видео» — вышла универсальная модель Kling O1

Google представила бесплатный инструмент для вайб-кодинга App.new

Глава Google DeepMind: AGI на горизонте, риск для человечества — «значительный»

Google выпустила режим Gemini 3 Deep Think — почти втрое обходит GPT-5.1 на тестах абстрактного мышления

«Nano Banana Pro для видео» — вышла универсальная модель Kling O1

Google представила бесплатный инструмент для вайб-кодинга App.new

Claude Opus 4.5 назвали лучшим ИИ для веб-разработки

В MIT представили ИИ для разработки лекарств против трудноизлечимых заболеваний

Вышел Claude Opus 4.5: лучший ИИ для кода втрое дешевле прежнего Opus

Gemini 3 Pro стал первым ИИ, достигшим уровня IQ 130

Gemini 3 Pro назвали лучшим ИИ для сложной математики

DeepSeek V3.1 стартовал лучше Gemini 3 Pro и GPT-5.1 в бенчмарке по торговле акциями

Gemini 3 Pro стала первой в дизайне и еще нескольких важных бенчмарках

Google представила Gemini 3.0 Deep Think — мощный ИИ для сложных задач

Google запустила Antigravity — бесплатную среду для вайб-кодинга на базе Gemini 3 Pro

Gemini 3.0 Pro показала сильный прогресс в сложных бенчмарках

GPT-5.1 Thinking назвали самым умным ИИ. Разбираем бенчмарки новинки

Китайская хакерская госгруппа использовала Claude для масштабного кибершпионажа

$50 млрд для Claude: Anthropic запускает строительство собственных дата-центров в США

Главный соперник nano banana 2? Первая информация о Mandarin — ИИ-рисовалке от xAI

xAI и Anthropic-Amazon первыми построят дата-центры рекордной мощности 1 ГВт

Ждем Doom внутри Gemini? Google готовит «креативный холст» для своего чат-бота

Доработанная GPT-5 Pro достигла человеческого уровня в сложном бенчмарке ARC-AGI-1

Google представила DS-STAR — ИИ-агента для сквозной дата-аналитики

Беплатная нейросеть Kimi K2-Thinking обошла GPT-5 в одном из самых сложных бенчмарков

Вышла Kimi K2-Thinking. Новый ИИ из Китая доступен бесплатно

Вышел Qwen3-Max Thinking. Самый мощный ИИ Alibaba доступен бесплатно

«Это не первый мой пузырь»: биржевой аналитик призвал продавать акции Nvidia

Cursor выпустил версию 2.0 и передовую ИИ-модель для кодинга Composer

Threads идет по пути Reddit: Meta расширяет сообщества и усиливает конкуренцию с X

Как уснуть за считанные минуты: пять простых правил

Странные дела возвращаются: трейлер второй части 5-го сезона готовит зрителей к финалу истории

Декабрьское обновление Windows 11 принесло проблемы компьютерам Dell

Disney+ стал доступен на гарнитурах Meta Quest: что изменяется для пользователей?

Apple TV для Android получил поддержку Google Cast

Стартап Operation Bluebird собирается возродить Twitter

Яндекс Карты начали открытое бета-тестирование нового рекламного инструмента — «Похожие организации»

ИИ-функция Excel позволит не запоминать формулы

Электрический пикап Ford F-150 Lightning официально снят с производства

smart начал испытания новой EV-платформы для будущей модели #2

Nissan запустил аудиоприложение Personalized Sound для автомобилей с Google built-in

В приложении Waze наконец-то появились светофоры

Вернулись к истокам: злоумышленники провели новую атаку ВПО Buhtrap через сайты-приманки

Полностью электрический VW ID. Polo вышел на финальные испытания

Глава OnlyFans: один из ключевых факторов успеха компании — это отказ от менеджеров среднего звена

Tesla нашла способ интегрировать Starlink в свои электромобили

Профессор Калифорнийского университета выследил аспиранта-вандала с помощью скрытой камеры

Более 10 тысяч образов Docker Hub содержат утечки учётных данных и ключей аутентификации

Шесть углеводов, которые помогают сжигать жир вместо его накопления

Ученые нашли неожиданный заменитель нефти

Vivo представила компактный флагман S50 Pro mini с процессором Snapdragon 8 Gen 5 и камерой Sony на 50 Мп

Культовая RPG Divinity: Original Sin 2 получила нативные версии для PS5, Xbox Series и Nintendo Switch 2

Разрушенный 69 лет назад вулкан в россии снова растет – ученые

Комета 3I/ATLAS приближается к Земле: «это может быть космический троянский конь»

Три переработанных продукта, от которых страдает здоровье сердца

Пять лет спустя Fortnite вернулась в Google Play, а судебная тяжба между Epic и Apple продолжается

В РАН обнаружили 90 новых слов и сочетаний в русском языке в 2025 году

Складной iPhone оборудуют сканером отпечатков пальцев

СМИ: «Яндекс» разрабатывает под собственным брендом электромобиль для такси

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA