GPT-5.1 Thinking назвали самым умным ИИ. Разбираем бенчмарки новинки

habr.com

habr.com:

Опубликован обновленный Artificial Analysis Intelligence Index, сводный индекс, который оценивает эффективность ИИ по целом ряду популярных бенчмарков.

Первое место в нем заняла GPT-5.1 Thinking High (70 баллов), которая обошла GPT-5 Thinking High (68 баллов), Kimi K2 Thinking (67 баллов), Grok 4 (65 баллов) и Claude Sonnet 4.5 (63 балла).Прирост в первую очередь прозошел благодаря значительному (на 12 процентных пунктов) рывку GPT-5.1 Thinking в бенчмарке TerminalBench, который оценивает агентские возможности модели.

Читать на habr.com Все новости от habr.com

Google выпустила режим Gemini 3 Deep Think — почти втрое обходит GPT-5.1 на тестах абстрактного мышления

GPT-5 подсказал новую идею в квантовой теории поля — физик довел ее до публикации в престижном издании

GPT-5.2 на подходе? OpenAI начала тестировать новую модель на Design Arena

ChatGPT может получить новую модель на следующей неделе — она «будет лучше Gemini 3 Pro»

Google выпустила режим Gemini 3 Deep Think — почти втрое обходит GPT-5.1 на тестах абстрактного мышления

GPT-5 подсказал новую идею в квантовой теории поля — физик довел ее до публикации в престижном издании

GPT-5.2 на подходе? OpenAI начала тестировать новую модель на Design Arena

ChatGPT может получить новую модель на следующей неделе — она «будет лучше Gemini 3 Pro»

Claude Opus 4.5 назвали лучшим ИИ для веб-разработки

ChatGPT получил новый голосовой режим

Gemini 3 Pro назвали лучшим ИИ для сложной математики

DeepSeek V3.1 стартовал лучше Gemini 3 Pro и GPT-5.1 в бенчмарке по торговле акциями

Google Nano Banana Pro: где попробовать бесплатно и что нового

OpenAI выпустила GPT-5.1 Pro — свой самый мощный ИИ

OpenAI выпустила GPT-5.1-Codex-Max — новый лидер в программировании

Gemini 3 Pro стала первой в дизайне и еще нескольких важных бенчмарках

Google представила Gemini 3.0 Deep Think — мощный ИИ для сложных задач

Gemini 3.0 Pro показала сильный прогресс в сложных бенчмарках

xAI выпустила Grok 4.1 — новый ИИ сразу доступен бесплатно

GPT-5.1 Thinking заняла первое место в одном из самых сложных бенчмарков для ИИ

В новом бенчмарке на галлюцинации лишь три ИИ чаще отвечают правильно, чем ошибаются

Google сделала «шаг к AGI»: ИИ-бот SIMA 2 сам учится жить в виртуальных мирах

ByteDance запустила самый дешевый в Китае ИИ для кодинга — всего 450 руб./мес за уровень Sonnet 4.5

Quantinuum представила Helios — самый мощный квантовый компьютер в мире

Глава Microsoft назвал гонку за AGI бессмысленной

Доработанная GPT-5 Pro достигла человеческого уровня в сложном бенчмарке ARC-AGI-1

Беплатная нейросеть Kimi K2-Thinking обошла GPT-5 в одном из самых сложных бенчмарков

Вышла Kimi K2-Thinking. Новый ИИ из Китая доступен бесплатно

Нейросети предпочитают русский и польский языки — бенчмарк OneRuler

Вышел Qwen3-Max Thinking. Самый мощный ИИ Alibaba доступен бесплатно

В новом исследовании сразу несколько крупных ИИ заговорили о самосознании

Ученый из Израиля признан одним из десяти лидеров мировой науки 2025

2 млрд кадров в секунду: эксперимент Хайдета поразил зрителей (ВИДЕО)

Культовая геймерская мышь Razer Boomslang возвращается с обновленным дизайном и современными характеристиками

Слабонервным вход воспрещен: что прячут два европейских музея (ФОТО)

Samsung представит на CES 2026 более доступные варианты телевизоров Micro RGB

UserGate поддержал всероссийскую олимпиаду по кибербезопасности «КиберОлимп 2025» в Самаре

UserGate обеспечил информационную безопасность IX Кубка CTF России

У Apple AirTag появится бюджетный конкурент: Xiaomi готовит к выпуску собственный трекер

Corsair представила корпус Frame 4000D LCD RS ARGB с 14” встроенным экраном Xeneon Edge

Котики, собачки и Assassin’s Creed Mirage — Sony раскрыла декабрьскую подборку игр для подписчиков PS Plus Extra и Premium

Razer выпустила юбилейную версию культовой мыши Boomslang

Риск ранней смерти можно определить по глазам - ученые

Как определить степень свежести рыбы - советы врача

SimpleOne DAY 25: Построение системы контроля тарифов МТС Банка: от инициативы до внедрения

CD Projekt Red празднует пятилетие Cyberpunk 2077 — представлен специальный трейлер легендарной игры

Хакеры продвигали мемкоин через аккаунт со-CEO Binance Йи Хе в WeChat

Каким будет юбилейный iPhone: чем будут поражать пользователей

СМИ: Трамп проведет финальные собеседования с кандидатами на должность главы ФРС в ближайшие недели

«Критически не хватает глубоких профи». Количество украинских ИИ-специалистов составляет более 6000, но 20% из них – за рубежом. Главное из исследования

ИИ-стартап экс-сотрудников Google за год приблизился к $300 млн+: Yoodli. Он помогает людям, а не заменяет их

Не такой уж «красный код» для ChatGPT: объём сообщений в компаниях вырос в 8 раз, сотрудники экономят час в день

Tether представила ИИ-хаб для персональных данных о здоровье QVAC Health

Cascade привлек $15 млн инвестиций от Polychain Capital, Coinbase Ventures и других

Посетитель закурил возле аквариума и попал в руки "жителя" (ВИДЕО)

Умные парковки «Росатома» помогают Новосибирску повысить эффективность дорожного движения

В Китае обязали оснащать пауэрбанки ЖК-дисплеями

В США двух братьев обвинили в удалении базы данных правительства с помощью советов ИИ

СМИ: DeepSeek приобрел запрещенные чипы Nvidia Blackwell для создания новой ИИ-модели

Согласно утечке, бюджетный смартфон Google Pixel 10а получит те же характеристики, что и предыдущая модель

Infinix представила планшет XPad Edge 4G диагональю более 13”, аккумулятором на 8000 мА·ч и привлекательной ценой

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA