DeepSeek-R1 провалил проверку на здравый смысл в новом бенчмарке

habr.com

habr.com:

Семейство бенчмарков EQ‑Bench пополнилось новым тестом, в котором популярные ИИ оцениваются на подхалимство и подкрепление бреда.

Худший общий результат в бенчмарке показал DeepSeek‑R1, дальше идут Claude Sonnet 4 и GPT-4o. Лучшие результаты у рассуждающей версии GPT-5, GPT o3 и, неожиданно, открытой модели OpenAI — GPT‑OSS.

Читать на habr.com Все новости от habr.com

Лучшая поза для сна, которая поможет избежать провалов в памяти

ИИ Google Nano Banana привлек 10 миллионов новых пользователей в Gemini App

DeepSeek готовится запустить ИИ-агента к концу года

ИИ в комбинации с новыми подходами ускорит создание лекарств в два раза — Reuters

Лучшая поза для сна, которая поможет избежать провалов в памяти

ИИ Google Nano Banana привлек 10 миллионов новых пользователей в Gemini App

ИИ в комбинации с новыми подходами ускорит создание лекарств в два раза — Reuters

Вышла библиотека FreeDroidWarn с предупреждением, что разработчик не будет предоставлять Google на проверку свои данные

OpenAI представила новый голосовой ИИ

Редакторы «Википедии» отвергли идею основателя об ИИ после того, как ChatGPT завалил проверку на базовые правила

Китай планирует утроить производство GPU ради нового «момента DeepSeek»

Samsung протестировала чип Exynos 2600 в бенчмарке Geekbench

Google представила новый ИИ для создания картинок. Он обходит GPT Image в 6 из 7 бенчмарков

«Самый важный бенчмарк». GPT-5 прошла Pokemon Crystal быстрее других ИИ

«Сначала покажи паспорт»: новые правила проверки возраста в западном интернете

GPT-4 предложила новые варианты белков для борьбы со старением

Июльские $5 млрд превращаются в $10 млрд. Новый поворот в раунде Anthropic

После выхода DeepSeek-V3.1 акции китайских производителей полупроводников взлетели на 10-20%

DeepSeek V3.1 выпущен официально. Дешевая модель с улучшенными агентскими функциями

На презентации Google Pixel 10 показали новые ИИ-функции для Android и iOS

Новая версия Grok доступна бесплатно в Cursor

DeepSeek получил обновление. К сожалению, пока не до R2

«Проверки не запрещаются». Глава налоговой Карнаух о «тени» в сигаретах и Apple, моратории на проверки и судьбе банковской тайны. Интервью

ИИ nano banana задает новый стандарт в создании картинок. Но кто его разработчик?

Этот день стоит отметить в ежедневнике: стало известно, когда презентуют новый iPhone 17 и откроют предзаказ

DeepSeek R2 задерживается из-за отсталости китайских чипов — FT

Минус еще один Live-service?! Аналитик уверен в отмене сетевого шутера Fairgame$ и провале ставки Sony на онлайн-игры

Станет ли Neo Berlin 2087 очередным провалом? Новый трейлер киберпанк-экшена вызвал неоднозначную реакцию публики

Grok 4 стал доступен бесплатно, а новая версия модели завершила пре-тренировку

NASA провалило важную миссию по поиску воды на Луне

Самый татуированный британец не может пройти проверку возраста — камеры не распознают его

Правда ли, что коричневые куриные яйца полезнее белых, рассказали врачи

Представлены проводные наушники-вкладыши Sony IER-EX15C с разъемом USB-C

Ученые нашли связь между вулканом в Исландии и Великой французской революцией

Кошки могут страдать от тяжелго "человеческого" заболевания - ученые

Маркировка звонков с 1 сентября 2025 года

Microsoft прекратит поддержку браузерных расширений Editor для Chrome и Edge с 31 октября

Gmail не рассылала массовые предупреждения о безопасности

Глава Salesforce: ИИ позволил сократить 4 тысячи рабочих мест

Провели ML-интенсив для студентов ведущих вузов Москвы и Подмосковья

СМИ: Продающиеся в России iPhone теперь помечаются «бракованными», но это ничего не изменит

Бренды под ударом: ритейл обошел финансовый сектор по количеству фишинговых и скам-атак в 2025 году

Продукты, которые не стоит есть на завтрак, назвали диетологи

В 2026 году некоторые старые видеокарты Nvidia приведут к трудностям включения ПК при активированной Secure Boot в UEFI

В продаже с 2026 года: Porsche показала беспроводную зарядку для электромобилей

Какая диета больше всего "бьет" по сексуальной активности мужчин, рассказали врачи

Mazda построит новый батарейный завод для электромобилей в Японии

Кибератака остановила производство Jaguar Land Rover: заводы будут простаивать до вторника

Ford продал вдвое больше электрических Mustang, чем бензиновых

Samsung выпустила портативные динамики Sound Tower ST50F и ST40F

Почему нельзя спать с серьгами - врач предупредил об опасности

Житель Дюссельдорфа нашел зуб мамонта – как он выглядит (ФОТО)

Porsche ломает собственные традиции: заменитель Macan будет с акцентом на передний привод

Вампиры голубых кровей: авторы Vampire: The Masquerade — Bloodlines 2 выпустили трейлер клана Ventrue

TCL анонсировала огромный и мощный смартфон NxtPaper 60 Ultra со стилусом

Простые добавки к кофе, которые сделают вас здоровее и активнее

Продукты, которые больше всего вредят вашим сосудам, назвали врачи

ТОП-7 привычек, из-за которых вы часто чувствуете себя уставшим

Чипы TSMC станут ещё дороже из-за американских пошлин

Acer выпустила настольные ПК Predator Orion 7000 и Predator Orion 5000

«Роскосмос»: на российском сегменте МКС с 2020 по 2024 годы загерметизированы четыре сквозные трещины

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA