В новом бенчмарке на галлюцинации лишь три ИИ чаще отвечают правильно, чем ошибаются

habr.com

habr.com:

Artificial Analysis представила новый бенчмарк AA-Omniscience, который оценивает уровень галлюцинаций не только по количеству правильных ответов, но и по умению моделей говорить "не знаю".

Первые три места занимают ИИ из линейки Claude: маленькая Claude 4.5 Haiku показывает около 26% неверных ответов среди всех неудачных попыток, а Claude 4.5 Sonnet и Claude 4.1 Opus делят второе и третье место с результатом 48%.

Читать на habr.com Все новости от habr.com

GPT-5 подсказал новую идею в квантовой теории поля — физик довел ее до публикации в престижном издании

GPT-5.2 на подходе? OpenAI начала тестировать новую модель на Design Arena

Компания OpenAGI выпустила новый ИИ Lux, который автономно управляет компьютером

ChatGPT может получить новую модель на следующей неделе — она «будет лучше Gemini 3 Pro»

GPT-5 подсказал новую идею в квантовой теории поля — физик довел ее до публикации в престижном издании

GPT-5.2 на подходе? OpenAI начала тестировать новую модель на Design Arena

Компания OpenAGI выпустила новый ИИ Lux, который автономно управляет компьютером

ChatGPT может получить новую модель на следующей неделе — она «будет лучше Gemini 3 Pro»

ChatGPT исполнилось три года

Google представила бесплатный инструмент для вайб-кодинга App.new

ChatGPT получил новый голосовой режим

Андрей Карпати объяснил, почему LLM — это другой тип разума, а не недочеловек

DeepSeek V3.1 стартовал лучше Gemini 3 Pro и GPT-5.1 в бенчмарке по торговле акциями

Google Nano Banana Pro: где попробовать бесплатно и что нового

xAI выпустила Grok 4.1 Fast: новый ИИ временно доступен бесплатно

OpenAI выпустила GPT-5.1-Codex-Max — новый лидер в программировании

Gemini 3 Pro стала первой в дизайне и еще нескольких важных бенчмарках

Gemini 3.0 Pro показала сильный прогресс в сложных бенчмарках

GPT-5.1 Thinking заняла первое место в одном из самых сложных бенчмарков для ИИ

DeepSeek, Qwen и Kimi вытесняют американский ИИ из Кремниевой долины

GPT-5.1 Thinking назвали самым умным ИИ. Разбираем бенчмарки новинки

Новый Grok с огромным контекстным окном испытывают на OpenRouter

В новом бенчмарке ни один ИИ не выставил правильно стрелки на часах

Ждем Doom внутри Gemini? Google готовит «креативный холст» для своего чат-бота

Китайский топ-ИИ Kimi K2 получит новые версии, компьютерное зрение и агентный режим

Доработанная GPT-5 Pro достигла человеческого уровня в сложном бенчмарке ARC-AGI-1

Сэм Альтман рассказал, чем GPT-6 будет отличаться от GPT-5

Беплатная нейросеть Kimi K2-Thinking обошла GPT-5 в одном из самых сложных бенчмарков

Вышла Kimi K2-Thinking. Новый ИИ из Китая доступен бесплатно

Нейросети предпочитают русский и польский языки — бенчмарк OneRuler

В новом исследовании сразу несколько крупных ИИ заговорили о самосознании

Что добавить в пюре, чтобы превратить его в ресторанный деликатес

Легкую диету, которая может продлить жизнь на четверть, выявили ученые

Motif-2: как маленькая модель из Кореи обгоняет GPT-5.1 в тестах

Microsoft купила 3,6 млн метрических тонн квот на поглощение углерода на биоэнергетическом заводе

Google представила ИИ-модель Gemini 3 Flash

Instagram выпустил приложение для больших экранов Instagram for TV

Биткоин вырос выше $89 000 на фоне снижения инфляции до 2,7% — это значительно ниже прогнозов

В Kaiko назвали причины роста аудитории Binance до 300 млн

Эксклюзивная сделка Disney с OpenAI действует всего год

Ленивый яблочный пирог | ФОКУС ВНИМАНИЯ

Шесть неожиданных симптомов деменции, которые многие игнорируют годами

«Лаборатория Касперского» разработала защитное решение для нашего нового спутника

Пользователи Claude и ChatGPT стали жертвами массовой слежки через Urban VPN

Учёные отправили нейросети на психотерапию – и выявили тревожность, ОКР и внутренние конфликты

Минпромторг планирует ограничить для госзаказчиков закупку иностранного контрольного и измерительного оборудования

Стоит ли переходить с роутера с Wi-Fi 6E на роутер с Wi-Fi 7

Tokenized Capital Summit 2025 собрал более 2500 участников в Абу-Даби

Компании Coursera и Udemy объявили о слиянии на $2,5 млрд для развития ИИ-образования

DTCC переведет казначейские облигации США на блокчейн через Canton Network

Хитовая комедийная стратегия Dispatch уже в январе выйдет на Switch и Switch 2

Первый неофициальный рендер iPhone Fold раскрыл необычное соотношение сторон дисплея нового гаджета Apple

Любовный гороскоп на вторую половину декабря 2025 года

Let's Encrypt запустил новую иерархию сертификатов Generation Y

Какие игрушки лучше не вешать на елку в 2026 году

Операционная прибыль Samsung в 2026 году может достичь $73 млрд

Власти Индии одобрили сделку по покупке Coinbase миноритарной доли в CoinDCX

Внедрение ИИ приводит к найму специалистов начального уровня, считают руководители компаний

На Байконур прибыл полный комплект для замены кабины обслуживания стартового комплекса 31/6

Инвестор из Сингапура потерял все криптоактивы после загрузки фейковой игры

Хакер украл $27 млн с мультиподписного кошелька инвестора

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA