Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой

habr.com

habr.com:

Недавнее исследование представляет Facts Benchmark, уникальный тест, который измеряет способности больших языковых моделей (LLM) оперировать фактами и достоверной информацией.

Этот бенчмарк специально создан для того, чтобы выявлять, насколько модели теряют связь с реальной правдой даже тогда, когда запросы ясные и проверяемые.

Читать на habr.com Все новости от habr.com

Бенчмарк ARC перестаёт быть барьером: современные подходы оптимизации рушат его значимость

Salesforce теряет доверие к большим языковым моделям для бизнес-задач

Темпы развития ИИ удвоились, но доверие к бенчмаркам падает, сообщает Epoch AI

MiniMax обновила модель M2.1 для ИИ-агентов и разработки ПО

Бенчмарк ARC перестаёт быть барьером: современные подходы оптимизации рушат его значимость

Salesforce теряет доверие к большим языковым моделям для бизнес-задач

Темпы развития ИИ удвоились, но доверие к бенчмаркам падает, сообщает Epoch AI

США вводят запрет на продажу новых китайских и иностранных дронов, удар по DJI и другим производителям

Marissa Mayer запускает Dazzle — новый AI‑стартап с финансированием $8 млн

Microsoft обновила 3D‑модель TRELLIS и открыла мощный генератор 3D‑моделей из изображений

OpenAI представила GPT‑5.2 — новую версию ведущей языковой модели с улучшенной логикой и скоростью

CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA

Anthropic подписала $200 млн сделку с Snowflake — её ИИ‑модели станут доступны тысячам компаний

Meta* перехватила звезду дизайна Apple для создания новых устройств виртуальной реальности

Яндекс представил RATE, новую методику оценки качества перевода с акцентом на естественность речи

Новый Kling 2.6 научился генерировать видео с озвучкой

OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках

Новый режим поиска Google объединяет AI Overviews и AI Mode в один клик

США официально подтвердили, что искусственный интеллект не может считаться изобретателем

Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций

Китайские открытые AI-модели впервые обошли по популярности американские

Новый ИИ-инструмент Retake позволяет переснять любой момент в кадре за секунды

Новый закон ИИ раскрыт: как каждая модель становится умнее с каждым днём

Новый ИИ от Гарварда может в разы ускорить диагностику редких заболеваний

Учёные раскрыли слабые места ИИ: почему модели всё ещё не думают как люди

Новые ИИ‑герои из Индии: Google обещает до 2 миллионов долларов каждому стартапу

Google бьёт тревогу: ИИ съедает мощности так быстро, что удваивать их нужно каждые 6 месяцев

Один агент управляет, другие делают работу: новая эпоха кооперативного обучения ИИ?

Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману

ИИ без галлюцинаций: как Lean 4 заставляет модели доказывать правду

Meta* превращает энергию в товар: новый бизнес ради масштабных ИИ‑центров

Представлены беспроводные наушники JBL Soundgear CLIPS, Sense Pro и Sense Lite

Volvo EX60 сможет проехать до 810 км на одном заряде

Представлены умные часы Pebble Round 2 с круглым E-ink дисплеем

Мини-PC может быть геймерским: Asus представила ROG GR70 с флагманским процессором Ryzen 9 и GeForce RTX 5070 Laptop

Volkswagen увеличил ёмкость батареи электрического фургона e-Transporter до 70 кВт·ч

JBL выпустила новые модели наушников спортивной линейки Endurance

В какой день недели чаще всего возникают инфаркты

Официально: 22 января состоится Xbox Developer_Direct с новостями о Fable, Forza Horizon 6 и новой игре от авторов Pokémon

Проживание на каких этажах плохо отражается на здоровье человека

«AI-Компаньйон» для вашого життя. Samsung представив нове покоління пристроїв і технологій на базі штучного інтелекту

Четвертый цвет меняет многое: Hisense представила новую линейку телевизоров RGB MiniLED

Mistral тестирует конструктор рабочих процессов Workflow Builder

GTA VI могут перенести и в третий раз: Джейсон Шрайер опроверг информацию о готовности игры к релизу

Amazon разрешила столкнувшимся с визовыми проблемами сотрудникам из Индии работать удалённо

Худшее время для употребления бананов назвали врачи

Roblox начал перманентно блокировать аккаунты пользователей за обход блокировок и доступ к платформе не по правилам

В США досрочно освободили из тюрьмы Илью Лихтенштейна, сидевшего за отмывание денег и хищение $3,6 млрд с биржи Bitfinex

Связанного с аферами на $12 млрд в биткоинах главу Prince Group арестовали и экстрадировали в Китай

Новые функции на основе искусственного интеллекта: Telegram представил первое обновление в 2026 году

Пока OpenAI готовит IPO на $1 трлн, китайские конкуренты уже торгуются на бирже

Как слово "нет" делает намного привлекательнее, рассказал психолог

Релиз Swift Stream IDE v1.17.0

ТОП-5 мифов о картофеле, из-за которых этот овощ недооценивают

BitMine закупила Ethereum на $105 млн

Binance отчиталась за 2025 год: $34 трлн торгов и 300 млн пользователей

Hisense представила линейку телевизоров с технологией RGB MiniLED

Новый Science Context Protocol позволит ИИ-агентам сотрудничать между лабораториями и институтами по всему миру

Fireblocks приобрела TRES Finance за $130 млн

«Ментор по бизнесу и менеджменту». ИИ-копия предпринимателя Артема Бородатюка провела более 4500 разговоров. Чем цифровые двойники полезны бизнесу

Nvidia усиливает AI-империю через крупные инвестиции в стартапы

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA