Новый тест HLE выявил слабые места AI: 90% задач остаются нерешенными

habr.com

habr.com:

Международная исследовательская группа разработала новый бенчмарк, который выявляет текущие ограничения LLM. Даже самые продвинутые модели не справляются с 90 процентами задач — на данный момент.Тест под названием «Последний экзамен человечества» (HLE) включает 3000 вопросов по более чем 100 специализированным областям, 42 процента из которых посвящены математике.

В его разработке приняли участие около 1000 экспертов из 500 учреждений в 50 странах.Исследователи начали с 70 000 вопросов и представили их ведущим моделям AI.

Читать на habr.com Все новости от habr.com

MediaTek представила новый чипсет Dimensity 6400, но насколько он новый?

Тест Geekbench показал, что Samsung Galaxy S25 Edge выйдет с полноценным чипом Snapdragon 8 Elite, а не с его 7-ядерной версией

Биологи раскрыли уникальную особенность птиц киви из Новой Зеландии.

Тест из двух упражнений, который покажет в какой вы физической форме

MediaTek представила новый чипсет Dimensity 6400, но насколько он новый?

Тест Geekbench показал, что Samsung Galaxy S25 Edge выйдет с полноценным чипом Snapdragon 8 Elite, а не с его 7-ядерной версией

Биологи раскрыли уникальную особенность птиц киви из Новой Зеландии.

Capcom продолжит открытый бета-тест Monster Hunter Wilds из-за сбоя PlayStation Network

Новый CAD-рендер чехла для iPhone 17 раскрывает новый дизайн смартфона

Realme P3 Pro прошёл тест производительности Geekbench перед запуском

Китайский ИИ с треском провалил тест на безопасность. 100% атак - успешные

Тест ChangeMyView: как OpenAI оценивает убедительность своих AI-моделей

Capcom опубликовала новый трейлер Monster Hunter Wilds с новым регионом, видом монстров и прочим

Предположительно, Xiaomi 15 Ultra прошёл тест Geekbench AI, подтвердив наличие чипа Snapdragon 8 Elite

Часть новых элементов в Elden Ring: Nightreign - не погоня за трендами, а новый опыт для игроков, утверждает FromSoftware

Топ-10 самых гостеприимных мест мира в 2025 году

Новая Зеландия вывела из эксплуатации парк военно-транспортных самолетов C-130H Hercules

Вероятность дожить до 80 лет может показать простой тест - врачи

Китайская EngineAI провела тест походки робота-гуманоида SE01 возле своего офиса в Шэньчжэне

Доставщик рекламы. «Новая почта» начала продавать свои площадки под рекламные интеграции. Сколько она будет на этом зарабатывать

В Новой Зеландии анонсирован проект Whoosh — транспорт будущего с капсулами

Новая фото-утечка подтверждает новый дизайн iPhone 17

«Нова Пост» установила новый рекорд по доставке посылок

Тест Starship Flight 7: SpaceX смогла поймать Super Heavy Booster «Мехадзиллой»

Тест чернильной ручки, которая делает цифровую копию рукописного текста

OpenAI представила новый инструмент для персональной организации задач Tasks

Кампания Apple Back to School стала доступна в Бразилии, Австралии, Новой Зеландии и Южной Корее

Хабр приглашает компании в гости 30 января на бесплатный тест-драйв

Samsung Galaxy Ring получит новые размеры и функции уже в этом месяце

Профсоюз STJV призывает работников Don't Nod к новому протесту из-за нежелания руководства идти на контакт

Google Calendar, похоже, тестирует новый способ добавления событий в несколько календарей

Параллельная Вселенная реальна: ученые заявили о шокирующем открытии

Четверо молодых учёных получили премии президента РФ в области науки и инноваций за 2024 год

Как отдохнуть после работы без телефона: 7 простых способов

6 завтраков, от которых нужно отказаться ради плоского живота

Большинство мужчин готовы завести отношения с кибер-подругой вместо реальной женщины – исследование

Volkswagen готовится выпустить "убийцу китайских электрокаров" за 20 000 евро

OnePlus 13R получил новое обновление ПО с улучшениями камеры, повышенной безопасностью и функциями перевода в реальном времени

Известный производитель чехлов показал дизайн предстоящего iPhone SE 4

Климатологи бьют тревогу: Гренландия тает на глазах

Разработчики назвали дату релиза примечательной стратегии Grit and Valor — 1949 и выпустили в Steam бесплатную демоверсию

Oppo Find X9 Ultra может получить 200-мегапиксельную перископическую камеру, как во флагманах Xiaomi и Vivo

Компания OpenAI анонсировала новую версию ChatGPT для государственных учреждений: чего от нее ожидают

Мифы о сне, которые сокращают жизнь и ухудшают ваше самочувствие

Роскомнадзор зафиксировал за 2024 год больше всего утечек данных пользователей в сфере торговли и услуг

OpenAI провела ребрендинг, немного изменила логотип и представила новый шрифт OpenAI Sans

Похожа на человеческий язык: ученые сделали уникальное открытие в ходе исследования песни горбатого кита

Всего $41 млн — создатель Kingdom Come: Deliverance 2 раскрыл поразительно скромны производственный бюджет игры

Амбициозная экшен-RPG Empyreal скоро получит демоверсию: разработчики рассказали о главных особенностях игры и пригласили Steam Next Fest

Oppo Find X8 Ultra может получить кнопку действия, как в iPhone 16, вместо ползунка оповещений

Пользователи смартфонов серии Samsung Galaxy S25 массово жалуются на перегрев этих устройств без особых на то причин

Продукт, который нельзя разогревать - может стать причиной рака

Команда Hugging Face представила собственную открытую реализацию агента DeepResearch от OpenAI

Вышел Pickle — сервис для генерации цифровых аватаров, которых можно использовать на созвонах

ТОП-3 овоща, которые "очистят" почки и улучшат их работу

Представлен миниатюрный компьютер The Boiler, похожий на самогонный аппарат

ФАС предупредила Ozon и Wildberries, что нужно сделать участие в распродажах добровольным для продавцов

Семейство моделей Gemini 2.0 от Google пополнилось Flash-Lite и Pro

Galaxy S25 Edge может получить 200 МП камеру и 12 ГБ RAM

Android 16 сможет предупредить пользователей об автоматической смене часового пояса

Исследователи Nvidia демонстрируют прогресс в обучении роботов

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA