ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

habr.com

habr.com:

OpenAI представила LifeSciBench — бенчмарк, который оценивает, насколько ИИ реально полезен в научной работе, а не просто отвечает на вопросы по биологии.

Результаты вышли скорее отрезвляющими: даже флагманская GPT-Rosalind, ради которой бенчмарк и создавался, проходит лишь 36,1% задач против 25,7% у GPT-5.5.

Читать на habr.com Все новости от habr.com

Открытая GLM-5.2 почти догнала фронтир: новые отраслевые индексы Artificial Analysis

Fable 5 уже может заменить фрилансеров на 16% реальных заказов — рост в 6 раз за 8 месяцев

Вышел Claude Sonnet 5 — почти как Opus 4.8, но дешевле

Тревожный сигнал в отчете OpenAI про GPT-5.6, который почти никто не заметил

Открытая GLM-5.2 почти догнала фронтир: новые отраслевые индексы Artificial Analysis

Fable 5 уже может заменить фрилансеров на 16% реальных заказов — рост в 6 раз за 8 месяцев

Вышел Claude Sonnet 5 — почти как Opus 4.8, но дешевле

Тревожный сигнал в отчете OpenAI про GPT-5.6, который почти никто не заметил

DeepSeek выложил в open source DSpark — модуль, ускоряющий ответы ИИ почти вдвое

У лучших сотрудников OpenAI уже 71 час в сутках. OpenAI раскрыла данные Codex

Anthropic, OpenAI и Stripe хотят уничтожить простуду и грипп как явление

OpenAI представила Jalapeño — свой первый чип для ИИ

Главный инвестор OpenAI раскритиковал космические дата-центры Илона Маска

Мощнее Mythos 5 и не запрещена: OpenAI выпустила GPT-5.5-Cyber для поиска уязвимостей

Codex от OpenAI может убить ваш SSD меньше чем за год: баг с логами пишет 640 ТБ

OpenAI научила Codex создавать навыки, просто наблюдая за человеком

Claude Mythos взломал почти все секретные системы США за считанные часы — глава АНБ

Человечество в безопасности: OpenAI рассказала, как развивает в ИИ добрые качества

OpenAI o3 помогла раскрыть 18 редких детских болезней

Google потратила $2,7 млрд на легендарного ИИ-инженера. Теперь он ушел в OpenAI

Отчет KPMG про агентный ИИ написал ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Альтман признал, что ИИ стал слишком дорогим. OpenAI готовит снижение цен против Anthropic

OpenAI отказалась от создания автономного ИИ-ученого к 2028 году — теперь речь идет о работе в тандеме

ИИ-агент из Купертино: новая Siri от Apple работает на Google Gemini и знает о пользователе почти все

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

Биоугроза от ИИ становится реальной: OpenAI, Anthropic и Google подписали письмо о ДНК-скрининге

DeepSeek привлекает $7,4 млрд — цена компании всего 5% от стоимости OpenAI и Anthropic

ИИ Google Gemma 4 12B запускается на ноутбуке с 16 ГБ и почти догоняет модель вдвое крупнее

OpenAI научила Codex создавать сайты, а также работать за банкира, продавца и маркетолога

Anthropic обогнала OpenAI на пути к IPO — заявка S-1 подана

ИИ против пандемий: OpenAI открывает Rosalind правительству США и сторонним командам

Для фанатов космоса: LEGO анонсировала новый набор, который позволит собрать телескоп Hubble Space Telescope

В жару отекают ноги - как быстро облегчить состояние, рассказал врач

Как употребление газированной воды влияет на ваши почки

Больше чем просто обновление – девять главных фишек грядущей iOS 27

Samsung Galaxy S26 установил рекорд продаж в Южной Корее и помог нарастить экспорт страны

Проблемы в id Software не поставят точку на DOOM: в разработке уже находится новая часть серии

Состоялся минорный релиз серверной операционной системы SELECTOS 1.4

Лицо выдаст нехватку железа – пять тревожных сигналов

Три продукта, из-за которых вы быстро стареете, назвали врачи

Не только бодрость: ученые выяснили, как кофе влияет на организм

Еврокомиссия заподозрила Facebook и Instagram в использовании «затягивающего» дизайна

Назван ингредиент, который превращает чай в целебный напиток

Одинаковые снаружи, разные внутри – вся правда о портах USB-C

Одна функция Windows 11 может незаметно перегружать компьютер

Полезные игры на КРИ 2026: Кружковое движение НТИ представило проекты НКФП «Берлога» и Акселератор полезных игр

Доклад ООН: возможности ИИ растут быстрее, чем способность человечества их контролировать

В США появилось оружие, способное лишить противника спутниковой связи: как оно работает

Названы 7 домашних приборов, которые мотают свет даже отключенными

ТОП продуктов, которые заставят кожу производить коллаген

Как отдохнуть на Крите и не разориться – 7 советов экспертов

Летние фрукты, которыми опасно часто лакомиться после 45 лет

В WhatsApp появится функция, которую пользователи ждали годами

DJI представила первую автономную парашютную систему для корпоративных дронов

Как стать счастливее прямо сейчас - три простых секрета от психологов

Инновация в экологии – пластиковые бутылки спасают жизнь дельфинам

Истребитель будущего F-47 – дизайн нового самолета шокировал экспертов

Лавкрафтовский хоррор The Sinking City 2 уже доступен для предзаказа: украинские разработчики назвали цены трех изданий и показали их бонусы

Витамин, который на 60% снижает риск преждевременной смерти

Главная защита вашего кондиционера – зачем нужна пауза в 3 минуты

ASUS представила ROG Raikiri II Pro — премиальный геймпад с умным LED-дисплеем и сменными TMR-стиками

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA