От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный

habr.com

habr.com:

OpenAI выпустила GeneBench-Pro — бенчмарк, который проверяет не способность ИИ-агента запускать готовые пайплайны, а его исследовательское чутье: умение решить, отражает ли паттерн в данных биологию или шум, какой вопрос вообще можно задать по этим данным и когда результат готов к тому, чтобы на него опереться в реальном решении.

Лучшая модель компании, GPT-5.6 Sol, прошла 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro.Тест состоит из 129 задач в 10 областях и 21 поддисциплине — от популяционной генетики до фармакогеномики и онкогеномики.

Читать на habr.com Все новости от habr.com

Как быстро выехать из пробки на авто - ответ ученых удивит

Вышла GPT-5.6: топовый ИИ теперь даже бесплатно

Новая модель Meta* обходит Opus 4.8 и GPT-5.5 в агентских задачах — и стоит $1.25 за миллион токенов

«64 Claude одновременно»: создатель Bun рассказал, как ИИ переписал миллион строк кода

Как быстро выехать из пробки на авто - ответ ученых удивит

Вышла GPT-5.6: топовый ИИ теперь даже бесплатно

Новая модель Meta* обходит Opus 4.8 и GPT-5.5 в агентских задачах — и стоит $1.25 за миллион токенов

«64 Claude одновременно»: создатель Bun рассказал, как ИИ переписал миллион строк кода

OpenAI забраковала ИИ-бенчмарк, который сама же продвигала: ~30% задач SWE-Bench Pro сломаны

«Мхм», «ага»: новый голосовой ChatGPT ведет себя как живой собеседник

Фотошоп больше не нужен? Представлена Seedream 5.0 Pro со слоями

Доклад ООН: возможности ИИ растут быстрее, чем способность человечества их контролировать

Anthropic научилась читать мысли Claude, которые ИИ не говорит вслух

ИИ добрался до шампуней и печенья: как L'Oreal и Mondelez придумывают новые рецепты

Соавтор Django рассказал, как Claude Fable 5 подготовил релиз sqlite-utils за $149

Энтузиаст рассказал, как снизить цену на Claude Code в два раза, перегнав промпты в изображения

Nvidia придумала, как зарабатывать на чипах даже после их продажи

Стартап Acti встроил ИИ-агента прямо в клавиатуру. Вот как это работает

Вышел Claude Sonnet 5 — почти как Opus 4.8, но дешевле

Услужливость как уязвимость: Claude Code обманули без единой строчки вредоносного кода

PET-скан показал рак. Claude сказал: 90%, что это ложная тревога — и оказался прав

ИИ должен учиться непрерывно, чтобы стать AGI. Но с этим проблема

Google перестраивает обучение Gemini, чтобы догнать Anthropic. Gemini 3.5 Pro отложена на месяц

Anthropic, OpenAI и Stripe хотят уничтожить простуду и грипп как явление

Оценки выросли, знания — нет: как ChatGPT надул успеваемость в вузах

Человечество в безопасности: OpenAI рассказала, как развивает в ИИ добрые качества

Чат-бот как оружие: опубликованы требования США к Claude Fable 5 и Mythos 5

Местами лучше Claude Fable 5: открытая GLM-5.2 показала сильные результаты в бенчмарках

Kimi K2.7 Code стала в 6 раз быстрее — до 260 токенов в секунду

Google выпустила DiffusionGemma — открытую языковую модель, которая генерирует текст как картинку

Глава Anthropic: ИИ нужно регулировать как авиацию — с правом блокировать модели

Что говорят друг другу пары, которые не расстаются

Японская компания SDRS представила кабину для охлаждения людей Do Hiemon Box

Футбольный симулятор EA Sports FC 27 получил первый геймплейный трейлер — релиз игры 25 сентября

HMD может вернуть культовый интерфейс Windows Phone: Android-смартфоны получат плитки в стиле Lumia

Alibaba открыла исходный код AI-стека SAIL: вызов экосистеме CUDA

Витамины для долголетия - Журнал "ФОКУС ВНИМАНИЯ"

Почему кошки любят спать возле хозяев - ответ удивит

Час геймплея за две минуты рекламы — XBOX тестирует бесплатный облачный стриминг игр

Эксперты UserGate uFactor прогнозируют всплеск мошенничества на фоне нестабильности фондового рынка

Microsoft сама случайно доказала, что минимальные системные требования Windows 11 не имеют смысла

Sony представила кинокамеру FX5 с записью Open Gate и внутренним 16-битным RAW: модель получила возможности, которых не хватало FX3

Это вам не пиццу доставлять: новый фильм Resident Evil получил обширный трейлер, который раскрывает завязку истории курьера Брайана

Tesla установила антенну Starlink на роботакси Cybercab

Honor меняет лицо: новый цвет, дерзкий слоган и амбиции стать AI-гигантом

Ксеноморфы назначили встречу — кооперативный шутер Aliens: Fireteam Elite 2 выйдет 25 августа

Новая фобия: робот-пылесос едва не убил австралийца

В недрах космоса обнаружена планета, похожая на Землю - исследование

Представлена простая плёночная камера для любителей аналоговой фотографии Kodak EC35

Исследователь сжёг все свои токены и разработал ИИ-конвейер, изучая способы экономии на ИИ-моделях

«Уэбб» помог астрономам уточнить диету чёрных дыр

Иностранные абитуриенты смогут поступать в российские вузы дистанционно

Владелец Tesla получил штраф за превышение скорости, когда машиной управляла FSD

Grayscale оценила шансы на завершение медвежьего рынка биткоина и объяснила, что будет решающим

Почему нельзя надевать черные носки в самолет – экс-бортпроводник

Суд США одобрил знаковое соглашение издателей и Anthropic о выплате $1,5 млрд по иску о нарушении авторских прав

Калий для сердца: 20 полезных продуктов, заменяющих бананы

Откуда возникает ожирение - ученые назвали неочевидную причину

Выпуск Mozilla Thunderbird 153.0

Защита ИИ, которую нельзя игнорировать в 2026 году

IT Elements открывает прием заявок на премию «Инженерное искусство»

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA