FrontierScience: OpenAI выпустила бенчмарк PhD-сложности для проверки научного мышления ИИ

habr.com

habr.com:

Компания OpenAI решила проверить, на что действительно способны её модели в сфере научного прогресса, и поделилась интересными результатами, которые сочетают в себе как теоретические тесты, так и реальную лабораторную работу.Чтобы понять, насколько модель может рассуждать как эксперт, нужны и соответствующие задачи.

Команда OpenAI выпустила новый бенчмарк под названием FrontierScience. Его цель — измерить научное мышление на уровне PhD в физике, химии и биологии.В FrontierScience вошли сложные, написанные экспертами задачи (как олимпиадного стиля, так и более длинные исследовательские задания), призванные выявить сильные и слабые стороны моделей.

Читать на habr.com Все новости от habr.com

Новые подробности о рекламе в ChatGPT: OpenAI обсуждает приоритет объявлений в ответах

СМИ: OpenAI выпустит аудиомодель для физических устройств и ChatGPT

Нейросеть для 3D-аниматоров: Tencent открывает код HY-Motion 1.0 для оживления персонажей через промпт

В платформе Mistral обнаружен бета-интерфейс для создания рабочих процессов

Новые подробности о рекламе в ChatGPT: OpenAI обсуждает приоритет объявлений в ответах

СМИ: OpenAI выпустит аудиомодель для физических устройств и ChatGPT

Нейросеть для 3D-аниматоров: Tencent открывает код HY-Motion 1.0 для оживления персонажей через промпт

В платформе Mistral обнаружен бета-интерфейс для создания рабочих процессов

Научный прорыв: ИИ доказал способность усиливать, а не подавлять человеческую креативность

Шестое чувство: Google готовит ИИ-подсказки для Android, предугадывающие действия пользователя

Alibaba анонсировала Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash: модели для синтеза и клонирования голоса

«Вы — креативный дебаггер»: OpenAI осторожно скопировала самую популярную фичу декабря

От приватного к публичному: C++-инструменты Microsoft для GitHub Copilot стали доступны всем желающим

Xiaomi выпустила MiMo-V2-Flash 309B, модель достигла абсолютного верха в агентном бенчмарке

Atlas от OpenAI получает мультипрофили и обновления для рабочих пространств

OpenAI выпустила GPT-5.2-Codex — новый флагман для программирования

OpenAI выпустила генератор изображений GPT Image 1.5 — бесплатно и лучше Nano Banana Pro

OpenAI обновила модель для генерации и редактирования изображений: GPT Image 1.5

Anthropic тестирует новые режимы для исследований и анализа в Claude

Эксклюзивная сделка Disney с OpenAI действует всего год

Больше, чем суммаризатор встреч: Zoom выпустил обновление помощника AI Companion 3.0

OpenAI запустила сертификационные курсы ИИ для работников

OpenAI выпустила GPT-5.2: новую модель для профессиональных задач

OpenAI тестирует новую генерацию изображений для ChatGPT. Примеры работы и где попробовать

Linux Foundation: MCP, Goose и AGENTS.md объединят в общий стандарт для ИИ-агентов

send(), receive(), done() — и никаких сложностей. Claude переосмысливает API и добавляет 1M контекста

Qwen выпустил обновление Qwen Code v0.3.0, консольного ИИ-клиента для работы с кодом

Стареющая энергосеть ставит под удар рост OpenAI и Microsoft

Mistral выпустила модель Large 3 675B и девять версий Ministral 3 (3B/8B/14B × Base/Instruct/Reasoning)

Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций

OpenAI восстановила доступ к GPT для FoloToy — производителя игрушек с ИИ, замеченных в непристойных разговорах с детьми

Lenovo выпустила профессиональный моноблок ThinkCentre X AIO с почти квадратным экраном

Вызывают рак: самые опасные продукты назвали медики

Раскрыта основа архитектуры и вероятные сроки выхода видеокарт GeForce RTX 60-серии

Wolfenstein все же получит продолжение: инсайдеры не сомневаются, что MachineGames уже работает над третьей частью серии

Китай бросил вызов Трампу, запустив национальную сеть ИИ

Тестовый релиз драйверов Nvidia для ОС Haiku

Ученые изобрели умных роботов, чей размер меньше крупинки соли

Представлен бюджетный смартфон Poco M8 5G с ярким AMOLED-дисплеем, аккумулятором на 5500 мАч и долгой программной поддержкой

Комнатные растения, которые выделяют полезные вещества и оздоравливают

Вышел проект OneScript 2.0.0 — это среда исполнения скриптов на языке технологической платформы «1С: Предприятия 8»

Эксперты Стэнфорда: AGI в 2026-м не будет, а ИИ-пузырь не лопнет — он медленно сдуется

В спотовых XRP-ETF впервые зафиксирован отток капитала

Binance запустила бессрочные контракты на золото и серебро

Bluetooth-колонки никогда не выглядели так мило: IKEA представила необычные динамики Kallsup в виде цветных кубиков

Lenovo представила Yoga Mini i — сверхкомпактный круглый мини‑PC с мощными характеристиками, чипами Panther Lake и умной RGB‑подсветкой

Уолл-стрит завершила 2025 год снижением после годов роста

Инвесторы вновь выбирают технологии и криптоактивы на фоне уверенности в ИИ

Фрукты, которые "природным" образом растворяют тромбы

Виталик Бутерин обозначил видение Ethereum между децентрализацией, масштабированием и ИИ

Razer выпустила концептуальную гарнитуру Project Motoko с интегрированными камерами

Исследователи извлекли ДНК из рисунка Леонардо да Винчи: генетический материал нашли в меле

CEO Kalshi поддержал законопроект о запрете инсайдерских ставок на события в США

iPhone 18 не выйдет в 2026 году: что изменилось

Вайоминг запустил первый в США государственный стейблкоин на базе Solana

Как омолодить мозг на 8 лет: четыре простых "секрета" от экспертов

WLFI подала заявку на получение банковской лицензии

Кандидат в президенты Бразилии призвал создать национальный биткоин-резерв

Logitech заблокировала настройки мышей и клавиатур на macOS из-за просроченного сертификата

Solana Mobile назвала дату запуска токена SKR

Как правильно пить кофе, чтобы "разогнать" метаболизм

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA