runawayllm общество самит профессор лечение биологи кокс gemini runawayllm

От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный

OpenAI выпустила GeneBench-Pro — бенчмарк, который проверяет не способность ИИ-агента запускать готовые пайплайны, а его исследовательское чутье: умение решить, отражает ли паттерн в данных биологию или шум, какой вопрос вообще можно задать по этим данным и когда результат готов к тому, чтобы на него опереться в реальном решении.

Лучшая модель компании, GPT-5.6 Sol, прошла 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro.Тест состоит из 129 задач в 10 областях и 21 поддисциплине — от популяционной генетики до фармакогеномики и онкогеномики.

DMCA