runawayllm семья самит биологи интересное gemini runawayllm

ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

OpenAI представила LifeSciBench — бенчмарк, который оценивает, насколько ИИ реально полезен в научной работе, а не просто отвечает на вопросы по биологии.

Результаты вышли скорее отрезвляющими: даже флагманская GPT-Rosalind, ради которой бенчмарк и создавался, проходит лишь 36,1% задач против 25,7% у GPT-5.5.

DMCA