ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench
OpenAI представила LifeSciBench — бенчмарк, который оценивает, насколько ИИ реально полезен в научной работе, а не просто отвечает на вопросы по биологии.
Результаты вышли скорее отрезвляющими: даже флагманская GPT-Rosalind, ради которой бенчмарк и создавался, проходит лишь 36,1% задач против 25,7% у GPT-5.5.
habr.com