dmitrifriend Microsoft медицина общество самит курс dmitrifriend Microsoft

Модель o3 обходит более новый GPT 5 Chat в задачах с Word, Excel и почтой

Созданный исследователями из Microsoft и Эдинбургского университета, OdysseyBench выходит за рамки изолированных «атомарных задач» и проверяет, как модели справляются со сценариями, растянутыми на несколько дней.Бенчмарк охватывает 602 задания в средах Word, Excel, PDF, электронной почте и календаре.

Они разделены на 300 реалистичные задачи из OfficeBench (OdysseyBench+) и 302 новых, особенно требовательных сценария (OdysseyBench‑Neo).

DMCA