dilnaz04 Apple Путешествия золото самит финансирование dilnaz04

Deepseek v3 на уровне o1 OpenAI: что показывают независимые бенчмарки

Независимые тесты показали, что модель o1 от OpenAI решает лишь 30% программных задач в бенчмарках, а не 48,9%, как утверждала компания.

Эти результаты добавляют масла в огонь растущей дискуссии о том, как измерять возможности AI. В своем новом исследовании, используя кодировочный бенчмарк OpenAI "SWE-Bench Verified", исследователь AI Александро Квадрон обнаружил то, что он называет удивительным разрывом.

DMCA