DeepSeek утверждает, что его модель рассуждений превосходит o1 от OpenAI по некоторым показателям
Китайская лаборатория искусственного интеллекта DeepSeek выпустила открытую версию DeepSeek-R1, своей так называемой модели рассуждений, которая, по её утверждению, работает так же хорошо, как o1 от OpenAI в определённых тестах AI.R1 доступен на платформе для разработки AI Hugging Face по лицензии MIT, что означает, что его можно использовать в коммерческих целях без ограничений. По данным DeepSeek, R1 превосходит o1 в тестах AIME, MATH-500 и SWE-bench Verified.
AIME использует другие модели для оценки производительности модели, а MATH-500 представляет собой набор текстовых задач. SWE-bench Verified, в свою очередь, ориентирован на задачи программирования.Ознакомится с моделью и попробовать в действии можно на нашем сайте.Будучи моделью рассуждений, R1 эффективно проверяет факты, что помогает ей избежать некоторых ошибок, которые обычно приводят к сбоям в работе моделей.
habr.com