Deepseek v3 на уровне o1 OpenAI: что показывают независимые бенчмарки

habr.com

habr.com:

Независимые тесты показали, что модель o1 от OpenAI решает лишь 30% программных задач в бенчмарках, а не 48,9%, как утверждала компания.

Эти результаты добавляют масла в огонь растущей дискуссии о том, как измерять возможности AI. В своем новом исследовании, используя кодировочный бенчмарк OpenAI "SWE-Bench Verified", исследователь AI Александро Квадрон обнаружил то, что он называет удивительным разрывом.

Читать на habr.com Все новости от habr.com

«Непостижимые волшебники»: как китайский Deepseek обгоняет Кремниевую долину в сфере AI

Китайский конкурент OpenAI o1 Kimi k1.5 теперь доступен бесплатно в веб-версии

OpenAI обновляет Canvas ChatGPT: поддержка модели o1 и рендеринг HTML/React кода

Deepseek показывает пример: как создать мощный AI с минимальными затратами

«Непостижимые волшебники»: как китайский Deepseek обгоняет Кремниевую долину в сфере AI

Китайский конкурент OpenAI o1 Kimi k1.5 теперь доступен бесплатно в веб-версии

OpenAI обновляет Canvas ChatGPT: поддержка модели o1 и рендеринг HTML/React кода

Deepseek показывает пример: как создать мощный AI с минимальными затратами

Марк Цукерберг заявил, что к концу года у Meta* будет 1,3 млн графических процессоров для искусственного интеллекта

Исследование OpenAI: больше времени на размышление делает AI более устойчивым к манипуляциям

SoftBank и OpenAI инвестируют по $19 млрд в проект Stargate

OpenAI заявляет, что может хранить удаленные данные Operator до 90 дней

Microsoft больше не является эксклюзивным поставщиком облачных услуг OpenAI

Сообщается, что OpenAI планирует представить «суперагентов уровня доктора наук» в конце января

AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности

OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

Google заключает сделку с Associated Press, чтобы предоставить Gemini больше информации в режиме реального времени

OpenAI возвращается в сферу робототехники

OpenAI рассматривает повышение цен на подписки для достижения прибыльности, ввиду убытков

GenEx пытается научить AI представлять, что находится «за углом»

Meta* показывает, что языковые модели все еще не могут пройти сложные тесты по теории разума

Соучредитель OpenAI заявляет, что новый подход к обеспечению безопасности AI может применяться к AGI и не только

o1-preview от OpenAI манипулирует игровыми файлами, чтобы выиграть Stockfish в шахматы

Генеральный директор Google говорит, что модель AI Gemini станет главным приоритетом компании в 2025 году

Почему новая модель AI от DeepSeek считает себя ChatGPT

Deepseek V3 становится самой мощной открытой языковой моделью в Китае на сегодня

Исследование утверждает, что OpenAI o1-preview превосходит врачей в диагностике сложных медицинских случаев

OpenAI утверждает, что модели AI масштабируются по-новому — но растут и затраты

GPT-5: Стратегии OpenAI не оправдывают ожиданий?

OpenAI внедряет улучшенную память для ChatGPT, позволяя ему ссылаться на предыдущие чаты

OpenAI анонсировала передовые модели o3 и o3-mini

«T1 Интеграция» открыла демолабораторию с оборудованием Yadro

Гильдия авторов США планирует сертифицировать книги, написанные людьми, а не ИИ

Google X запускает стартап Heritable Agriculture, использующий AI для повышения урожайности

Как изменить свой завтрак, чтобы чувствовать себя лучше и бодрее

Samsung запатентовала технологию управления гаджетами через «умное» кольцо

Январь установил новый климатический рекорд и удивил ученых

Отчет: капитализация публичных блокчейн-компаний составила почти $200 млрд

Поиск в ChatGPT теперь доступен без регистрации и авторизации

0G Foundation запустила фонд на $89 млн для инвестиций в ИИ-агентов

Исследователи поместили ИИ в робота для лучшего понимания мира

AI-модели, такие как Deepseek-R1 и OpenAI o1, страдают от «недомыслия»: как это можно исправить

Китайский дрон SUPER с ИИ может облетать препятствия в лесу на высокой скорости

Россия презентовала Т-90М с комплексом активной защиты "Арена-М"

Для Сил обороны Украины кодифицировали новые дроны ZEUS и HADES

Норвежские F-35 перехватили российские бомбардировщики вблизи воздушного пространства НАТО

Lockheed Martin модернизирует противоракетный комплекс THAAD за 2,8 млрд долларов

Минобрнауки России и Газпромбанк поддержат наукоёмкие проекты университетов

Solvang планирует морские испытания судна с системой улавливания и хранения CO2, выделяемого собственными двигателями

Российский рынок мобильных игр вырос до 247 млн долларов в 2024 году

В ProbablyMonsters произошли увольнения, а также был закрыт неназванный проект

Харрисон Форд похвалил Троя Бейкера за роль Индианы Джонса в the Great Circle, отметив, что он проделал молниеносную работу

Iron Galaxy увольняет 66 сотрудников в попытке обеспечить долгое выживание

Властелин океанов: ученые показали существо, откладывающее 185 тысяч яиц за раз

Майнеры смогут сообщать о полученной цифровой валюте онлайн

Представлен открытый проект Vanilla CSS Design System

Лучшие продукты, подавляющие аппетит, назвал эксперт по похудению

Новое открытие о вокальных способностях китов совершили ученые - видео

AliExpress рассказал, какие бюджетные смартфоны покупали россияне в 2024 году

Справедливость на выборах: израильская разработка обещает покончить с фальсификациями

Почему врачи советуют каждое утро съедать несколько фиников

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA