Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

habr.com

habr.com:

Компания OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию.

Компания сама создала этот бенчмарк в 2024 году.Суть SWE-bench Verified: модели получают описание бага из GitHub-репозитория и должны сами написать патч, который его починит.

Читать на habr.com Все новости от habr.com

Casio представила на рынке США три новые модели G-Shock с металлическим циферблатом цвета розового золота

Ушел из жизни сэр Тони Хоар: создатель Quicksort, автор логики Хоара и «ошибки на миллиард долларов»

OpenAI выпустила GPT-5.4 — свою новую флагманскую модель

Девять минут геймплея Forza Horizon 6 показывают высочайшее качество графики и живописные трассы Японии

Casio представила на рынке США три новые модели G-Shock с металлическим циферблатом цвета розового золота

Ушел из жизни сэр Тони Хоар: создатель Quicksort, автор логики Хоара и «ошибки на миллиард долларов»

OpenAI выпустила GPT-5.4 — свою новую флагманскую модель

Девять минут геймплея Forza Horizon 6 показывают высочайшее качество графики и живописные трассы Японии

Япония запрещает использование портативных зарядных устройств на борту самолётов

Конец анонимности? ИИ-модели научились раскрывать личности пользователей соцсетей

Премьер-министр Японии опровергла связь с мемкоином в сети Solana

Casio представила новые модели Baby-G BGD-565 с LED-подсветкой и автономностью до трех лет

Сообщество отклонило предложение от Mt. Gox изменить код биткоина для возврата более $5 млрд

В Японии открылась онлайн-школа с виртуальными аниме-аватарами для учителей

Qwen 3.5 Medium — серия средних моделей, которые бьют прошлый флагман

Anthropic: DeepSeek, Moonshot и MiniMax тайно обучали свои модели на ответах Claude

Первым ИИ-устройством OpenAI может стать колонка за $300 с камерой и заказом продуктов

6K становится доступным: на европейский рынок вышел флагманский монитор от JAPANNEXT

Прекрасная и разнообразная Япония на новых кадрах гоночной игры Forza Horizon 6

Ferrari показала интерьер своего первого электромобиля с дизайном от Джони Айва

BYD Racco: в Японии показали интерьер нового электрокара

Три новые модели часов Casio G‑Shock в эстетике ночных клубов уже доступны в Европе

Сын Энтони Скарамуччи купил карту Pokémon Логана Пола за более чем $16 млн

MiniMax представили M2.5 — флагманскую модель для кодинга и агентных задач

OpenAI отказалась от бренда «io»

Команда Cursor выпустила новую версию своей агентной модели для программирования — Composer 1.5

СМИ: таинственный ИИ-гаджет от OpenAI и Джони Айва выйдет позже ожиданий и под другим названием

Casio выпустила три модели часов Baby-G в пастельных тонах

OpenAI представила GPT-5.3-Codex. Модель разрабатывали и обучали в тесной связке с инфраструктурой NVIDIA

OpenAI отказалась от AI-смартфона и сделала ставку на умные наушники

Anthropic и OpenAI представили ИИ-модели Opus 4.6 и GPT-5.3 Codex. Что они умеют?

ZKsync и BitGo создали инфраструктуру для токенизированных депозитов

СМИ: инициатива Трампа о криптоактивах в пенсионных планах прошла ключевой этап согласования

Automobili Rodrigues представила гипер-GT с 18 цилиндрами

Первая строчка Markswebb: ПСБ стал лучшим интернет-банком для бизнеса

Uber начала сотрудничать с компаниями роботакси для борьбы с монополией

Ранний прототип сегвея выставлен на аукцион

СМИ: Coinbase выступила против компромисса Сената США по стейблкоинам

Команда протокола MilkyWay сообщила о миграции активов и закрытии L1

Приглашаем на ML-хакатон от RWB (Wildberries & Russ)

На Урале и в Сибири откроются первые студенческие лаборатории для обучения вайб-кодингу

SuperGrok Lite: Илон Маск запускает «бюджетную» версию ИИ за 10 долларов

Секрет долголетия хранится в геноме древнейшего организма в мире: был заперт последние 5000 лет

Израиль снижает расходы на ПРО благодаря системе "Праща Давида"

Обзор смартфона Motorola Edge 60: заставляет конкурентов зеленеть от зависти

От 5G-планшетов до тонких смартфонов: на AliExpress стартовала распродажа Blackview со скидками до 59%

Кризис отменяется: Google изобрел квантовый алгоритм сокращения объема памяти для ИИ в 6 раз

5G и революция в iGaming: что нужно знать об этом уже сейчас. Колонка COO SharksCode

iPhone 20 вряд ли сможет удивить инновационным дизайном

Visa начала работу в качестве супервалидатора Canton Network

Selectel запустил бесплатный курс по работе с ML-моделями

OpenRouter запустил тестирование моделей генерации видео

Хайп закончился: российский бизнес массово сворачивает GenAI-проекты

OpenAI предлагает инвесторам 17,5% гарантированной доходности – лишь бы те не ушли к Anthropic

Новый ноутбук Xiaomi: OLED, 120 Гц и мощное охлаждение

EFF: блокировка контента для интернет-архивов не остановит ИИ, но сотрёт исторические записи

Житель Северной Каролины признал себя виновным в мошенничестве с потоковой передачей музыки при помощи ИИ и ботов

В 70% компаний собственная разработка не успевает за бизнесом

GPT-5.4 Pro опроверг открытую гипотезу теории вероятностей за 3 страницы

Google утверждает, что Android — самая быстрая платформа для интернет-серфинга

OpenAI запустила ChatGPT Library для хранения личных файлов пользователей

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA