ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

habr.com

habr.com:

OpenAI рекомендовала разработчикам больше не использовать бенчмарк SWE-bench Verified для проверки способностей ИИ-моделей к программированию.

Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей.

Читать на habr.com Все новости от habr.com

Британские писатели запустили логотип Human Authored для произведений, созданных без использования ИИ

Сенат США одобрил ChatGPT и другие чат-боты для внутреннего использования

Китай одобрил первый имплантат в головной мозг для коммерческого использования

Правительство РФ может разрешить использовать данные для обучения ИИ без разрешения их владельца

Британские писатели запустили логотип Human Authored для произведений, созданных без использования ИИ

Сенат США одобрил ChatGPT и другие чат-боты для внутреннего использования

Правительство РФ может разрешить использовать данные для обучения ИИ без разрешения их владельца

В ChatGPT появились интерактивные визуализации для изучения математики и физики

Продукты, от которых лучше отказаться после 30 лет

Nvidia готовит open-source платформу NemoClaw для корпоративных ИИ-агентов

Meta* приобрела соцсеть Moltbook для AI-агентов

Samsung представила Galaxy Vibe Code — новый язык для настройки смартфонов и ИИ‑функций

Минцифры готовит законопроект о праве отказаться от обслуживания с использованием ИИ

OpenAI покупает стартап Promptfoo для защиты AI-агентов

FATF призвала государства усилить надзор за эмитентами стейблкоинов

Anthropic отказалась от полного контроля Пентагона над Claude

SpaceX планирует запустить Starlink для смартфонов со скоростью до 150 Мбит/с

ByteDance представила Seedream 5.0 Lite для генерации изображений

Сэм Альтман назвал преувеличенными заявления о вреде AI для экологии

Anthropic предложила модель объяснения «личностного» поведения ИИ-ассистентов

Пентагон вызвал главу Anthropic из-за ограничений на военное использование Claude

Аnthropic представила AI-сканер кода для поиска уязвимостей

За использование Claude в OpenClaw забанят? Anthropic обновила правила использования и всех запутала

В Max назвали фейком информацию о возможности продажи профилей с «Цифровым ID» для использования школьниками

Индия утвердила государственный венчурный фонд на $1,1 млрд для deep‑tech и стартапов

Meta* запатентовала AI для ведения соцсетей после смерти владельца аккаунта

MiniMax выпустила M2.5 — MoE-модель с 10 млрд активных параметров и открытыми весами

Google представила WebMCP — стандарт для работы ИИ-агентов с сайтами

Разработчики Ethereum предложили ZK-механизм для анонимного использования ИИ

Надоело проверять ответы вручную? Perplexity сделала режим, где модели сверяют друг друга

iPhone официально прошел полную сертификацию для использования в Космосе

OpenAI запустила ChatGPT Library для хранения личных файлов пользователей

70% новых статей по программной инженерии на ArXiv связаны с LLM

Microsoft вернёт возможность менять положение панели задач по умолчанию в Windows 11

Лучшие продукты для здоровья кишечника назвали ученые

Samsung проиграла иск о замедлении смартфонов, суд обязал компанию выплатить компенсацию пользователям

Apple готовится добавить рекламу в поиск Apple Maps

Эксплойт-кит DarkSword для iOS опубликовали на GitHub

“Яндекс” запускает доставку роботами ещё в 5 городах России

Охотники на гигантов: как неандертальцы планировали погони за слонами

Не просто милота: эксперты раскрыли тайну собачьего взгляда

Четыре вещи, которые могут спасти даже самый "скучный" гардероб

Лучшее время для завтрака назвали врачи

Оценена ремонтопригодность новейшего смартфона Samsung Galaxy A57

Почему опасно чистить уши ватными палочками, объяснил врач

В США вводится запрет на импорт роутеров иностранного производства

Суд усомнился в решении Пентагона внести Anthropic в «черный список»

Cursor ускоряет regex-поиск по коду для ИИ-агентов

Apple обновила наушники AirPods Pro 2, AirPods Pro 3 и AirPods 4

Cursor признал: да, мы взяли за основу китайскую Kimi, а не создали Composer 2 с нуля

Сериал “Гарри Поттер” стартует 25 декабря — HBO показала первый трейлер

«Бюро 1440»: первые 16 спутников низкоорбитальной группировки «Рассвет» выведены на орбиту и вышли на связь с ЦУП

SimbirSoft открыла прием заявок на онлайн-стажировки для ИТ-студентов

Claude берет мышь в руки: Anthropic встроила computer use в Code и Cowork

В PlayStation Store стартовала Весенняя распродажа — скидки до 75%, сотни крутых игр и обновление каталога в середине акции

Первый взгляд на Galaxy Wide Fold — опубликованы первые рендеры необычного складного смартфона Samsung

«Код Дурова»: пользователи из РФ столкнулись со сбросом сессий в Telegram

Что женщины 50+ должны делать каждый вечер перед сном

Официально представлены смартфоны Samsung Galaxy A57 5G и Galaxy A37 5G

Выпуск Firefox 149.0

Вышел открытый проект Bottles 63.0 — оболочки на основе Wine для запуска приложений Windows в Linux

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA