ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей
OpenAI рекомендовала разработчикам больше не использовать бенчмарк SWE-bench Verified для проверки способностей ИИ-моделей к программированию.
Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей.
За использование Claude в OpenClaw забанят? Anthropic обновила правила использования и всех запутала
habr.com