cognitronn технологии самит крипто cognitronn

ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

OpenAI рекомендовала разработчикам больше не использовать бенчмарк SWE-bench Verified для проверки способностей ИИ-моделей к программированию.

Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей.

DMCA