технологии люди общество

Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае модель получает бинарные файлы и документацию ряда приложений (в их числе FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью.Условия этого бенчмарка сделаны жёсткими: например, моделям не дают доступ в интернет (хотя живой разработчик при аналогичной задаче наверняка обращался бы к интернету).

Поэтому результаты могут отличаться от применения LLM в реальных проектах.Авторы ProgramBench пишут, что обычно бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах (вроде «исправить конкретный баг»).

DMCA