Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg
Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае модель получает бинарные файлы и документацию ряда приложений (в их числе FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью.Условия этого бенчмарка сделаны жёсткими: например, моделям не дают доступ в интернет (хотя живой разработчик при аналогичной задаче наверняка обращался бы к интернету).
Поэтому результаты могут отличаться от применения LLM в реальных проектах.Авторы ProgramBench пишут, что обычно бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах (вроде «исправить конкретный баг»).
habr.com