Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg

habr.com

habr.com:

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае модель получает бинарные файлы и документацию ряда приложений (в их числе FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью.Условия этого бенчмарка сделаны жёсткими: например, моделям не дают доступ в интернет (хотя живой разработчик при аналогичной задаче наверняка обращался бы к интернету).

Поэтому результаты могут отличаться от применения LLM в реальных проектах.Авторы ProgramBench пишут, что обычно бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах (вроде «исправить конкретный баг»).

Читать на habr.com Все новости от habr.com

Пользователи при помощи ИИ воссоздали переговоры погибших в авиакатастрофе пилотов

Ученые узнали, как стресс влияет на нашу способность делать верные выводы

Как древняя акула способна бороться с раком - ответ ученых

Продукты, которые способны улучшить работу почек, назвали врачи

Пользователи при помощи ИИ воссоздали переговоры погибших в авиакатастрофе пилотов

Ученые узнали, как стресс влияет на нашу способность делать верные выводы

Как древняя акула способна бороться с раком - ответ ученых

Продукты, которые способны улучшить работу почек, назвали врачи

Amazon прекратила поддержку Kindle, выпущенных до 2013 года

Разработан бенчмарк GeomMotif из 57 задач для выявления ошибок ИИ-моделей при проектировании геометрии белковых структур

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

Диету, способную омолодить организм на 4 года, назвали ученые

Способны ли коты горевать после смерти других животных — исследование

В Китае представили беспилотный карьерный самосвал Shuanglin K7, способный двигаться боком

Деревья способны защитить самые жаркие города в мире - исследование

Все ведущие LLM провалили первый бенчмарк по киберзащите. Что это значит для SOC

Сканирование мозга неандертальцев выявило их неожиданные умственные способности

Sony представила робигрока в пинг-понг, способного обыграть спортсменов-профессионалов

Продукты, которые способны быстро поднять настроение

DeepSeek V4 уже доступен бесплатно в чат-приложении — 1М контекста и приличные бенчмарки

Китай строит платформу, способную выдержать мощные взрывы и штормы

Энтузиаст воссоздал исключительно редкую первую аркадную игру Nintendo — Wild Gunman

Tor разрабатывает серверы, способные «терять память» при изъятии

Утечка: DeepSeek V4 обходит Gemini 3.1 Pro, GPT-5.3 и Claude Opus 4.6 по всем 12 бенчмаркам

Способны ли взрывы ракет и дронов “сдвинуть” Землю - ответ физика

Микробы в земле способны вызывать дождь - неожиданное открытие

Создан аккумулятор, не способный загореться

Как перышко: выпущен самый тонкий и легкий складной смартфон в мире (фото, видео)

В России выпущен 100-тысячный автомобиль Haval

Выпущенный с Украины снаряд попал в пограничный пункт ФСБ по Ростовской области

Выпущенный с Украины снаряд попал в пункт погранслужбы ФСБ России

Вышел Rhino Linux 2026.1

LG может рассмотреть продажу ТВ-бизнеса: обсуждения с Hisense вызвали волну слухов

Microsoft признала, что выделенная клавиша Copilot была не лучшей идеей: теперь её можно будет переназначить

Крах стереотипов – названы лучшие наушники по качеству звука

Amazon покупает Globalstar: Джефф Безос забирает долю Apple в спутниковом бизнесе

В Европе дебютировали Xiaomi Watch S5 — флагманские смарт-часы с легким и тонким стальным корпусом, ярким AMOLED-экраном и автономностью до 21 дня

Главную причину развития диабета назвали ученые

Ночные кошмары могут быть симптомом опасной болезни

Обновления BIOS от HP ломают дорогие ноутбуки

Ваши артерии "забиты" жиром и холестерином - 5 признаков

О неожиданной опасности смартфонов для зрения рассказали врачи

Один Claude пишет, другой проверяет: в Claude Code появился поиск уязвимостей в реальном времени

YouTube усиливает маркировку ИИ-контента: платформа станет прозрачнее

Юбилейные часы Casio Frogman получили ручную обработку и эксклюзивные материалы

Как мозг воспринимает время - исследование

Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

Минцифры РФ напомнило аккредитованным IT‑компаниям о сроке подтверждения статуса и налоговых льгот до 1 июня

Учёные поняли, как в 2010 году направление течения внешних слоёв ядра Земли изменилось на противоположное

«Невыездные» из-за ИИ: топ-менеджерам Alibaba и DeepSeek закрыли свободный выезд

СМИ: Krafton все же выплатит $250 млн авторам Subnautica 2 — издательство хочет завершить некрасивый конфликт

Продукты, которые повышают риск смертельной болезни, назвали диетологи

Как поздние ужины увеличивают риск рака, рассказали ученые

Пять продуктов, которые нельзя сочетать с рыбой, назвали врачи

Xiaomi 17T и 17T Pro дебютировали на глобальном рынке — «Мастера телефото» с камерами Leica и топовыми чипами от MediaTek уже доступны для покупки

Meta запускает Plus-подписки для Instagram, Facebook и WhatsApp — предлагаются супер-реакции, кастомизация иконок и анонимный просмотр Stories

КРЭТ и КАМАЗ представили электрозарядную станцию ФОРА ЭЗС-DC-4M мощностью 160 кВт для ночной зарядки электробусов

В MySQL закрыли 20-летний баг: его нашли в 2005 году, но очень долго не исправляли

«Базис» выпустил Basis Dynamix Cloud Control 5.5 и Basis Automation Studio 2.4

От каких пищевых привычек важно избавиться после 50 лет

Call of Duty: Modern Warfare 4 выйдет 23 октября — Activision представила эффектный анонсирующий трейлер и открыла предзаказы

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA