SkillsBench: скиллы дают реальный буст, но только если их писал человек

habr.com

habr.com:

Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench.Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче.

Что-то вроде методички для конкретной предметной области. Такие скиллы уже активно используются в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто систематически не проверял, работают ли они вообще.Для бенчмарка собрали 86 задач из 11 доменов (от разработки до медицины), привлекли 105 экспертов, прогнали 7 308 итераций на 7 моделях.

Читать на habr.com Все новости от habr.com

Эксперт по ИБ: Telegram может обойти блокировку, если мессенджер заработает в Mesh-сети через Bluetooth и Wi-Fi

Продукты, которые останавливают набор веса, даже если вы едите жирное

Что произойдет с телом через 2 недели, если по утрам пить теплую воду

ТОП- 5 "жутких" сигналов языка тела, которые выдают опасного человека

Эксперт по ИБ: Telegram может обойти блокировку, если мессенджер заработает в Mesh-сети через Bluetooth и Wi-Fi

Продукты, которые останавливают набор веса, даже если вы едите жирное

Что произойдет с телом через 2 недели, если по утрам пить теплую воду

Что будет, если ходить в неудобной обуви - три главные опасности

Если оставить воду в батареях, их ёмкость почти удвоится

Что поможет быстро заснуть, если вы проснулись посреди ночи

Instagram** сообщит родителям, если их дети будут искать информацию о суициде

Если начнется Третья мировая: в каких странах можно будет ее пережить

Продукт, который диетологи советуют есть чаще, если вам за 50

Что происходит с организмом, если выпьете мало воды: объяснение врача

Как черный чай улучшает здоровье, если пить его ежедневно

СМИ: если Telegram признают экстремистским, то новые Premium-подписки и закупка рекламы в нём будут уголовно наказуемы

Какие слова выдают несчастного человека - ТОП-8 фраз назвали эксперты

Как отреагирует организм, если ежедневно употреблять гречневую кашу

Как быстро получить заряд энергии, если вы устали или не выспались

Как с возрастом меняется сон: что нужно знать, если вам за 40

ChatGPT неожиданно реагирует, если грубо в нему обращаться

Weave Robotics выпустила робота за 8 тыс. долларов, который пока может только складывать бельё

Тысячелетний сокол и компания: реальный транспорт, которым вдохновлялись "Звездные войны"

Инструменты для разработчиков игр и не только

Claude Opus 4.6 обошел человека в «тесте на AGI». Но это только начало

Генеративный ИИ начнет приносить реальный экономический эффект к концу десятилетия

В CoinShares раскрыли реальный масштаб угрозы квантового взлома для биткоина

Opus 4.6 и команда ИИ-агентов написала компилятор С за 2 недели

Сэм Альтман: у ChatGPT только в Техасе больше пользователей, чем у Claude во всех США

Как отреагирует организм, если заменить все напитки чистой водой

Ян Лекун: индустрия движется в тупик, игнорируя реальный путь к AGI

Жирный продукт, который снижает риск инфаркта и инсульта

Как замедлить старение - эффективные практические советы дал невролог

Как понять, что человек плохо к вам относится и пытается это скрыть

Что ни в коем случае нельзя делать во время зарядки смартфона

Сегодня последний день регистрации на PGConf.Россия 2026

Samsung вкладывает 73 млрд долларов в исследования и разработки

Hong Kong Web3 Festival 2026 сосредоточится на ИИ, криптофинансах и токенизации активов

Huawei Mate 80 Wind Chaser: Смартфон с пропеллером, который мы (не) ждали

Безос строит облачный город: Зачем Blue Origin 51 600 ИИ-спутников на орбите?

Xiaomi Smart Door Lock G100: девять способов забыть про ключи и ни единого шанса для взломщиков

Ledger открыла офис в Нью-Йорке и назначила нового финдиректора

MiniMax представила M2.7 — модель, которая участвовала в собственной разработке

ИИ научился определять рак груди по анализу крови. Чувствительность — 95%

АРПП попросила правительство сохранить доступ к заблокированным мессенджерам

«Никто не знает, что делать»: создатель ChatGPT — о ближайших годах рынка труда

Как понять, что батарею iPhone пора менять: 9 признаков

MagSafe для богатых: Hermès выпустила премиальную сумочку Grand Paddock для зарядных гаджетов Apple

Гибкий iPhone задержится: Apple готовит декабрьский сюрприз и новую путаницу в линейке

С “Awesome” интрига невозможна: уже на следующей неделе Samsung представит среднебюджетные смартфоны Galaxy A37 и Galaxy A57

В какой день не стоит делать операции из-за риска осложнений

Одиночный тап теперь будет ставить Reels в Instagram на паузу

BingX запустила ИИ-аналитика AI Claw для мультиактивной торговли

Фейковые компании, поддельные декларации и 40 BTC: как таксист из США обманул государство на $2 млн

Эксперты объяснили, как украинцам защитить криптоактивы от атак на смартфоны

Биткоин-кит с 2100 BTC проснулся после почти 14 лет бездействия

«Т‑Технологии» купили «Авто.ру» у «Яндекса»

Почему к кофе обязательно подавать стакан воды, объяснили эксперты

Мини-ПК ViewDock: когда одного монитора недостаточно, а место на столе ограничено

За январь‑февраль 2026 года американские IT‑компании уволили более 33 тысяч человек — на 51% больше, чем год назад

В iFixit разобрали iPhone 17e и оценили его ремонтопригодность в 7 из 10 баллов

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA