pythonleader люди общество самит курс интересное pythonleader

SkillsBench: скиллы дают реальный буст, но только если их писал человек

Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench.Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче.

Что-то вроде методички для конкретной предметной области. Такие скиллы уже активно используются в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто систематически не проверял, работают ли они вообще.Для бенчмарка собрали 86 задач из 11 доменов (от разработки до медицины), привлекли 105 экспертов, прогнали 7 308 итераций на 7 моделях.

DMCA