Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena
Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском режиме.
Первое место занял Claude Fable 5 от Anthropic с общим показателем +11,2% — это улучшение результата относительно средней модели (рейтинг постоянно обновляется, так что текущие цифры могут отличаться).
habr.com