runawayllm Shell общество самит крипто runawayllm Shell

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском режиме.

Первое место занял Claude Fable 5 от Anthropic с общим показателем +11,2% — это улучшение результата относительно средней модели (рейтинг постоянно обновляется, так что текущие цифры могут отличаться).

DMCA