runawayllm США история CAD runawayllm США

Fable 5 уже может заменить фрилансеров на 16% реальных заказов — рост в 6 раз за 8 месяцев

Center for AI Safety (CAIS) и Scale Labs обновили результаты Remote Labor Index (RLI) — бенчмарка, который проверяет ИИ-агентов не на синтетических тестах, а на настоящих фриланс-заказах: 3D и CAD, архитектура, дизайн, видео и анимация, аудио, аналитика данных, веб-приложения.

Живой эксперт сравнивает работу агента с эталонной работой оплаченного профессионала, и решает, справился ли ИИ. Новая модель Claude Fable 5 показала лучший результат за всю историю теста по ключевой метрике automation rate (доля проектов, принятых как минимум наравне с человеческой работой) — 16,1%.

DMCA