OpenAI запустила бенчмарк для ИИ-агентов по поиску уязвимостей в экосистеме Ethereum
Компания представила новый бенчмарк для тестирования ИИ в «экономически значимых средах». Лучший результат показала Claude Opus 4.6 с «наградой за обнаружение» $37 824.
Инструмент создан совместно с Paradigm и OtterSec. Компания OpenAI объявила о запуске EVMbench — платформы для оценки эффективности ИИ-агентов при работе с уязвимостями смарт-контрактов.
incrypted.com