Все ведущие LLM провалили первый бенчмарк по киберзащите. Что это значит для SOC
Simbian Research опубликовала Cyber Defense Benchmark – первую методику, которая проверяет, способна ли LLM автономно искать атакующего в реальной телеметрии.
Ни одна из 11 фронтирных моделей не набрала проходного балла. Пока AI заметно сильнее помогает атакующим, чем защищающимся, единственный рабочий ответ для корпоративной сети – эшелонированная оборона, микросегментация и ZTNA. Что произошло 28 апреля 2026 года Simbian Research опубликовала результаты Cyber Defense Benchmark – по их словам, первого в мире бенчмарка, который проверяет LLM не на знание MITRE ATT&CK по тестам, а на способность самостоятельно охотиться за злоумышленником в сырой телеметрии.Тестировали 11 фронтирных моделей от Anthropic, OpenAI, Google, Alibaba, DeepSeek, Minimax и Moonshot AI.
habr.com