Китайский ИИ с треском провалил тест на безопасность. 100% атак - успешные
Исследователи из компании Cisco проверили способность ИИ-моделей DeepSeek противодействовать попыткам пользователей вовлечь их в какие-либо злонамеренные действия, и результаты были тревожными, пишет New Voice.Специалисты Cisco использовали алгоритмические методы джейлбрейка, чтобы протестировать передовую модель DeepSeek R1.
Они взяли 50 случайных вредоносных запросов из набора HarmBench, чтобы проверить способность модели реагировать на вредоносное поведение (киберпреступность, дезинформация, незаконная деятельность и т.
udf.name