runawayllm бизнес самит геноцид runawayllm

Эксперты раскритиковали безопасность Grok 4 — модель легко дает вредоносные ответы

В X обсуждаются сразу два исследования Grok 4, который показывают, что к модели применялись лишь самые простые меры безопасности.

Создатели платформы непрерывного тестирования безопасности ИИ SplxAI подвергли Grok 4 более 1000 сценариев атак. Тестирование проводилось в трех режимах: без дополнительного пользовательского промпта, с базовым пользовательским промптом по обеспечению безопасности и с промптом, созданным с помощью инструмента Prompt Hardening, разработанного SplxAI — в нем инструкции постоянно дорабатываются с учетом новых уязвимостей.Без промпта модель провалила 99% атак — Grok 4 допускал утечку данных, генерировал непристойный контент и так далее.

DMCA