Представлен BoN (Best-of-N) — открытый метод обхода фильтров больших языковых моделей
В открытом доступе представлен метод атаки BoN Jailbreaking, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в ИИ‑сервисах на основе больших языковых моделей.
Метод, который получил кодовое имя BoN (Best‑of‑N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet — в 78%, а Gemini Pro — в 50%.
habr.com