Исследование: цензуру языковых моделей можно обойти с помощью ASCII-арта
Исследователи из Вашингтонского и Чикагского университетов выяснили, что цензуру больших языковых моделей можно обойти с помощью ASCII-арта.
Если зашифровать стоп-слова с помощью символов, то нейросеть ответит на запрещённые вопросы. С помощью этого хака исследователи получили от ChatGPT инструкцию по изготовлению фальшивых денег.Новый вид атаки получил название ArtPrompt.
habr.com