Когда ИИ нарушает свои же правила безопасности, выяснили ученые
Оказывается, пробить защиту нейросети можно обычными стихами. Ученые рассказали, как это "работает". Учёные из Dexai, Sapienza и Sant’Anna обнаружили любопытную особенность работы больших языковых моделей (LLM).
Если вредоносный запрос оформить в виде поэтической метафоры, многие нейросети гораздо охотнее нарушают свои правила безопасности.
cursorinfo.co.il