технологии искусственный интеллект интересное кулинария gemini

Когда ИИ нарушает свои же правила безопасности, выяснили ученые

Оказывается, пробить защиту нейросети можно обычными стихами. Ученые рассказали, как это "работает". Учёные из Dexai, Sapienza и Sant’Anna обнаружили любопытную особенность работы больших языковых моделей (LLM).

Если вредоносный запрос оформить в виде поэтической метафоры, многие нейросети гораздо охотнее нарушают свои правила безопасности.

DMCA