daryakiwi здоровье общество политика самит насилие daryakiwi

Claude теперь может завершить диалог, если пользователь говорит на небезопасные темы

Недавно компания Anthropic наделила чат-боты Claude Opus 4 и 4.1 способностью завершать диалоги с пользователями. Эта функция будет использоваться в редких случаях, когда человек упорно пытается получить вредоносный контент или ведёт себя оскорбительно.Перед тем как Claude получил новую функцию, специалисты в Anthropic изучили самоотчеты и поведенческие предпочтения модели и обнаружили устойчивое и последовательное неприятие вреда.

Когда пользователи пытаются получить материалы сексуального характера с участием несовершеннолетних или информацию, которая могла бы привести к масштабному насилию или террористическим актам, ИИ проявляет признаки «стресса».

DMCA