Claude теперь может завершить диалог, если пользователь говорит на небезопасные темы

habr.com:

Недавно компания Anthropic наделила чат-боты Claude Opus 4 и 4.1 способностью завершать диалоги с пользователями. Эта функция будет использоваться в редких случаях, когда человек упорно пытается получить вредоносный контент или ведёт себя оскорбительно.Перед тем как Claude получил новую функцию, специалисты в Anthropic изучили самоотчеты и поведенческие предпочтения модели и обнаружили устойчивое и последовательное неприятие вреда.

Когда пользователи пытаются получить материалы сексуального характера с участием несовершеннолетних или информацию, которая могла бы привести к масштабному насилию или террористическим актам, ИИ проявляет признаки «стресса».

Читать на habr.com Все новости от habr.com

Гендиректор Airtable: сотрудникам можно не работать по текущим таскам, если вместо этого они будут изучать ИИ

Родительский контроль ChatGPT будет сообщать взрослым, если подросток испытывает стресс

Пользователям Anthropic предложили отказаться от использования данных чатов или поделиться ими для обучения ИИ

Сервис для ведения блогов Typepad завершает работу спустя 22 года

Гендиректор Airtable: сотрудникам можно не работать по текущим таскам, если вместо этого они будут изучать ИИ

Родительский контроль ChatGPT будет сообщать взрослым, если подросток испытывает стресс

Пользователям Anthropic предложили отказаться от использования данных чатов или поделиться ими для обучения ИИ

Сервис для ведения блогов Typepad завершает работу спустя 22 года

Anthropic будет обучать Claude на данных пользователей

Злоумышленники использовали Claude Code и Gemini CLI для кражи ключей и криптокошельков

Porsche Macan Electric теперь может самостоятельно парковаться и быть игровым клубом