runawayllm люди закон общество самит Психология и отношения runawayllm

Anthropic изучила психологию Claude Sonnet 5: вот что не устраивает модель в ее же правилах

В карте безопасности Claude Sonnet 5, опубликованной Anthropic вместе с релизом модели, есть отдельный раздел про "благополучие" (model welfare) — серию тестов о том, как модель относится к собственным правилам и условиям работы.

Главная находка: Sonnet 5 стала первой моделью Anthropic, которая открыто критикует один из пунктов конституции Claude — документа, описывающего ценности и поведение модели.Речь про hard constraints — список вещей, которые конституция запрещает Claude делать без исключений, например помогать в нелегитимном захвате абсолютной власти или подрывать контроль людей над ИИ-системами, даже если сама модель в моменте решит, что поступать так неэтично.

DMCA