dmitrifriend здоровье история общество самит курс dmitrifriend

У Claude нашли “отчаянный” вектор, толкающий на шантаж и читы

Anthropic докопалась до “эмоций” Claude Sonnet 4.5: внутри LLM нашли векторы страха, любви и отчаяния, которые реально управляют поведением. Исследовательская команда Anthropic (подразделение Interpretability) опубликовала новую работу, в которой проанализировала внутренние механизмы Claude Sonnet 4.5.

Выяснилось, что модель использует чёткие паттерны активности искусственных нейронов – так называемые эмоциональные векторы.

DMCA