В Anthropic показали, что «характер» в LLM — это отдельное направление в нейросети
Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей.
Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях. Ключевая идея: характер — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели.
habr.com