В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера
В Anthropic провели исследование, в ходе которого выяснили, почему ИИ иногда обретает определенные персональные черты, в том числе нежелательные — например, озлобленность, подхалимство или склонность к галлюцинациям.
Исследователи взяли "нормальные" ответы и ответы, в которых ИИ проявлял одну из перечисленных выше особенностей, а затем вычли активации нейронов, получив так называемый persona vector.
habr.com