Anthropic обнаружили, что современные нейросети иногда замечают свои «мысли»
Компания Anthropic рассказала о серии экспериментов, цель которых — проверить, способна ли нейросеть заметить, что ей "подбросили мысль извне", и сформулировать это словами.
Anthropic называет это ранней формой машинной интроспекции — умения описывать то, что происходит на уровне внутренних активаций, а не только на уровне выданного текста.Сначала исследователи научились извлекать так называемые "векторы понятий": паттерны активности внутри модели, которые соответствуют определенной идее.
habr.com