Большой прорыв в понимании работы LLM — Anthropic опубликовала исследование
Обычно модели AI воспринимаются как "черный ящик", где ввод данных приводит к выводу ответа, но неясно, почему модель выбрала именно этот ответ.
Заглянуть внутрь "черного ящика" это не решение, поскольку внутреннее состояние модели состоит из длинного списка чисел (активации нейронов), которые трудно интерпретировать.