Исследователи T-Bank AI Research разработали метод, показывающий, как модель принимает решения на разных слоях
Исследователи из T‑Bank AI Research представили метод SAE Match. Метод позволяет отслеживать, как языковые модели принимают решения на разных этапах вычислений.
SAE Match показывает, какие признаки сохраняются при прохождении данных сквозь слои модели. Это помогает понять, как формируется финальный ответ, и при необходимости вмешаться в процесс до выдачи результата.
habr.com