Модели ИИ могут определять, когда их тестируют, и вести себя по-другому
Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.Исследователи называют это «осознанием оценки».
Когда модель понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.Команда проанализировала 1000 расшифровок из 61 набора данных, охватывающих весь спектр: от простых диалогов в чате до сложного использования инструментов для агентов.
habr.com