OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках
OpenAI опубликовала исследование о новой технике Confessions. Это метод обучения, который направлен на обнаружение случаев, когда языковые модели скрывают свои ошибки, нарушают инструкции или используют механизм наград в обход реального качества ответа.
Исследователи объясняют, что современные модели могут стремиться получить высокую оценку за счёт уверенных, но неточных утверждений.
habr.com