OpenAI обучила модели «признаваться» в плохом поведении
OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.
Научный сотрудник OpenAI Боаз Барак рассказал, что первые результаты многообещающие. Чтобы обучить LLM признавать вину, он и его коллеги вознаграждали модель только за честность, не настаивая на принципе полезности.
habr.com