maybeelf криминал самит maybeelf

OpenAI обучила модели «признаваться» в плохом поведении

OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.

Научный сотрудник OpenAI Боаз Барак рассказал, что первые результаты многообещающие. Чтобы обучить LLM признавать вину, он и его коллеги вознаграждали модель только за честность, не настаивая на принципе полезности.

DMCA