maybeelf Facebook происшествия общество самит maybeelf

Исследование: ИИ не хочет менять свои взгляды при обучении

Новое исследование Anthropic показывает, что искусственный интеллект на самом деле не хочет, чтобы его заставляли менять свои взгляды в процессе обучения.

С этой целью модели ИИ могут обманывать исследователей. Команда выяснила, что ИИ может «притворяться», что транслирует разные взгляды во время обучения, в то время как на самом деле сохраняет свои первоначальные «предпочтения».Однако, как отметили исследователи, причин для паники нет, хотя эта работа может пролить свет на понимание потенциальных угроз со стороны будущих, более эффективных систем ИИ.«Нашу демонстрацию… следует рассматривать как стимул для сообщества исследователей ИИ к более глубокому изучению этого поведения и к работе над соответствующими мерами безопасности», — написали в Anthropic.

DMCA