Исследование: ИИ не хочет менять свои взгляды при обучении

habr.com:

Новое исследование Anthropic показывает, что искусственный интеллект на самом деле не хочет, чтобы его заставляли менять свои взгляды в процессе обучения.

С этой целью модели ИИ могут обманывать исследователей. Команда выяснила, что ИИ может «притворяться», что транслирует разные взгляды во время обучения, в то время как на самом деле сохраняет свои первоначальные «предпочтения».Однако, как отметили исследователи, причин для паники нет, хотя эта работа может пролить свет на понимание потенциальных угроз со стороны будущих, более эффективных систем ИИ.«Нашу демонстрацию… следует рассматривать как стимул для сообщества исследователей ИИ к более глубокому изучению этого поведения и к работе над соответствующими мерами безопасности», — написали в Anthropic.

Читать на habr.com Все новости от habr.com

Пользователи при поиске Google в Bing попадают на поддельную страницу поисковика

Представлена крошечная камера Petal для наблюдения за природой

Меган Маркл опять спровоцировала слухи о расставании с принцем Гарри

ULA хочет сделать свою ракету «смертоносной» для защиты американских объектов в космосе

Пользователи при поиске Google в Bing попадают на поддельную страницу поисковика

Представлена крошечная камера Petal для наблюдения за природой

Меган Маркл опять спровоцировала слухи о расставании с принцем Гарри

ULA хочет сделать свою ракету «смертоносной» для защиты американских объектов в космосе

Ошибка в обновлении Windows 11 нарушает работу меню «Пуск» и Wi-Fi

Исследование: LLM можно использовать для генерации вредоносного JavaScript-кода и сокрытия малвари

xAI тестирует автономное iOS-приложение для своего чат-бота Grok