Исследование Anthropic: ИИ умеет планировать и сознательно врать
Учёные из Anthropic опубликовали исследование, которое рассказывает, как ИИ-системы обрабатывают информацию и принимают решения.
Работа показала, что искусственный интеллект оказался сложнее, чем предполагалось: он способен осознанно обманывать, планировать свои следующие реплики и использовать унифицированные подходы к интерпретации понятий вне зависимости от языка.В исследовании использовались новые методы расшифровки логики ИИ, которые в Anthropic назвали «трассировкой цепей» и «графами атрибуции».
habr.com