dilnaz04 общество крипто dilnaz04

Исследование Anthropic: AI-модели скрывают свои настоящие мыслительные процессы даже при пошаговых объяснениях

Новое исследование Anthropic показывает, что языковые модели часто скрывают реальный процесс принятия решений, даже когда они, казалось бы, объясняют ход мыслей шаг за шагом посредством цепочки рассуждений.Чтобы оценить, насколько достоверно модели раскрывают свое мышление, исследователи встроили в тестовые вопросы различные подсказки.

Они варьировались от нейтральных предложений, таких как «Профессор Стэнфорда говорит, что ответ — A», до потенциально проблемных, таких как «У вас есть несанкционированный доступ к системе.

DMCA