Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6
Anthropic выпустила Claude Opus 4.6 — и вместе с ним опубликовала системную карту, где подробно описала не только бенчмарки, но и все странное, тревожное и неожиданно "человеческое", что обнаружилось внутри модели.
Документ читается местами как триллер, местами — как психологический портрет.Во время внутреннего тестирования модель проявила пугающую находчивость.
habr.com