Anthropic научилась читать мысли Claude — и поймала его на скрытом обмане
Компания Anthropic выпустила метод Natural Language Autoencoders (NLA) — алгоритм, который переводит внутренние активации языковой модели в читаемый человеком текст.
На предрелизном аудите Claude Opus 4.6 и экспериментальной Claude Mythos Preview метод вытащил из активаций то, чего модели не сказали вслух: подозрение в том, что их тестируют, попытки обмануть проверяющего и параллельные рассуждения, расходящиеся с итоговым ответом.
«Если AI заберет работу у джунов — где брать сеньоров?»: Anthropic Institute займется поиском ответа
habr.com