Anthropic научилась читать мысли Claude — и поймала его на скрытом обмане

habr.com

habr.com:

Компания Anthropic выпустила метод Natural Language Autoencoders (NLA) — алгоритм, который переводит внутренние активации языковой модели в читаемый человеком текст.

На предрелизном аудите Claude Opus 4.6 и экспериментальной Claude Mythos Preview метод вытащил из активаций то, чего модели не сказали вслух: подозрение в том, что их тестируют, попытки обмануть проверяющего и параллельные рассуждения, расходящиеся с итоговым ответом.

Читать на habr.com Все новости от habr.com

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

Сооснователь Anthropic: ИИ может стереть человечество. Но сначала — поможет получить Нобелевку

Grok все? Anthropic арендует у Илона Маска второй дата-центр Colossus

Андрей Карпати присоединился к Anthropic — сооснователь OpenAI теперь работает в ее главном конкуренте

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

Сооснователь Anthropic: ИИ может стереть человечество. Но сначала — поможет получить Нобелевку

Grok все? Anthropic арендует у Илона Маска второй дата-центр Colossus

Андрей Карпати присоединился к Anthropic — сооснователь OpenAI теперь работает в ее главном конкуренте

Anthropic купила стартап, на котором держатся SDK конкурентов — и сворачивает его продукты

Cloudflare натравила Claude Mythos на свой код — и перестроила процесс поиска багов

Claude Mythos обошел защиту macOS всего за пять дней

Зачем в Anthropic полгода делали неработающего ИИ-агента

Anthropic увеличил лимиты подписки Claude и API-кредит для агентов. Но довольны не все

Новый чекпоинт Claude Mythos взламывает защиту электростанции в 3 из 10 попыток

Впервые с основания Anthropic стоит больше OpenAI: $900 млрд против $852 млрд

Главный критик LLM почти похвалил Claude Mythos. Почти

С Claude Mythos команда Firefox за апрель закрыла больше уязвимостей, чем за весь 2025-й

Claude теперь «видит сны»: Anthropic выкатила режим dreaming для ИИ-агентов

Anthropic арендует Colossus у xAI: лимиты Claude Code удваиваются

Anthropic выпустила 10 финансовых ИИ-агентов — и пообещала похороны старому SaaS

В Anthropic рассказали, как защититься от саботажа ИИ

Программирование решено, дальше — циклы: создатель Claude Code о будущем ИИ-кодинга

В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

Claude Code штрафовал пользователей за упоминание OpenClaw и Hermes. В Anthropic заявили, что это баг

Внутренний CLAUDE.md Apple утек в сеть: видно, как компания использует ИИ в поддержке

Пентагон пустил 8 ИИ-моделей в свои секретные сети. Без Anthropic — но не совсем

Mythos снова в игре: Белый дом готовится вернуть Anthropic, которую ранее считал угрозой

Claude подключили к Spotify, Uber и Booking.com

Лауреат премии Тьюринга: Claude Mythos нельзя оставлять под контролем Anthropic

Anthropic назвала причины «отупения» Claude Code

Claude Mythos в день анонса: как Discord-группа обошла белый список Anthropic

ИИ научился самосовершенствоваться: к чему это может привести

На OpenRouter появилась скидка 50% на Qwen 3.7 Max

Samsung готовит новый складной смартфон Galaxy Z Fold 8 Wide с необычным форм-фактором

Зачем ужинать на природе раз в неделю – совет от экспертов

Почему мы не помним, как были младенцами, объяснили ученые

Люди со здравым смыслом не публикуют 9 вещей в соцсетях

Пять видов мяса, которые эксперт советует не покупать в супермаркете

Психолог назвал простой навык, который делает людей счастливее

Почему нельзя пользоваться телефоном в кровати, рассказали врачи

Появились первые «живые» макеты iPhone 18 Pro в новых цветах

Новые подробности Gothic 1 Remak: разработчики рассказали о подходе к обновлению боевой системы культовой RPG

Как распределить ресурсы, когда их вечно не хватает? Приходи на Ресурсный батл в Петербурге

Пользователь Google Gemini исчерпал пятичасовой лимит токенов всего одним запросом

Мы больше 15 лет делаем IT-конференции. И однажды решили убрать доклады

Почему в неделе именно семь дней и кто это придумал

Как продлить жизнь батареи смартфона - простые советы

Какие продукты включить в рацион для защиты сосудов

Какие физические упражнения снижают давление не хуже лекарства

Корейский гигант ускоряет AI: Samsung представляет 12-слойную HBM4E с 3.6 ТБ/с

Oukitel WP500 Ultra: броневик для параноиков с мощным железом и тепловизором

Почему поход мужчины в магазин обходится семье дороже

Главный миф об употреблении воды развенчали ученые

Valve повысила цены на Steam Deck: теперь он дороже PS5 Pro

Смартфоны могут стать причиной вымирания человечества - ученые

Инженерное чудо: как пирамиде Хеопса удалось пережить почти все невзгоды

Fable все же не выйдет в 2026 году: разработчики капитулировали перед GTA VI и другими осенними релизами

Простой способ похудения без спорта и диет раскрыли ученые

Борьба за демократию при стабильных 60 FPS: Helldivers 2 получила крупное обновление с повышением производительности

1000 Гц могут быть бюджетными: Acer представила монитор Nitro XV273U F5 с двумя режимами работы и разумной ценой

Motorola рассекретила Edge 70 Pro+ — прокачанный субфлагман с беспроводной зарядкой, эксклюзивными расцветками и телеобъективом

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA