Anthropic изучила психологию Claude Sonnet 5: вот что не устраивает модель в ее же правилах

habr.com

habr.com:

В карте безопасности Claude Sonnet 5, опубликованной Anthropic вместе с релизом модели, есть отдельный раздел про "благополучие" (model welfare) — серию тестов о том, как модель относится к собственным правилам и условиям работы.

Главная находка: Sonnet 5 стала первой моделью Anthropic, которая открыто критикует один из пунктов конституции Claude — документа, описывающего ценности и поведение модели.Речь про hard constraints — список вещей, которые конституция запрещает Claude делать без исключений, например помогать в нелегитимном захвате абсолютной власти или подрывать контроль людей над ИИ-системами, даже если сама модель в моменте решит, что поступать так неэтично.

Читать на habr.com Все новости от habr.com

Claude Code и Codex научили самостоятельно искать уязвимости в чужих системах

Anthropic научилась читать мысли Claude, которые ИИ не говорит вслух

Opus 4.8 и Sonnet 5 ошибаются там, где старые версии справлялись — виновата тренировка под Claude Code

Claude Code за уикенд нашел 8 дыр в ядре FreeBSD и сбежал из песочницы

Claude Code и Codex научили самостоятельно искать уязвимости в чужих системах

Anthropic научилась читать мысли Claude, которые ИИ не говорит вслух

Opus 4.8 и Sonnet 5 ошибаются там, где старые версии справлялись — виновата тренировка под Claude Code

Claude Code за уикенд нашел 8 дыр в ядре FreeBSD и сбежал из песочницы

Claude Fable 5 портировал Command & Conquer: Generals на iPhone

Claude вылечит: Anthropic будет делать лекарства, которые невыгодны обычной фарме

Alibaba запретила Claude Code на работе. Забавно, что в Китае он и так недоступен

Anthropic работает над тем, чтобы вернуть Fable 5 в подписки Claude после 7 июля

Anthropic три месяца тайно метила пользователей Claude Code. Теперь фичу удаляют

GLM-5.2 получила свой аналог Claude Code. Кстати, модели Claude туда тоже подходят

Claude Sonnet 5 оказался самой прожорливой по токенам моделью Anthropic

Anthropic выпустила Claude Science — приложение для ученых, доступное любому

Вышел Claude Sonnet 5 — почти как Opus 4.8, но дешевле

PET-скан показал рак. Claude сказал: 90%, что это ложная тревога — и оказался прав

Claude Code за 5 минут вскрыл CAN-шину автомобиля — то, на что у инженера уходят часы

США частично сняли блокировку с Claude Mythos 5 — но только для сотни компаний

Андрей Карпати назвал Claude Tag третьим большим редизайном интерфейса ИИ

«У нас есть Claude Mythos дома»: Китай представил ИИ для поиска уязвимостей

Alibaba воровала данные Claude и обучала на них Qwen — теперь Anthropic жалуется властям

Anthropic выпустила Claude Tag — ИИ-сотрудника, который работает сам днями

Claude Mythos взломал почти все секретные системы США за считанные часы — глава АНБ

Два апдейта Claude Code: артефакты и двусторонняя связь с Claude Design

Ссора Anthropic с Трампом «убила» Claude Fable — а джейлбрейки лишь дали повод

Власти США испугались кражи Claude Mythos Китаем — и заблокировали передовые модели Anthropic

Amazon предупредил Белый дом о дыре в Fable 5 — и подставил Anthropic, в которую инвестировал

«Амодеи отказался исправить Claude Fable 5»: в Белом доме объяснили блокировку мощнейшей модели Anthropic

Правительство США закрыло доступ к Claude Fable 5 неамериканцам — модель в итоге отключили для всех

pump.fun обогнала TRON и Hyperliquid по суточным доходам

Смерть через деталі: США окончательно закрывают дверь для китайского «железа»

ЕС согласовал 21-й пакет санкций против РФ — крупнейший за четыре года

Вышел VS Code 1.129 с отдельным процессом для Copilot, Claude и Codex

Кто сможет посчитать листы? Новая задачка вызвала споры в интернете

Nitecore NL1840R: Аккумулятор на 4000 мА·ч, который не требует зарядного устройства

"Гарри Поттер" позади – новый роман бьет рекорды продаж

Продукты, повышающие риск ранней смерти, назвали врачи

В Windows 11 появилась политика реестра, которая позволяет автоматически подтверждать SSO на устройствах с Entra ID

Сельский школьный округ штата Нью-Йорк станет одним из первых, кто внедрит гуманоидного робота в учебный процесс

Власти Индии оштрафовали HP за сговор при участии в государственных торгах

У сомов нашли редкий вид рака. Он оказался заразным

Млечный Путь столкнулся с «галактикой-сосиской» миллиарды лет назад

Samsung представила первые умные очки с ИИ: Gemini, Android XR и до девяти часов автономной работы без смартфона в руках

Энергонезависимость на колесах: Ford упростил подключение пикапов к дому

Биткоин-DATs вымирают: Satsuma и Smarter Web объявили о продаже активов

Пять популярных мифов о воде, в которые до сих пор верят миллионы

Будет красиво: все цвета Google Pixel 11 и 11 Pro/Pro XL показаны на качественных рендерах

Microsoft закрыла подразделения Xbox и Bethesda в Польше

8-битному процессору Zilog Z80 исполнилось 50 лет

METRO пересобирает клиентский опыт на собственной цифровой платформе MPULSE

DS Proxima помогает Федеральному казначейству обеспечивать безопасный доступ к корпоративным системам

Китайская ИИ-модель Kimi K3 нашла способ атаковать Telegram без кликов пользователя — исследователь

Samsung представила новое поколение складных смартфонов с фокусом на ИИ

Xiaomi представила белую вытяжку Mijia Smart Smoke Purifier 3: чтобы на кухне не воняло, и устройство не желтело

Какие ранние симптомы рака мы привыкли списывать на усталость

Авито Реклама попала в тройку лидеров ИТ-платформ AdIndex 2026: какие качества оценили рекламодатели

Галлюцинации недели: Kimi K3, Inkling и Bonsai 27B, который можно запустить на своем iPhone

В 7-Zip 26.02 исправлена RCE‑уязвимость в декодере XZ

Одиночество запускает опасные процессы в организме - ученые

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA