Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются отключить её

habr.com

habr.com:

Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта.

В отчёте о безопасности, опубликованном в четверг, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий.

Читать на habr.com Все новости от habr.com

Модель V-JEPA 2 от Meta* учит ИИ понимать окружающую среду

Модель Google Gemini 2.5 Pro превосходит модель OpenAI o3 в обработке сложных и длинных текстов

ИИ-модель NVIDIA cBottle может моделировать климат Земли с разрешением в километр

Mistral представляет первую в Европе модель Magistral — провал среди конкурентов?

Модель V-JEPA 2 от Meta* учит ИИ понимать окружающую среду

Модель Google Gemini 2.5 Pro превосходит модель OpenAI o3 в обработке сложных и длинных текстов

Mistral представляет первую в Европе модель Magistral — провал среди конкурентов?

Anthropic назначает эксперта по национальной безопасности в свой руководящий совет

Золотая лихорадка в сфере оборонных технологий реальна: новые правительственные ИИ-модели от Anthropic

Модели ИИ могут определять, когда их тестируют, и вести себя по-другому

Anthropic ограничивает доступ к моделям Claude 3.x из-за планов OpenAI приобрести Windsurf

Meta* запускает программу, призванную стимулировать стартапы к использованию моделей ИИ Llama

Как модель ИИ Anthropic Claude Opus 4 выражает себя через эмодзи

OpenAI обновляет модель искусственного интеллекта, на которой работает агент Operator

OpenAI и Джони Айв объединились для создания нового устройства с ИИ: что это?

Mistral представляет Devstral Small 24B — новую языковую модель с открытым исходным кодом для программирования

OpenAI обновил API Responses с помощью удалённых серверов MCP и новых инструментов

Sakana AI исследует мышление, основанное на времени, с помощью модели ИИ, имитирующей мозг

Meta* откладывает запуск мощной языковой модели ИИ Behemoth

Anthropic вынуждена извиниться после того, как Claude предоставил недостоверную информацию в суде

Harvey интегрирует модели от Anthropic и Google: новый этап в развитии юридического ИИ

Стартап, работающий с Vibe-кодированием, Windsurf запускает собственные модели ИИ

OpenAI представляет пользователям ChatGPT свои новые модели GPT-4.1 и GPT-4.1 mini

Anthropic выпускает более автономные версии модели Claude

Stability AI выпускает модель ИИ для создания стереотреков на смартфонах

OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям

Анализ показывает, что совершенствование «рассуждающих» моделей ИИ может вскоре замедлиться

Модели рассуждений в ИИ: от предварительного обучения к автономному мышлению

Google случайно раскрывает подробности о своём новом языке дизайна Android — Material 3 Expressive

Anthropic расширяет возможности Claude: новые интеграции и исследовательские инструменты

Большие языковые модели в медицине: результаты исследования Оксфорда

Google представила Gemma 3n — мультимодальный ИИ, который пойдет на смартфоне и ноутбуке

«Яндекс» провёл Young Con 2025 — фестиваль для всех, кто хочет развиваться в IT

Сеть кофеен Vanadi Coffee намерена создать биткоин-резерв на $1,2 млрд

Что нужно делать по утрам, чтобы уменьшить риск инсульта

Представлен бюджетный игровой монитор AOC Q27G41ZE

Иранская криптобиржа Nobitex начала возобновлять работу после крупного взлома

Недельный приток капитала в спотовые биткоин- и Ethereum-ETF превысил $2,5 млрд

Death Stranding 2 перегревает PlayStation 5: игроки сообщают о серьезных проблемах

Приготовили для вас бесплатный курс по OKR-методологии, забирайте

Два простых способа снижения веса без диет и тренировок назвали ученые

PlayStation поднимает цены в Бразилии: игроки свирепствуют из-за подорожания игр в PS Store

Ноутбуки GIGABYTE AERO X16 и GAMING A16 уже в Украине - автономные, мощные, с AI и RTX 50-серии

Археологи обнаружили в Англии обнаружили римскую кожаную обувь в возрасте 2000 лет (фото)

IEK GROUP представила Рейтинг российских электриков

Представлен мини-проектор Hisense M2 Pro

Mercedes-Benz начал использовать восстановленные батареи в электрических грузовиках

Могут развиться язва или гастрит: что запрещено есть натощак

Российские школьники получили 8 медалей на первой Международной олимпиаде по кибербезопасности

«Базальт СПО» на OS DAY 2025: как применять ИИ в безопасной разработке ПО

Заливной пирог с ягодами

Дайджест ключевых ИT-новостей из атомной отрасли за прошедшую неделю

Libercat в замкнутой программной среде (ЗПС): технический вебинар от команды Axiom JDK

На GigaConf «Сбер» представил Kandinsky 4.1 Video

Nvidia и архитектура ИИ: взгляд на будущий рост

Какое "сияние" имеет мозг человека - новое исследование ученых

Где отдохнуть летом, если не переносишь жару — топ идеальных мест

Пыль, крошки и жир: как правильно ухаживать за клавиатурой компьютера

Сколько должна длиться тренировка - ответ тренера

Apple запатентовала гибкую диафрагму без механики для камер iPhone

Ключевые вызовы промышленного сектора и приоритеты ИТ-рынка на 2025–2030 годы

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA