В Anthropic рассказали, как защититься от саботажа ИИ

habr.com

habr.com:

Что делать, если ИИ умнее своих проверяющих и саботирует работу? Группа исследователей из Anthropic, MATS, Redwood Research и Оксфорда показала, что обычное дообучение со слабым супервайзером может вытянуть из такой модели 88–99% реальных способностей — но только пока модель не понимает, что ее обучают.Мотивация в работе сформулирована прямо.

В ближайшие годы ИИ начнут поручать задачи, где надежно проверять качество вывода нельзя. Самый болезненный пример — автоматизированные исследования по выравниванию: оценить, хороша ли идея эксперимента, может только тот, кто умнее модели.

Читать на habr.com Все новости от habr.com

Сооснователь Anthropic: ИИ может стереть человечество. Но сначала — поможет получить Нобелевку

Grok все? Anthropic арендует у Илона Маска второй дата-центр Colossus

В Nature рассказали, как ИИ предложил препараты от лейкоза и слепоты

Андрей Карпати присоединился к Anthropic — сооснователь OpenAI теперь работает в ее главном конкуренте

Сооснователь Anthropic: ИИ может стереть человечество. Но сначала — поможет получить Нобелевку

Grok все? Anthropic арендует у Илона Маска второй дата-центр Colossus

В Nature рассказали, как ИИ предложил препараты от лейкоза и слепоты

Андрей Карпати присоединился к Anthropic — сооснователь OpenAI теперь работает в ее главном конкуренте

Anthropic купила стартап, на котором держатся SDK конкурентов — и сворачивает его продукты

Зачем в Anthropic полгода делали неработающего ИИ-агента

Anthropic увеличил лимиты подписки Claude и API-кредит для агентов. Но довольны не все

Anthropic чуть не поглотила OpenAI в ноябре 2023-го — Суцкевер подтвердил это в суде

От 96% до нуля: как Anthropic отучила Claude от шантажа

Anthropic научилась читать мысли Claude — и поймала его на скрытом обмане

«Если AI заберет работу у джунов — где брать сеньоров?»: Anthropic Institute займется поиском ответа

Claude теперь «видит сны»: Anthropic выкатила режим dreaming для ИИ-агентов

Anthropic арендует Colossus у xAI: лимиты Claude Code удваиваются

o1 рассуждает, Claude пишет код: как ИИ-агенты сами ищут биомаркеры рака

Anthropic выпустила 10 финансовых ИИ-агентов — и пообещала похороны старому SaaS

В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

Самообучающийся ИИ может появиться в конце 2028 года — сооснователь Anthropic

Claude Code штрафовал пользователей за упоминание OpenClaw и Hermes. В Anthropic заявили, что это баг

Пентагон пустил 8 ИИ-моделей в свои секретные сети. Без Anthropic — но не совсем

Mythos снова в игре: Белый дом готовится вернуть Anthropic, которую ранее считал угрозой

Лауреат премии Тьюринга: Claude Mythos нельзя оставлять под контролем Anthropic

Anthropic назвала причины «отупения» Claude Code

Claude Mythos в день анонса: как Discord-группа обошла белый список Anthropic

Amazon вложит $25 млрд в Anthropic: Claude получит 5 ГВт мощностей

+185% за 13 часов: как Kimi K2.6 переписала 8-летний движок

Anthropic не стала чинить дыру в протоколе MCP — и это на фоне хвастовства, как Claude находит тысячи уязвимостей

«20 промптов превратились в 2»: Anthropic запустил Claude Design

C 27 мая Минпромторг исключил из параллельного импорта компьютерную технику ведущих иностранных производителей

«Репетиция перед AGI»: Хассабис — о нынешней эпохе ИИ-агентов

Вышел Rhino Linux 2026.1

LG может рассмотреть продажу ТВ-бизнеса: обсуждения с Hisense вызвали волну слухов

Microsoft признала, что выделенная клавиша Copilot была не лучшей идеей: теперь её можно будет переназначить

Крах стереотипов – названы лучшие наушники по качеству звука

Amazon покупает Globalstar: Джефф Безос забирает долю Apple в спутниковом бизнесе

В Европе дебютировали Xiaomi Watch S5 — флагманские смарт-часы с легким и тонким стальным корпусом, ярким AMOLED-экраном и автономностью до 21 дня

Главную причину развития диабета назвали ученые

Ночные кошмары могут быть симптомом опасной болезни

Обновления BIOS от HP ломают дорогие ноутбуки

Ваши артерии "забиты" жиром и холестерином - 5 признаков

О неожиданной опасности смартфонов для зрения рассказали врачи

Один Claude пишет, другой проверяет: в Claude Code появился поиск уязвимостей в реальном времени

YouTube усиливает маркировку ИИ-контента: платформа станет прозрачнее

Юбилейные часы Casio Frogman получили ручную обработку и эксклюзивные материалы

Как мозг воспринимает время - исследование

Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

Минцифры РФ напомнило аккредитованным IT‑компаниям о сроке подтверждения статуса и налоговых льгот до 1 июня

Учёные поняли, как в 2010 году направление течения внешних слоёв ядра Земли изменилось на противоположное

«Невыездные» из-за ИИ: топ-менеджерам Alibaba и DeepSeek закрыли свободный выезд

СМИ: Krafton все же выплатит $250 млн авторам Subnautica 2 — издательство хочет завершить некрасивый конфликт

Как поздние ужины увеличивают риск рака, рассказали ученые

Продукты, которые повышают риск смертельной болезни, назвали диетологи

Пять продуктов, которые нельзя сочетать с рыбой, назвали врачи

Xiaomi 17T и 17T Pro дебютировали на глобальном рынке — «Мастера телефото» с камерами Leica и топовыми чипами от MediaTek уже доступны для покупки

Meta запускает Plus-подписки для Instagram, Facebook и WhatsApp — предлагаются супер-реакции, кастомизация иконок и анонимный просмотр Stories

КРЭТ и КАМАЗ представили электрозарядную станцию ФОРА ЭЗС-DC-4M мощностью 160 кВт для ночной зарядки электробусов

В MySQL закрыли 20-летний баг: его нашли в 2005 году, но очень долго не исправляли

«Базис» выпустил Basis Dynamix Cloud Control 5.5 и Basis Automation Studio 2.4

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA