Новая система безопасности на основе AI от Anthropic попала в руки хакеров за считанные дни

habr.com:

Всего за шесть дней с момента запуска проекта кому-то удалось обойти все механизмы безопасности, разработанные для защиты модели искусственного интеллекта Anthropic.Ян Лейке, бывший член команды по выравниванию OpenAI, ныне работающий в Anthropic, объявил на X, что один участник успешно преодолел все восемь уровней испытания.

Коллективные усилия включали около 3700 часов тестирования и 300 000 сообщений от участников. Однако Лейке отмечает, что пока никто не нашел универсального джейлбрейка, который мог бы решить все уровни испытания сразу.По мере того, как модели AI становятся более способными, их защита становится все более важной, а универсальные джейлбрейки становятся все более ценными.

Читать на habr.com Все новости от habr.com

Samsung Galaxy Flip 5 следом за Flip 6 и Fold 6 также получает новейшее обновление безопасности

Новый подход CoD в AI: сокращение слов на 92,4% при удержании точности

«GPT-4.5 доказывает возможность продолжения парадигмы масштабирования», — главный научный сотрудник OpenAI

OpenAI представляет GPT-4.5: новый рубеж в эволюции языковых моделей

Samsung Galaxy Flip 5 следом за Flip 6 и Fold 6 также получает новейшее обновление безопасности

Новый подход CoD в AI: сокращение слов на 92,4% при удержании точности

«GPT-4.5 доказывает возможность продолжения парадигмы масштабирования», — главный научный сотрудник OpenAI

OpenAI представляет GPT-4.5: новый рубеж в эволюции языковых моделей

Новые очки дополненной реальности Meta* могут измерять частоту сердечных сокращений

Inception Labs представляет серию программ LLM Mercury на основе диффузии

You.com представляет агент на основе AI, который обрабатывает более 400 источников одновременно

Новые модели искусственного интеллекта Phi-4 от Microsoft сочетают в себе большую производительность и компактность

«Темпоральные головы» в языковых моделях: новые возможности для AI

Новый фреймворк S* помогает моделям AI писать более качественный и надежный код

Новая модель AI от Microsoft «Muse» способна генерировать игровой процесс

Samsung Galaxy Xcover 5 получает новое обновление безопасности по всему миру

Результаты взлома Claude получены, и хакеры победили

CAPA: новый инструмент для обнаружения сходства ошибок в LLM

Система вознаграждений RLSP: Как она меняет подход к обучению языковых моделей

YouTube привносит в Shorts создание видеороликов с помощью искусственного интеллекта с помощью Veo 2 от Google

Исследование AI выявило ключевые факторы, лежащие в основе долгосрочных способностей LLM к рассуждениям

Новая система Meta* MILS обучает LLM работать с мультимедийными данными без специальной подготовки

Сэм Альтман заявил, что объединение LLM и LRM может принести новые научные знания

Новая система Ford Pro Delivery Assist автоматически выключает двигатель, закрывает окна, блокирует двери и включает аварийную сигнализацию, когда водители фургонов доставки делают остановки

Новые правила безопасности Deepmind направлены на то, чтобы не дать системам перехитрить людей

Генеральный директор Anthropic опровергает слухи о стоимости разработки Claude 3.5 Sonnet

Новая модель AI Tencent Hunyuan3D 2.0 превращает 2D-изображения в детализированные 3D-объекты

Claude 3.5 становится более доверительным: Anthropic вводит автоматическое цитирование

JetBrains запускает Junie — новый агент кодирования AI для своих IDE

Новая функция Citations от Anthropic направлена на сокращение ошибок AI

Трамп заявил о включении в стратегический крипторезерв XRP, Solana и Cardano

Возле Красного моря обнаружен древний золотой рудник

ТОП-7 продуктов для быстрого сжигания жира и наращивания мышц

Тест камер Samsung Galaxy S25 Ultra в DxOMark показал посредственные результаты

ФБР считает хакеров из Северной Кореи ответственными за кражу криптовалюты Ethereum на сумму $1,5 млрд с биржи Bybit

PIX Robotics запускает «PIX Триатлон 2.0» — новый расширенный курс по работе с данными и бизнес-процессами