Anthropic представила новый метод защиты больших языковых моделей от взломов

habr.com:

Спустя два года после появления ChatGPT на рынке появилось множество больших языковых моделей (LLM), и почти все они по-прежнему уязвимы для взлома — специальных запросов и других обходных путей, которые заставляют их генерировать вредоносный контент.Разработчикам моделей ещё только предстоит придумать эффективную защиту — и, по правде говоря, они, возможно, никогда не смогут отражать такие атаки на 100%, но продолжают работать над этим.С этой целью конкурент OpenAI Anthropic, создавший семейство LLM-моделей и чат-ботов Claude, 3 января выпустил новую систему, которую он называет «конституционными классификаторами».

По его словам, эта система фильтрует «подавляющее большинство» попыток взлома его топовой модели Claude 3.5 Sonnet. При этом она сводит к минимуму чрезмерные отказы (отклонение безобидных запросов) и не требует больших вычислительных мощностей.Исследовательская группа Anthropic Safeguards также бросила вызов сообществу хакеров, чтобы они взломали новый механизм защиты с помощью «универсальных взломов», которые могут заставить модели полностью отказаться от защиты.На момент написания этой статьи модель не была взломана по определению Anthropic, хотя сообщалось об ошибке в пользовательском интерфейсе.Конституционные классификаторы основаны на конституционном искусственном интеллекте — методе, который приводит системы искусственного интеллекта в соответствие с человеческими ценностями на основе списка принципов, определяющих допустимые и недопустимые действия (например, рецепты горчицы допустимы, а рецепты горчичного газа — нет).Чтобы разработать новый метод защиты, исследователи Anthropic синтезировали 10 000 подсказок для взлома.

Читать на habr.com Все новости от habr.com

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Генеральный директор Anthropic Дарио Амодей предупреждает о «гонке» за пониманием AI по мере его усиления

OpenAI отменяет выпуск своей AI-модели o3 в пользу «унифицированного» релиза нового поколения

Проблемы языковых моделей при анализе длинных текстов: выводы исследования