Anthropic представила новый метод защиты больших языковых моделей от взломов
Спустя два года после появления ChatGPT на рынке появилось множество больших языковых моделей (LLM), и почти все они по-прежнему уязвимы для взлома — специальных запросов и других обходных путей, которые заставляют их генерировать вредоносный контент.Разработчикам моделей ещё только предстоит придумать эффективную защиту — и, по правде говоря, они, возможно, никогда не смогут отражать такие атаки на 100%, но продолжают работать над этим.С этой целью конкурент OpenAI Anthropic, создавший семейство LLM-моделей и чат-ботов Claude, 3 января выпустил новую систему, которую он называет «конституционными классификаторами».
По его словам, эта система фильтрует «подавляющее большинство» попыток взлома его топовой модели Claude 3.5 Sonnet. При этом она сводит к минимуму чрезмерные отказы (отклонение безобидных запросов) и не требует больших вычислительных мощностей.Исследовательская группа Anthropic Safeguards также бросила вызов сообществу хакеров, чтобы они взломали новый механизм защиты с помощью «универсальных взломов», которые могут заставить модели полностью отказаться от защиты.На момент написания этой статьи модель не была взломана по определению Anthropic, хотя сообщалось об ошибке в пользовательском интерфейсе.Конституционные классификаторы основаны на конституционном искусственном интеллекте — методе, который приводит системы искусственного интеллекта в соответствие с человеческими ценностями на основе списка принципов, определяющих допустимые и недопустимые действия (например, рецепты горчицы допустимы, а рецепты горчичного газа — нет).Чтобы разработать новый метод защиты, исследователи Anthropic синтезировали 10 000 подсказок для взлома.
habr.com