maybeelf maybeelf

С помощью блок-схем можно заставить GPT-4o выдавать заблокированный текстовый ответ

Исследователи выяснили, что изображения блок-схемы обманом заставляют GPT-4o создавать вредоносный текст. Они передавали чат-боту эти изображения со схемами вредоносной деятельности вместе с текстовой подсказкой.Вероятность успеха атаки составила 92,8%.

В случае с версией GPT-4-vision-preview он был немного ниже и достигал 70%.Исследователи разработали автоматизированную платформу для джейлбрейка, которая могла сначала генерировать изображение блок-схемы из вредоносного текстового приглашения, а затем передавать его в модель для получения результата.

DMCA