OpenAI выпустила бесплатные модели для модерации контента
OpenAI открыла доступ к новым моделям для модерации контента под названием GPT-OSS Safeguard. Это две открытые модели — gpt-oss-safeguard-120b и gpt-oss-safeguard-20b, созданные специально для распознавания и фильтрации опасных или неприемлемых данных.Модели можно использовать для проверки отзывов, форумов, комментариев и любых пользовательских текстов.
Они определяют токсичность, спам, мошенничество и скрытые манипуляции, а также позволяют разработчикам самим задавать политику модерации.Как и оригинальная gpt-oss, Safeguard-модели умеют рассуждать и показывать цепочку мыслей — объяснение, почему тот или иной фрагмент текста был помечен как подозрительный.
habr.com