Представлен BoN (Best-of-N) — открытый метод обхода фильтров больших языковых моделей

habr.com

habr.com:

В открытом доступе представлен метод атаки BoN Jailbreaking, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в ИИ‑сервисах на основе больших языковых моделей.

Метод, который получил кодовое имя BoN (Best‑of‑N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet — в 78%, а Gemini Pro — в 50%.

Читать на habr.com Все новости от habr.com

Представлен стандарт HDMI 2.2

Релиз NWinfo 1.1.0 — открытого портативного инструмента для быстрого просмотра ключевых характеристик ПК на Windows

Представлен проект удалённого выполнения кода на уровне прошивки на синтезаторе Yamaha PSR-E433 через MIDI-сообщения

Представлен стандарт HDMI 2.2

Релиз NWinfo 1.1.0 — открытого портативного инструмента для быстрого просмотра ключевых характеристик ПК на Windows

Представлен проект удалённого выполнения кода на уровне прошивки на синтезаторе Yamaha PSR-E433 через MIDI-сообщения

Представлен открытый проект TypeScript Type Predicate Generator

Релиз кроссплатформенного открытого многофункционального архиватора PeaZip 10.2

Релиз открытого аудиоплеера Amarok 3.2.0

Представлен Lemontron, портативный 3D-принтер с открытым исходным кодом

Представлен хак, как на 100% CSS (без JavaScript) получить IP‑адрес пользователя на :root

Представлен сервер Minecraft, написанный на COBOL

Релиз планетария с открытым кодом Stellarium 24.4

Релиз Darktable 5.0 — открытого графического редактора для обработки фотографий в формате RAW

Релиз открытого видеоредактора Flowblade 2.18

Проект Overture Maps представил открытую картографическую базу данных Transportation с 86 млн километров дорог мира

Microsoft выпустила MarkItDown — открытый инструмент на Python для преобразования файлов и офисных документов в Markdown

«Сбер» представил умное кольцо Sber Smart Ring с нейросетевой моделью GigaChat Max

Релиз бесплатного портативного фоторедактора для Windows — проекта с открытым исходным кодом PhotoDemon 2024.12

Релиз NWinfo 1.0.5 — открытого портативного инструмента для быстрого просмотра ключевых характеристик ПК на Windows

Microsoft остановила обслуживание Skype Number, пользователи больше не могут покупать кредиты для общения

Google представила открытый проект статического анализатора Vanir для выявления неисправленных уязвимостей

«Яндекс» встроил в «Алису Про» свою самую мощную языковую модель YandexGPT 4 Pro

Noctua опубликовала в открытом доступе чертежи решётки, которая помогает приглушить шум вентилятора БП для ПК

Представлен одноплатный ПК Orange Pi 5 Ultra

Zabbix предупредила о критической уязвимости CVE-2024-42327 в своём решении с открытым исходным кодом для мониторинга

Представлен графический стандарт Vulkan 1.4

В ByteDance подали в суд на стажёра, который «злонамеренно вмешался» в обучение моделей ИИ и саботировал проект

В LinkedIn обсуждают, нужно ли сообщать работодателю, что ходишь на собеседования в другие компании с большей зп

В этом году Apple не выпустит складной iPhone

RetroLLM: расширение возможностей больших языковых моделей для получения точных данных в процессе генерации

Самые яркие астрономические события 2025 года: календарь незабываемых наблюдений

Razer представила Project Arielle — прототип компьютерного кресла с обдувом сидения и спины

Разработчики Delta Force представили обширные планы по развитию шутера: первый сезон стартует уже на следующей неделе

Инсайдер: ремейк Resident Evil Zero находится в активной разработке и может стать временным эксклюзивом Nintendo Switch 2

Inworld AI в партнёрстве с Nvidia и Streamlabs представляет первого в мире AI-помощника для потокового вещания

Сокровище тысячелетий: под водой нашли уникальную находку, которая может заменить ископаемое топливо навсегда

Объявлены номинанты профессиональной игровой премии DICE Awards: Astro Bot, Helldivers 2 и Indiana Jones претендуют на наибольшее количество наград

Реалистично и масштабно: разработчики Kingdom Come: Deliverance 2 показали как будет разворачиваться защита крепости

CES 2025: AMD раскрыла информацию о видеокартах Radeon RX 9070 XT и RX 9070 на RDNA 4

Nvidia представляет автономных игровых персонажей ACE с искусственным интеллектом

Google формирует AI-команду для создания виртуальных миров в играх и обучения роботов

HMD Global официально прекратила выпуск смартфонов Nokia

Weekly: падение биткоина, сделка Backpack и FTX EU, а также риск продажи замороженных криптоактивов Минюстом США

Скоро в WhatsApp вы сможете создать собственного чат-бота с искусственным интеллектом

Целый вид могло стереть с лица Земли лишь одно кораблекрушение – детали удивительной истории

CES 2025: Nvidia представила видеокарты поколения RTX 50, продажи начнутся в январе по цене от $550 до $2000

X-аккаунт Litecoin взломали для продвижения поддельного токена

OnePlus 13R получает первое обновление OxygenOS с некоторыми улучшениями

На CES 2025 показали ноутбук с ионной системой охлаждения Ventiva ICE9

Вышел Firefox 134.0

Python — язык программирования 2024 года по версии рейтинга TIOBE

Мошенники под видом предложения об удаленной работе украли криптоактивы на $2 млн

Необычный запрет в Италии: мэр велел горожанам не болеть

Microsoft планирует инвестировать 3 миллиарда долларов в AI и облачные технологии в Индии

Когда на Земле было скучнее всего – мнение ученых

Представлен карманный мини-компьютер Comet

Представлен автоматизированный мини-сад на питательном тумане

Новые «Blueprints» от Nvidia обещают готовых к использованию AI-агентов

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA