OpenAI, Google и Anthropic предупредили, что мы скоро можем перестать понимать рассуждения ИИ

habr.com

habr.com:

Коллектив специалистов ведущих ИИ-компаний (более 50 участников, работают в OpenAI, Google DeepMind, Anthropic, Apollo Research и т.д.) опубликовал исследование, предупреждающее о том, что цепочки рассуждений сложных языковых моделей скоро могут стать непонятными для экспертов по безопасности. "Рассуждающие" модели вроде ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1 описывают процесс своей работы на понятном языке в блоке chain-of-thought (цепочка рассуждений, не всегда раскрывается для пользователей, но доступна исследователям - прим.

авт.) Анализ рассуждений позволяет понять логику работы модели, а также заметить нарушения безопасности — ИИ может написать, что собирается схитрить, чтобы достигнуть поставленной цели.Ведущие компании улучшают модели с помощью обучения с подкреплением, в котором ИИ стремится любыми способами выполнить задачу.

Читать на habr.com Все новости от habr.com

GPT-5 представят 7 августа в 20:00 — OpenAI

OpenAI выпустила модель с открытыми весами, которая почти не уступает o3

Google представила Genie 3 — модель мира с впечатляющими характеристиками

Работу модуля OpenAI для борьбы с «галлюцинациями» описали в деталях

GPT-5 представят 7 августа в 20:00 — OpenAI

OpenAI выпустила модель с открытыми весами, которая почти не уступает o3

Работу модуля OpenAI для борьбы с «галлюцинациями» описали в деталях

Глава OpenAI пообещал «множество запусков» в следующие два месяца

В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера

Сотрудники OpenAI использовали ИИ Claude для программирования. В Anthropic уже закрыли доступ

Лучше GPT o3 и Grok 4. Google выпустила Gemini 2.5 Deep Think

OpenAI отключила возможность индексации чатов с ChatGPT в Google

Как ИИ OpenAI взял «золото» Международной математической олимпиады

Microsoft ведёт переговоры о сохранении доступа к технологиям OpenAI после достижения рубежа AGI

Google добавила ИИ-видеопересказы в NotebookLM

С 28 августа Anthropic введет дополнительные еженедельные лимиты на планах Claude Pro и Max

На 16% меньше ошибочных диагнозов. OpenAI испытала ИИ-ассистента врача

Глава OpenAI предупредил о рисках использования ChatGPT в качестве психотерапевта

Глава Google DeepMind: у AGI 50% шанс появиться к 2030 году

ИИ от Google взял золото Международной математической олимпиады. Meta* уже переманила его разработчиков

Устройства Google Home и Nest со временем перестают понимать команды

США могут проиграть Китаю в ИИ-гонке. Anthropic предлагают, как этого избежать

ИИ от Google также взял золотую медаль Международной математической олимпиады — в отличие от OpenAI, официально

К концу года OpenAI будет обучать ИИ на миллионе GPU — Сэм Альтман

Новый ИИ от OpenAI достиг уровня золотой медали Международной математической олимпиады 2025

Лишь один человек обошел ИИ от OpenAI на престижных соревнованиях по программированию

Сэм Альтман предупредил пользователей ChatGPT Agent о возможных проблемах с безопасностью

В Grok добавили аниме-компаньоншу — пользователи шутят, что «AGI наступил»

50% кода в Google создается при помощи ИИ

OpenAI может выпустить модель с открытыми весами уже на следующей неделе — The Verge

Ускорение в несколько лет. В Google готовятся к испытаниям лекарств, разработанных ИИ

Что мужчины никогда не прощают женщинам, предупредил психолог

Популярные авиакомпании объявили запрет на пауэрбанки на своих рейсах

РосНОУ повысил свои позиции в рейтинге вузов-лидеров ИИ

Asus выпустила ноутбуки Vivobook S16 и Chromebook CX15

Уникальные свойства помидоров, о которых стоит знать всем

В какие деревья чаще всего попадает молния, выяснили ученые

CarPlay и Android Auto сбоит в одних и тех же местах? Причина может удивить

Weekly: дело Романа Шторма, выход Seeker от Solana Mobile, «красные линии» НБУ и Chat GPT-5

Как выглядел первый и последний ноутбук СССР

Операторы связи начали блокировать все СМС из-за закона о спаме

Землю продолжает штормить: 10 августа магнитные бури могут усилиться

Популярная детская вещь, которую опасно брать в отпуск

10 динамичных крафтовых пивоварен

Постройте свой Ад: анонсирована примечательная градостроительная стратегия The Hell

Непредставленный стилус Google массово поступил в продажу

Как влияет на сердце большое количество шоколада

Сеть Base отметила вторую годовщину с TVL в почти $4,5 млрд

Kuxiu M30: новая магнитная зарядка для iPad, которую Apple ещё не сделала

Время освежиться: Seiko выпустит часы в стиле Pepsi

Sony показала преимущества кусаригамы в новом трейлере Ghost of Yōtei

Huawei готовит складной планшет с новым процессором Kirin

Названы лучшие компактные смартфоны для покупки в 2025 году

Мировые поставки планшетов во втором квартале выросли на 13%

ИИ "приделал" человеку новую часть тела - исследование врачей

Утечка: релиз долгожданной экшен-RPG Vampire: The Masquerade — Bloodlines 2 состоится 21 октября

Бо Хайнс сообщил об отставке и возвращении в бизнес

В Калифорнии задержали двух китайцев, подозреваемых в контрабанде ускорителей Nvidia на десятки миллионов долларов

С 9 августа в ночном небе можно будет наблюдать редкое явление - парад 6 планет

Xiaomi выпустила Smart Camera 4C 3.5K - камеру видеонаблюдения с AI

Китайский разработчик искусственного интеллекта перешел с процессоров Nvidia на Huawei

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA