runawayllm происшествия люди экономика общество google gemini runawayllm

OpenAI, Google и Anthropic предупредили, что мы скоро можем перестать понимать рассуждения ИИ

Коллектив специалистов ведущих ИИ-компаний (более 50 участников, работают в OpenAI, Google DeepMind, Anthropic, Apollo Research и т.д.) опубликовал исследование, предупреждающее о том, что цепочки рассуждений сложных языковых моделей скоро могут стать непонятными для экспертов по безопасности. "Рассуждающие" модели вроде ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1 описывают процесс своей работы на понятном языке в блоке chain-of-thought (цепочка рассуждений, не всегда раскрывается для пользователей, но доступна исследователям - прим.

авт.) Анализ рассуждений позволяет понять логику работы модели, а также заметить нарушения безопасности — ИИ может написать, что собирается схитрить, чтобы достигнуть поставленной цели.Ведущие компании улучшают модели с помощью обучения с подкреплением, в котором ИИ стремится любыми способами выполнить задачу.

DMCA