Сможем ли мы контролировать GPT-7? OpenAI измерили «наблюдаемость» цепочки рассуждений ИИ
Модели становятся умнее, а вопрос контроля над ними — острее. Как масштабировать надзор, когда способности ИИ растут быстрее, чем инструменты проверки?
OpenAI опубликовала исследование, в котором предлагает конкретный подход: измерять "наблюдаемость" цепочки рассуждений — того внутреннего текста, который модель генерирует перед финальным ответом.
habr.com