runawayllm Калибр медицина общество интересное google gemini runawayllm Калибр

Opus 4.7 галлюцинирует в два раза реже Opus 4.6 — при той же точности

Независимый бенчмарк AA-Omniscience зафиксировал у новой Claude Opus 4.7 почти двукратное снижение галлюцинаций — когда у модели нет ответа на вопрос, она выдумывает его в 32% случаев, а в остальных говорит "не знаю".

У Opus 4.6 этот показатель составлял 61%. Точность ответов на сложные вопросы при этом осталась на прежнем уровне, около 46%.

DMCA