Opus 4.7 галлюцинирует в два раза реже Opus 4.6 — при той же точности
Независимый бенчмарк AA-Omniscience зафиксировал у новой Claude Opus 4.7 почти двукратное снижение галлюцинаций — когда у модели нет ответа на вопрос, она выдумывает его в 32% случаев, а в остальных говорит "не знаю".
У Opus 4.6 этот показатель составлял 61%. Точность ответов на сложные вопросы при этом осталась на прежнем уровне, около 46%.
habr.com