Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги
Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене, что и предыдущая версия: $5 за миллион входных токенов и $25 за миллион выходных.
Сама компания называет релиз "скромным, но ощутимым улучшением Opus 4.7". Главная особенность касается не бенчмарков, а честности: по внутренним замерам Opus 4.8 примерно в 4 раза реже предыдущей версии оставляет незамеченными ошибки в коде, который сам же и написал.За этим стоит общая болезнь больших языковых моделей, которую Anthropic описывает прямым текстом: модели склонны делать поспешные выводы и уверенно докладывать об успехе, когда доказательств на самом деле мало.
«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой
habr.com