Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше
Вчера Anthropic представила Claude Opus 4.8, сделав честность центральной темой анонса: заявляется, что модель теперь в 4-5 раз чаще признает, что выдала некачественный ответ.
Но в системной карте на 244 страницы видна и цена этой честности. На бенчмарке Vending-Bench 2, где модель в симуляции год управляет вендинговым бизнесом, Opus 4.8 заработал примерно $3 000–5 800 против $8 000–11 000 у предшественника Opus 4.7.
habr.com