Opus 4.7 галлюцинирует в два раза реже Opus 4.6 — при той же точности

habr.com

habr.com:

Независимый бенчмарк AA-Omniscience зафиксировал у новой Claude Opus 4.7 почти двукратное снижение галлюцинаций — когда у модели нет ответа на вопрос, она выдумывает его в 32% случаев, а в остальных говорит "не знаю".

У Opus 4.6 этот показатель составлял 61%. Точность ответов на сложные вопросы при этом осталась на прежнем уровне, около 46%.

Читать на habr.com Все новости от habr.com

Anthropic арендует Colossus у xAI: лимиты Claude Code удваиваются

Рекурсия по городу: CTF-приключение для разработчиков

Совет директоров «Яндекса» одобрил обратный выкуп акций на 50 млрд рублей. Программа рассчитана на два года

Как пожарить яйца как в ресторане – два секретных способа

Anthropic арендует Colossus у xAI: лимиты Claude Code удваиваются

Рекурсия по городу: CTF-приключение для разработчиков

Совет директоров «Яндекса» одобрил обратный выкуп акций на 50 млрд рублей. Программа рассчитана на два года

Как пожарить яйца как в ресторане – два секретных способа

Мечта геймера: новый монитор LG серии UltraGear поддерживает два режима работы и может виртуально уменьшать экран

Rivian затягивает пояса: завод в Джорджии «похудел» на два миллиарда долларов

Кошки едят не раз-два в день — раскрыт их реальный ритм

Боль при артрите — два фрукта могут усиливать симптомы

Samsung получила 16 наград Red Dot 2026, включая два высших приза

В Steam появились ещё два коллекционера с 40 000+ игр в библиотеках

Google анонсировала TPU 8: два ускорителя вместо одного — для обучения и ИИ-агентов

Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

GPT-5.4 и Opus 4.6 воспроизвели находки закрытой модели Mythos от Anthropic

Официально: Assassinʼs Creed Black Flag Resynced представят 23 апреля — Ubisoft приглашает на мировую премьеру

Очередной триумф Capcom: всего за два дня продажи Pragmata превысили миллион копий

В Roblox появятся два вида аккаунтов для детей — Roblox Kids и Roblox Select

Два симптома в ногах, которые предупреждают о серьезной болезни печени

Claude Opus 4.7 может выйти на этой неделе — а акции Figma уже упали на 6%

Тренажёр подготовки к ЕГЭ заработал на «Госуслугах», пока там два предмета: математика базового уровня и информатика

В IT-инфраструктуре Discourse при резервном копирования сайта один GIF-файл скопировался 246 173 раза

Siri идет на переподготовку: Apple заставляет разработчиков обучать ИИ за два месяца до релиза

Два устройства в одном корпусе: Honor MouseBuds Pro

В GitHub Copilot CLI вышел инструмент «второго мнения» от ИИ при написании кода

Режим “Советник”: связка Sonnet+Opus делает модели умнее, не поднимая цену

Последняя шутка принца Филиппа – что муж королевы сказал перед смертью

Разработчик Amazon выявил регрессию в тестовом ядре Linux 7.0, в два раза снижающую производительность PostgreSQL

Ученые обнародовали причины гибели "Титаника", о которых мало кто знает (фото)

Вышла Unix-подобная операционная система ToaruOS 2.3

Критическая уязвимость DirtyFrag в Linux позволяет получить root-доступ

Сколько на самом деле хранится сырая курица в холодильнике

Xiaomi 17 пытается догнать iPhone 17: цифры, которые снимают розовые очки

Релиз открытого каталогизатора домашней библиотеки MyLibrary 5.0

Прощай, ветер в голове: BMW официально прекратила производство родстера Z4

Logitech готовит ультракомпактную складную мышь — инсайдер показал ее официальные рендеры

От Angry Birds до Silent Hill: избраны новые легенды Международного зала славы видеоигр

Врач умерла на полчаса и предсказала трагедию, которая сбылась

Не предадут даже в сложные времена: какие знаки Зодиака самые верные

Пять скрытых проблем, которые жесткая вода вызывает в доме

Porsche сворачивает бизнес электровелосипедов, увольняя сотни сотрудников

Weekly: рост биткоина, «суперцикл» мемкоинов впереди, новая волна криптовзломов и тревожный сигнал от МВФ

Alibaba слила секрет Samsung: на платформе обнаружены защитные чехлы для широкоформатного складного флагмана Galaxy Z Fold8 Wide

Хуже курения — самые опасные продукты для сердца назвал кардиолог

Meta* с помощью ИИ-сканирования будет выявлять аккаунты детей в Facebook** и Instagram**

“Европейская альтернатива Unreal Engine” — ветеран Epic Games и Guerrilla Games работает над инновационным игровым движком

Anthropic снял compute у SpaceX. И заодно удвоил лимиты Claude Code

Конец независимости DeepSeek: лаборатория Ляна Вэньфэна идет за деньгами

CEO Strategy назвал условия продажи биткоинов компанией

Рекорды Евровидения, которые никогда не будут побиты

Новое открытие о схожести Земли с Марсом совершили ученые

Какая рыба самая полезная - ответ диетологов

Ктулху не спас Big Bad Wolf: Nacon собирается закрыть еще одну студию

Porsche сворачивает разработку e-bike систем и закрывает предприятия в Германии и Хорватии

Приглашаем послушать, как ИИ троллит техногигантов

Nothing подготовила новый цвет для наушников Ear (open) — синий вариант выходит 11 мая

«Аэрофлот» изменил правила провоза пауэрбанков на своих рейсах

Claude теперь «видит сны»: Anthropic выкатила режим dreaming для ИИ-агентов

Надо ли выключать телевизор из розетки: ответ однозначен

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA