Чем дольше ИИ думает — тем больше несет чушь: исследование Anthropic

habr.com

habr.com:

Современные модели специально обучают рассуждать длинными цепочками — предполагается, что это улучшает качество ответов. Однако исследование от Anthropic, EPFL и Эдинбургского университета, представленное на ICLR 2026, показало обратное: чем дольше модель "думает", тем менее стабильными становятся ее ответы.Тестировали Claude Sonnet 4, o3-mini, o4-mini и семейство Qwen3 на научных вопросах уровня аспирантуры, реальных багах из GitHub и вопросах про самосохранение ИИ.

Модели давали одну и ту же задачу 30 раз и смотрели, ошибается ли она одинаково или каждый раз по-разному. Для этого ввели метрику "некогерентности" (incoherence): если модель на один и тот же вопрос отвечает то A, то B, то C — некогерентность высокая.

Читать на habr.com Все новости от habr.com

Новый DeepSeek Moment: как Anthropic обрушила акции кибербезопасности

За использование Claude в OpenClaw забанят? Anthropic обновила правила использования и всех запутала

«Может, стоит остановиться»: репортаж изнутри Anthropic

Альтернатива GPU для ИИ? Нейроморфный чип справился с математикой суперкомпьютеров

Новый DeepSeek Moment: как Anthropic обрушила акции кибербезопасности

За использование Claude в OpenClaw забанят? Anthropic обновила правила использования и всех запутала

«Может, стоит остановиться»: репортаж изнутри Anthropic

Альтернатива GPU для ИИ? Нейроморфный чип справился с математикой суперкомпьютеров

«Мы не знаем, сознателен ли ИИ»: глава Anthropic — о конституции для Claude

Anthropic и OpenAI вступили в политическую войну за регулирование ИИ

«Мы у конца экспоненты»: глава Anthropic — о пике развития ИИ и триллионных ставках

Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов

ИИ ускоряет работу, но задач становится больше: парадоксальное исследование UC Berkeley

Спотовая цена DRAM выросла на 600%, и это ломает правила: почему на рынке памяти говорят о «суперцикле»

Claude Opus 4.6 возглавил рейтинг ИИ-дизайна. Всего модели Anthropic держат 3 места в топ-5

Anthropic ускорила Claude Opus 4.6 в 2,5 раза. Но по более высокой цене

BigTech потратит на ИИ $650 млрд — больше ВВП Швейцарии

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках

$555 тыс. за безопасность AGI: OpenAI нанял эксперта из Anthropic

«Авторитарная компания не создаст AGI»: Альтман раскритиковал Anthropic за рекламу на Super Bowl

Anthropic отказалась от рекламы в Claude: «Это конфликт интересов»

ИИ помогает писать код, но мешает учиться — эксперимент Anthropic

«Впереди испытание для всего человечества»: о 5 рисках ИИ в эссе сооснователя Anthropic

«50% джуниоров потеряют работу за 5 лет»: прогноз CEO Anthropic

Claude Opus 4.5 обошел людей в тестовом задании Anthropic — теперь попробовать может каждый

Голоса в голове делают ответы ИИ лучше — исследование Google

Почему ионные квантовые компьютеры не масштабируются? MIT убрал одно из препятствий

Демис Хассабис сравнил ИИ-подходы США и Китая: «Изобрести в 100 раз сложнее, чем скопировать»

Anthropic хотела $10 млрд, а получит $25 млрд благодаря инвестициям Sequoia

ИИ-кластер xAI Colossus 2 потребляет 1 ГВт мощности — больше, чем Сан-Франциско

ИИ забирает квалифицированную работу, оставляя людям рутину: парадокс исследования Anthropic

Lenovo представила Yoga 9i 2-in-1 Aura Edition 11-го поколения на MWC 2026

Razer представила чехол для ноутбуков Laptop Sleeve 16" с модулями беспроводной зарядки

7000 лет под водой: крупное открытие доисторического оружия

Microsoft расширила возможности восстановления Windows для большего числа корпоративных устройств

Casio представила цифровые часы W-221H-1BV с автономностью до 10 лет

Какие морепродукты нельзя употреблять в пищу - ответ экспертов

С какими продуктами нельзя пить кофе - ответ врачей

Lenovo обновила серию ThinkPad на MWC 2026: T14 Gen 7, T16 Gen 5 и X13 Detachable с Intel Core Ultra

Пять фруктов с наибольшим содержанием антиоксидантов

Samsung к 2030 году преобразует свое производство в AI-управляемые фабрики

Открыт новый набор на авторизованный курс по СУБД Tantor Postgres

Представлен смартфон Honor Magic V6 в форм-факторе «книжка»

Как употребление сладостей на ночь влияет на артериальное давление

Продавцы на Amazon стали завышать объём хранилищ ноутбуков с Windows за счёт OneDrive

Samsung пересматривает способ интеграции стилуса S Pen

Вышла интегрированная среда разработки Apache NetBeans 29

Больше, чем кажется: сколько усов на самом деле у кошки

В Samsung рассказали о проблемах с Galaxy S25 Edge

Приближается парад планет: почему Юпитер займет центральное место

Amazon инвестирует $50 млрд в OpenAI на фоне партнерства

BenQ выпустила четыре короткофокусных проектора

Студенты из Нидерландов представили Clura — корпус для Bambu Lab A1 и других открытых 3D-принтеров

Дорси почти вдвое сократил штат Block

Жизнь могла начаться с липкой слизи — задолго до появления клеток

Реально ли выиграть от ИИ, никого не уволив? Morningstar спорит с трендом 2026 года

Razer выпустила чехол для ноутбука с беспроводной зарядкой

Роскомнадзор направил в Telegram требования об удалении более 35,6 тыс. противоправных материалов с начала 2026 года

Вышел ONLYOFFICE DocumentServer 9.3.0

Как бессонница связана с работой мозга - исследование

LLM-агент уничтожает анонимность в интернете: почему переписать текст другим стилем не поможет

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA