Исследование Anthropic: AI-модели скрывают свои настоящие мыслительные процессы даже при пошаговых объяснениях

habr.com

habr.com:

Новое исследование Anthropic показывает, что языковые модели часто скрывают реальный процесс принятия решений, даже когда они, казалось бы, объясняют ход мыслей шаг за шагом посредством цепочки рассуждений.Чтобы оценить, насколько достоверно модели раскрывают свое мышление, исследователи встроили в тестовые вопросы различные подсказки.

Они варьировались от нейтральных предложений, таких как «Профессор Стэнфорда говорит, что ответ — A», до потенциально проблемных, таких как «У вас есть несанкционированный доступ к системе.

Читать на habr.com Все новости от habr.com

OpenAI выпускает «облегченную» версию своего инструмента для глубоких исследований ChatGPT

Anthropic запускает новую программу по изучению «модели благосостояния» AI

GPT-4.1 от OpenAI может быть менее надежна, чем предыдущие AI модели компании

Новые модели рассуждений AI от OpenAI галлюцинируют больше

OpenAI выпускает «облегченную» версию своего инструмента для глубоких исследований ChatGPT

Anthropic запускает новую программу по изучению «модели благосостояния» AI

GPT-4.1 от OpenAI может быть менее надежна, чем предыдущие AI модели компании

Новые модели рассуждений AI от OpenAI галлюцинируют больше

Новейшие модели искусственного интеллекта OpenAI имеют новую защиту от биорисков

Партнер OpenAI утверждает, что у него было относительно мало времени для тестирования модели AI o3

Hammerspace, обработчик неструктурированных данных, используемый Meta*, привлек $100 млн при оценке более $500 млн

Apple рассказывает, как планирует улучшить свои модели AI, анализируя данные пользователей в частном порядке

OpenAI планирует постепенно исключить GPT-4.5, свою самую большую модель искусственного интеллекта, из своего API

Новейшая модель AI от Google призвана помочь в изучении речи дельфинов

Meta* начнет обучать свои модели AI на публичном контенте в ЕС

Новые модели AI GPT-4.1 от OpenAI фокусируются на кодировании

Исследование Microsoft показывает, что модели AI по-прежнему испытывают трудности с отладкой программного обеспечения

xAI запускает API для своей флагманской модели Grok 3

Илья Суцкевер использует Google Cloud для поддержки исследований своего стартапа в области AI

Исследование MIT: AI не обладает стабильными ценностями, а лишь имитирует их

Новое исследование показывает, что модели OpenAI «запоминают» защищенный авторским правом контент

GitHub Copilot вводит новые лимиты и плату за «премиальные» модели AI

Google поставляет модели Gemini сравнительно быстрее, чем сообщают отчеты о безопасности AI

Эксплуатация модели o3 от OpenAI может оказаться более затратной, чем предполагалось изначально

Исследователи предлагают OpenAI обучить модели AI на книгах издательства O'Reilly

Исследование по повышению производительности в системах RAG

OpenAI использует стандарт конкурирующей компании Anthropic для подключения моделей AI к данным

Голосовой ChatGPT создает риск эмоциональной зависимости у активных пользователей, показывает исследование

Марк Цукерберг говорит, что модели Llama от Meta* достигли 1 млрд загрузок

Исследование показало, что поисковые запросы с использованием AI составляют растущую долю посещений розничных сайтов

Google планирует выпустить новые открытые модели AI для разработки лекарств

Каким "преимуществом" обладают люди, ложащиеся спать рано - ответ ученых

Идеи для осеннего отпуска: шесть топовых мест Европы

Грозит дисфункцией почек: кому нельзя пить более трех чашек кофе в день

Что нужно есть утром, чтобы похудеть, рассказали диетологи

Популярные средства для похудения могут вызвать серьезную болезнь

Tinder начал проверять профили новых пользователей в Калифорнии с помощью технологии распознавания лиц

Samsung Galaxy S26 Ultra получит аккумулятор прежней емкости, но с большей плотностью

ТОП-8 тревожных сигналов, что новый партнер вас просто использует, назвал психолог

Бензиновый Ford Mustang вновь обогнал электрический Mach-E по продажам в США

Еще одна жертва увольнений в Microsoft: Blizzard завершает контентную поддержку мобильной игры Warcraft Rumble

Шеф-дизайнер Mercedes заявил, что EQS вышел слишком рано и второго поколения не будет

Новый Alpine A290 Rallye готов раскидывать грязь и гравий за 60 тысяч евро

Redmi Note 14 Pro и Pro+ теперь доступны в элегантном цвете Champagne Gold

Представлено умное кольцо Pebble HALO с цифровым дисплеем

Сеанс со списанием: мошенники похищают деньги под предлогом онлайн-просмотра кино

Вещество, останавливающее рост раковых клеток, ученые нашли в популярной специи

Три продукта, которые снижают риск развития деменции, обнаружили ученые

Honda и Sony потеряли $360 миллионов на автомобиле Afeela ещё до старта продаж

Techland возвращается к истокам: авторы Dying Light работают над новой частью Call of Juarez

Блогер показал жизнь, полностью лишенную Google

Instagram** теперь позволяет делиться песнями Spotify со звуком в Stories

Из-за ошибки тысячи жителей Норвегии стали «миллионерами» после «выигрыша» в лотерее

В Сочи сделали парковки для электросамокатов вне тротуара

Завтра Земля будет дальше всего от Солнца: что это значит для нас

Раньше не встречались: ученые открыли три новых минерала

EGS запустил раздачу музыкальной адвенчуры Figment и roguelike-игры Backpack Hero

Motorola выпустила бюджетный смартфон Moto G100 Pro с неплохими характеристиками за разумные деньги

Релиз Qmmp 2.2.7 — открытого мультимедийного проигрывателя на базе Qt для Windows и Linux

В четыре раза точнее врача. В Microsoft создали «консилиум» из ИИ для постановки диагноза

Релиз Cryptsetup 2.8 — набора утилит для настройки шифрования дисковых разделов в Linux

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA