Модели ИИ могут определять, когда их тестируют, и вести себя по-другому

habr.com

habr.com:

Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.Исследователи называют это «осознанием оценки».

Когда модель понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.Команда проанализировала 1000 расшифровок из 61 набора данных, охватывающих весь спектр: от простых диалогов в чате до сложного использования инструментов для агентов.

Читать на habr.com Все новости от habr.com

Google представляет новую модель Gemini, которая может работать на локальных роботах

Новый эксперимент с Othello подтверждает гипотезу о модели мира для больших языковых моделей

YouTube встраивает модель Veo 3 для создания видеороликов прямо в Shorts

OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам

Новый эксперимент с Othello подтверждает гипотезу о модели мира для больших языковых моделей

Google представляет новую модель Gemini, которая может работать на локальных роботах

YouTube встраивает модель Veo 3 для создания видеороликов прямо в Shorts

OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам

В AI Mode от Google теперь можно вести двусторонний голосовой диалог

ИИ-модель Google Gemini «запаниковала», играя в Pokémon

Gemini 2.5 Flash-Lite — самая быстрая и экономичная модель в линейке Gemini от Google

Исследование способности языковых моделей к логическим рассуждениям — тест RELIC

Rednote выпускает свою первую языковую модель с открытым исходным кодом и архитектурой Mixture-of-Experts

Исследователи Anthropic обучают языковые модели самосовершенствованию

Новый метод адаптирует языковые модели без обучения

Новые тесты Apple показывают, что её ИИ-модели всё ещё отстают от лидеров рынка

«Известия»: российские компании начали инвестировать в генеративные нейросети

Модель V-JEPA 2 от Meta* учит ИИ понимать окружающую среду

Смогут ли Scale AI и Александр Ван возродить усилия Meta* в области ИИ?

Модель Google Gemini 2.5 Pro превосходит модель OpenAI o3 в обработке сложных и длинных текстов

ИИ-модель NVIDIA cBottle может моделировать климат Земли с разрешением в километр

Mistral представляет первую в Европе модель Magistral — провал среди конкурентов?

Золотая лихорадка в сфере оборонных технологий реальна: новые правительственные ИИ-модели от Anthropic

Anthropic ограничивает доступ к моделям Claude 3.x из-за планов OpenAI приобрести Windsurf

Руководители технологических компаний используют ИИ, чтобы заменить себя на конференциях

Meta* запускает программу, призванную стимулировать стартапы к использованию моделей ИИ Llama

Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются отключить её

Как модель ИИ Anthropic Claude Opus 4 выражает себя через эмодзи

OpenAI обновляет модель искусственного интеллекта, на которой работает агент Operator

Sakana AI исследует мышление, основанное на времени, с помощью модели ИИ, имитирующей мозг

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Почему не стоит пить кофе сразу после еды - ответ экспертов

Врачи сообщили, что поможет снять боль в спине и плечах

Galaxy Fold 5 получил первую тестовую прошивку с Android 16

Realme 15 Pro появился на изображениях до официального анонса

Xiaomi выпустила обновление для Smart Band 10 с новыми функциями

В Windows 11 25H2 можно будет удалять системные приложения

Эту коллаборацию ждали долго: в онлайн-хорроре Dead by Daylight пройдет кроссовер с франшизой The Walking Dead

Samsung не успела сохранить тайну: полные спецификации Fold 7, Flip 7 и Flip 7 FE слиты в сеть

Новый интерфейс «мозг-компьютер» превращает мысли в слова

Новые правила для электросамокатов в Петербурге

Bitchat от Джека Дорси — мессенджер без интернета: Bluetooth‑сеть, шифрование и децентрализация

Людям с какой группой крови лучше не пить алкоголь, рассказали врачи

Флагманы Samsung обойдутся дорого: инсайдер раскрыл стоимость и дату продаж складных смартфонов Galaxy Z Fold 7, Z Flip 7 и Z Flip 7 FE

М.Видео-Эльдорадо: Valve впервые обогнала Microsoft на рынке консолей в РФ в I квартале 2025 года

Эффективное управление данными с ИИ-агентами

«Ростелеком» представил решение на базе ИИ-сервиса для селекционно-генетического планирования в животноводстве

В работе сервисов VK произошёл сбой

Blizzard прекращает выпуск нового контента для мобильной игры по Warcraft

Nintendo заблокировала порт USB-C Switch 2 через схему шифрования, предотвращая совместимость со сторонними док-станциям

Названы смартфоны с самыми лучшими камерами в 2025-ом году

Windows 11 впервые обогнала Windows 10 по популярности

Пять доступных продуктов для похудения, которые "работают" лучше препаратов

Ремастер культового 3D-платформера Croc: Legend of the Gobbos скоро появится в Steam

«Реанимация» NVIDIA RTX 5090 с треснувшей платой — когда «пациент» этого стоит, а «операция» выявляет скрытые недостатки

Самый выносливый Jeep Compass готов к тому, что в салоне будет много грязи

Porsche Cayenne Electric ставит рекорды не дожидаясь начала продаж

Google, ты что делаешь? Пользователи смартфонов Pixel жалуются на проблемы, которые появились после установки Android 16

"Растворяют" тромбы и укрепляют сосуды - какие продукты должны быть в рационе

В Geekbench протестирован глобальный смартфон Samsung Galaxy Z Flip 7 FE

Гибкая OLED-панель сделает среднебюджетный смартфоне Galaxy S25 FE значительно тоньше модели 2024 года

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2025. Все права защищены.

DMCA