Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах

habr.com

habr.com:

Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев.

При более длительном диалоге производительность падает до 35%.CRMArena-Pro предназначена для тестирования того, насколько хорошо большие языковые модели (LLM) могут работать в качестве агентов в реальных бизнес-условиях, особенно при выполнении таких задач CRM, как продажи, обслуживание клиентов и ценообразование.

Читать на habr.com Все новости от habr.com

Google запускает Veo 3 Fast в 159 странах, теперь пользователи Gemini Pro могут создавать видео в разрешении до 720p

Еще немного рендеров: инсайдер показал, как будут выглядеть флагманские iPhone 17 Pro и Pro Max

Redmi Note 14 Pro и Pro+ теперь доступны в элегантном цвете Champagne Gold

Раскрыты характеристики Google Pixel 10 Pro и Pixel 10 Pro XL

Google запускает Veo 3 Fast в 159 странах, теперь пользователи Gemini Pro могут создавать видео в разрешении до 720p

Еще немного рендеров: инсайдер показал, как будут выглядеть флагманские iPhone 17 Pro и Pro Max

Redmi Note 14 Pro и Pro+ теперь доступны в элегантном цвете Champagne Gold

Раскрыты характеристики Google Pixel 10 Pro и Pixel 10 Pro XL

Google Pixel 10 Pro и Pro XL получат большие батареи и более яркие дисплеи - первые утечки

Microsoft представила агента с искусственным интеллектом в меню настроек Windows

Google передает протокол Agent2Agent в Linux Foundation для создания открытого стандарта ИИ-агентов

Простой 30-секундный тест раскроет истинный характер человека - что подсказали психологи

Прилетел кометой: закрытый тест ИИ-браузера Perplexity Comet стартовал на Windows

Представлен Tuxedo Nano Pro — Gen14: мощный мини-PC с Linux, Ryzen AI 7 350 и огромным количеством портов

Сообщается, что разногласия в отношениях между OpenAI и Microsoft усиливаются

Исследование способности языковых моделей к логическим рассуждениям — тест RELIC

Скам-тест: мошенники приглашают тестировщиков приложений, взламывают их устройства и похищают деньги

AMD представила процессоры Ryzen Threadripper PRO 9000 и графику Radeon AI PRO 9000 для профессиональных задач, работы с ИИ и большими массивами данных

Тест Google превращает результаты поиска в подкаст

Названы 12 особенностей, которые получат смартфоны iPhone 17 Pro и 17 Pro Max

Google добавила в подписку Gemini Pro модель генерации видео Veo 3 Fast

Стал известен результат тестирования в Geekbench 6 процессора A19 Pro для iPhone 17 Pro и Pro Max

Любимый цвет расскажет о вашем эмоциональном состоянии и характере - психологический тест

Отличная опция, которой мало кто воспользуется: гарнитуры Apple Vision Pro получат совместимость с контроллерами от PS VR2

ChatGPT Pro (200 $) получит o3 Pro вместо o1 Pro — апдейт уже на подходе

Тест на долголетие: как узнать, есть ли шанс дожить до 100 лет

Платформа Alex Protocol потеряла $8,3 млн из-за эксплойта

Инсайдер: топовые экраны ProMotion получат флагманские 17 Pro и 17 Pro Max

Apple прекратит поддержку MacBook Pro 2018, iMac Pro, Mac mini 2018 и MacBook Air 2020 (Intel) после выхода macOS 26

Проектор Govee Galaxy Light Projector 2 Pro вскоре появится на рынке

Новую причину постоянного плача младенцев определили ученые

Amazon подтвердила закрытие приложения Freevee в августе

Как быстро заснуть, если не спится - метод "4-7-8", который рекомендуют эксперты

Что будет с организмом, если каждый день выпивать бокал шампанского

Почему не стоит пить кофе сразу после еды - ответ экспертов

Врачи сообщили, что поможет снять боль в спине и плечах

Galaxy Fold 5 получил первую тестовую прошивку с Android 16

Realme 15 Pro появился на изображениях до официального анонса

Xiaomi выпустила обновление для Smart Band 10 с новыми функциями

В Windows 11 25H2 можно будет удалять системные приложения

Эту коллаборацию ждали долго: в онлайн-хорроре Dead by Daylight пройдет кроссовер с франшизой The Walking Dead

Samsung не успела сохранить тайну: полные спецификации Fold 7, Flip 7 и Flip 7 FE слиты в сеть

Новый интерфейс «мозг-компьютер» превращает мысли в слова

Новые правила для электросамокатов в Петербурге

Bitchat от Джека Дорси — мессенджер без интернета: Bluetooth‑сеть, шифрование и децентрализация

Людям с какой группой крови лучше не пить алкоголь, рассказали врачи

Флагманы Samsung обойдутся дорого: инсайдер раскрыл стоимость и дату продаж складных смартфонов Galaxy Z Fold 7, Z Flip 7 и Z Flip 7 FE

М.Видео-Эльдорадо: Valve впервые обогнала Microsoft на рынке консолей в РФ в I квартале 2025 года

Эффективное управление данными с ИИ-агентами

Blizzard прекращает выпуск нового контента для мобильной игры по Warcraft

«Ростелеком» представил решение на базе ИИ-сервиса для селекционно-генетического планирования в животноводстве

В работе сервисов VK произошёл сбой

Nintendo заблокировала порт USB-C Switch 2 через схему шифрования, предотвращая совместимость со сторонними док-станциям

Названы смартфоны с самыми лучшими камерами в 2025-ом году

Windows 11 впервые обогнала Windows 10 по популярности

Пять доступных продуктов для похудения, которые "работают" лучше препаратов

Ремастер культового 3D-платформера Croc: Legend of the Gobbos скоро появится в Steam

«Реанимация» NVIDIA RTX 5090 с треснувшей платой — когда «пациент» этого стоит, а «операция» выявляет скрытые недостатки

Самый выносливый Jeep Compass готов к тому, что в салоне будет много грязи

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA