Бенчмарк Vals.ai: даже продвинутые AI-агенты ненадежны в финансовом анализе

habr.com

habr.com:

Несмотря на доступ к исследовательским инструментам и высокие затраты на обработку, ведущие языковые модели не справляются со сложными финансовыми задачами.Новый бенчмарк от Vals.ai показывает, что даже самые продвинутые автономные агенты AI остаются ненадежными для финансового анализа.

Самая производительная модель, o3 от OpenAI, достигла точности всего 48,3% — при средней стоимости запроса $3,69.Тест был разработан совместно со Стэнфордской лабораторией и глобальным системно значимым банком.

Читать на habr.com Все новости от habr.com

"Ядовитые" фразы, которые нельзя говорить собеседнику даже в ссоре

Почему нельзя рассказывать о своих планах никому, даже близким, рассказал психолог

Звезда сериала The Last of Us 2 присоединился к работе над Intergalactic: The Heretic Prophet, но подробности держат в секрете даже от актеров

Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров

"Ядовитые" фразы, которые нельзя говорить собеседнику даже в ссоре

Почему нельзя рассказывать о своих планах никому, даже близким, рассказал психолог

Звезда сериала The Last of Us 2 присоединился к работе над Intergalactic: The Heretic Prophet, но подробности держат в секрете даже от актеров

Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров

Galaxy S25 FE засветился в бенчмарке с Exynos 2400e и 8 ГБ ОЗУ

Bytedance запускает Agent TARS — агент автоматизации AI с открытым исходным кодом

Microsoft объединяет силы с Google: новый протокол A2A для совместной работы AI-агентов

ТОП-5 признаков, что ваш кот грустит, даже если выглядит нормально

OnePlus Pad 2 Pro опережает Galaxy Tab S10 Ultra и RedMagic Nova в ранних бенчмарках

Galaxy Buds Core могут получить более мощную батарею, чем даже флагманские Buds 3 Pro

Какие 5 фраз испортят даже самые крепкие отношения, рассказал психолог

The First Berserker: Khazan получит бесплатное обновление с ультрасложными режимами Boss Rush - даже не все разработчики готовы на этот вызов

В Call of Duty: Black Ops 6 все так плохо, что даже Game Pass не помогает удерживать игроков в шутере

Топ-13 надежных автомобилей, которые стоит покупать даже с большим пробегом

Clair Obscur: Expedition 33 возглавила чарт продаж Steam, опередив даже TES IV: Oblivion Remastered.

ТОП-11 профессий, которые разрушают даже самые счастливые браки

Supio, платформа юридического анализа на базе искусственного интеллекта, привлекла $60 млн

В США расследуют проблемы с дворниками у Kia EV9 — они отказываются работать даже при небольшой наледи

Что женщины никогда не прощают мужчинам, даже если сильно любят, рассказал психолог

Инженеры разработали батарейку, способную восстанавливаться, даже если её разрежут пополам

5 вещей, о которых не стоит говорить даже с близкими, назвали психологи

НКЦБФР обновила список «ненадежных» финансовых проектов

Трагические события во 2 эпизоде The Last of Us повлияли даже на начальные титры, которые добавляют не примечательную, но важную деталь

Новый iPhone 16e продается лучше предшественника SE и даже 15 Plus

Почему даже надежные мужчины изменяют - психолог назвал 8 причин

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры

Результаты Llama 4 от Meta* в бенчмарках

Назван чай, который эффективно "чистит" кровь от излишков сахара

Германия требует от Apple и Google удалить DeepSeek из App Store и Google Play

Roblox будет вознаграждать создателей контента за возвращение игроков на платформу

Microsoft Teams получил панель мониторинга работоспособности для администраторов

Секрет долголетия и ясного ума: какое масло врачи советуют употреблять пожилым людям

"Главный предсказатель развода" назвал опытный семейный психолог

Кошмар перфекциониста: эксклюзивные рендеры Nothing Phone (3) показали ассиметричное расположение камер и новый дизайн смартфона

Бутан вошел в топ-3 государств с наибольшим резервом биткоинов

Как старые аккумуляторы от электромобилей становятся микро‑сетями – новый бизнес от Redwood Materials

Первая в Украине карта со шрифтом Брайля - izibank и Mastercard прокачали инклюзию

Анонсирована лимитированная версия Xiaomi 15 Ultra, которая отдает дань уважения классическим камерам Leica

Как простые фразы могут разрушить отношения и оттолкнуть собеседника, предупредил психолог

VK Education запустил онлайн-программу профориентации «IT-дайвинг: медиа» для школьников

Samsung представила самые доступные наушники с шумоподавлением Galaxy Buds Core

Критика не помешала FBC: Firebreak привлечь 1 миллион игроков

Windows не будет прежней: культовый синий “экран смерти” заменен на мрачное черное уведомление

Два продукта, которые могут защитить организм от рака и других опасных болезней

Два продукта, которые больше всего вредят организму, назвал опытный врач

Команда ПСБ высадила сосновую аллею

Хакеры взломали систему управления дамбой в Норвегии и открыли клапан до полного заполнения

Google выпустила бесплатную модель Imagen 4 для перевода текста в картинку

Представлена новая спецификация PNG

WhatsApp теперь сам пересказывает непрочитанные сообщения с помощью ИИ

Ripple заявила о новых поглощениях и модернизации блокчейна XRP Ledger

Xiaomi представила свои первые смарт-очки со встроенным ИИ-помощником, функцией распознавания лиц и электрохромными линзами

Apple обновила правила App Store в ЕС - теперь ещё сложнее и с новыми сборами

Vodafone запускает тарифы FLEXX: безлимит в Украине и ЕС по цене от 200 гривен (если бежать с другого оператора)

Обзорный трейлер Pragmata раскрыл подробности геймплея и пролил свет на завязку сюжета необычного экшена

На форуме War Thunder снова слили секретные файлы. На этот раз опубликовали руководство по эксплуатации AV-8B Harrier

Производители ПК обманывали строки авторских прав в BIOS для получения полных версий пробного ПО

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA