Grok 4 и GPT-5 стали лучшими в финансовом бенчмарке. Но люди пока впереди

habr.com

habr.com:

Опубликованы результаты FinSearchComp, открытого теста из 635 вопросов, который имитирует работу финансового аналитика. Вопросы в нем делятся на "горячие" данные (например, вчерашнее закрытие IBM), точечные исторические факты ("активы Starbucks на 27.09.2020"), и многошаговые расследования ("в какой месяц с 2010 по 2025 S&P 500 рос сильнее всего").

Далее эти категории обозначим как T1, T2 и T3.Вопросы делятся на два набора — глобальный и "Великий Китай". Профессиональные аналитики набирают на глобальном наборе в среднем 75.0% (T1 100.0%, T2 73.3%, T3 51.4%), на китайском наборе — 88.3% (T1 100.0%, T2 88.1%, T3 76.7%).

Читать на habr.com Все новости от habr.com

Вышел Grok Imagine v0.9 — бесплатный ИИ для создания видео

Kling 2 Turbo стал лучшим ИИ для создания видео по версии Artificial Analysis

xAI Илона Маска предоставила федеральному правительству США чат-бот Grok за ¢42

xAI подала в суд на OpenAI: «украли секреты Grok и строительства дата-центров»

Вышел Grok Imagine v0.9 — бесплатный ИИ для создания видео

Kling 2 Turbo стал лучшим ИИ для создания видео по версии Artificial Analysis

xAI подала в суд на OpenAI: «украли секреты Grok и строительства дата-центров»

Глава Пентагона срочно собирает сотни генералов со всего мира - стали известны причины

Волк, Заяц и Карлсон стали киборгами: новая серия конструкторов Brick Labs

Флагманский Google Pixel 10 Pro XL возглавил рейтинг смартфонов с лучшими дисплеями по версии DxOMark

Ссылки для загрузки ISO-образов Windows 11 25H2 стали доступны до официального релиза

xAI выпустила Grok 4 Fast: бесплатная модель с контекстом до 2M токенов

Разработчики Grok 4 привлекли 10 миллиардов долларов. Теперь xAI стоит $200 млрд

Контекстное окно в 1M токенов. Новый Grok для программирования выйдет на следующей неделе

OpenAI ускорила работу ChatGPT. Но не все пользователи довольны

Стали известны цены Xiaomi 15T, 15T Pro и Redmi Pad 2 Pro

Илон Маск теперь считает, что Grok 5 может достичь AGI. Но что убедило его в этом?

Grok 4 Fast от xAI: сверхбыстрый и дешёвый конкурент GPT-5 и Claude Opus

EvaProject и EvaWiki стали основой проектной и информационной среды СПб ИАЦ

Стали известны новые результаты Xiaomi 17 Pro в Geekbench - ситуация существенно изменилась

Исследование: из-за использования ChatGPT резюме стали чаще «исчезать в пустоте»

Маск уволил около 500 сотрудников, которые работали над ИИ-ассистентом Grok: что известно о причине

Grok Code Fast 1 занял первое место по использованию на OpenRouter

Теперь Grok 2.5 можно запускать локально

Grok 4.20 готовится к выходу? Две анонимных ИИ-модели появились на OpenRouter

Grok 4 обошел GPT-5-Pro и Gemini 2.5 в прогнозах будущих событий

Студенты СПбГУ стали победителями ICPC 2025

МВД РФ: мошенники стали просить российских пользователей перейти в мессенджеры с хорошей связью

Лучшие гаджеты IFA 2025: что показали на выставке в Берлине

Grok Code Fast 1 стала самой используемой моделью на OpenRouter

DistroWatch: антивирусные сканеры стали чаще помечать ISO-образы с дистрибутивами Linux как вредоносное ПО

Почему утром болит голова – медики назвали главные причины

BitLocker может необратимо зашифровать данные при переустановке Windows 11

Toyota представила концепт электромобиля для подростков FT-Me

Apple работает над складным смартфоном формата Flip

AT&T повышает цены на домашний интернет в США второй год подряд

VW поставил на паузу производство ID Buzz и Multivan из-за слабого спроса

Atari возрождает Intellivision с классическими Boulder Dash и Astrosmash

Хидео Кодзима назвал ИИ «другом», а не угрозой творчеству в разработке игр

Внедорожник премиального бренда Chery пересёк крупнейшую реку Китая

Fiat Tipo уйдет на пенсию, чтобы освободить место кроссоверу

Chrome в панике! OpenAI представила ChatGPT Atlas — ИИ-браузер с памятью, агентами и встроенным ассистентом

Самый тяжелый чехол для смартфона в мире — 2,7 кг железа и выступы, чтобы защитить экран

В Индонезии появился iQOO Z10R, но это совсем другая модель, чем та, которая продается в Индии под тем же названием

Подлинность редких и дорогих моделей Casio G-Shock невозможно подтвердить

Почему опасно спать рядом с котом - известный врач предупредил о последствиях

Флагманский Poco F8 Ultra прошел сертификацию и скоро будет анонсирован

Porsche представила первый полностью электрический Macan GTS

Google предоставила разработчикам в API Gemini данные из «Карт»

Исследователи построили поглощающий углекислый газ 3D-печатный мост

Как ведет себя женщина, если любит по-настоящему – три главных признака

Блюдо, которые эффективно очищает артерии, снижает холестерин и поддерживает сердце

Выпуск открытого проекта RustDesk 1.4.3

Вышел Wine 10.17

Мейнтейнеры Ruby взяли на себя управление GitHub-репозиторием RubyGems

Релиз платформы совместной разработки Forgejo v13.0

Fujitsu выпустила ультрапортативный ноутбук FMV UX-K3 весом 634 г

Вышел открытый проект для создания и хранения в электронной библиотеке электронных книг разного формата Calibre 8.13

Динозавры вернулись! Состоялся релиз Jurassic World Evolution 3 — игра получает отличные отзывы

Дизайнеры Huawei превратили Wi-Fi-роутер в элегантный элемент декора

В ноябре каталог PlayStation Plus Extra и Premium покинут семь игр, включая Battlefield V и Like a Dragon: Ishin

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA