GPT-5 показал рекорд в многошаговых задачах. Это поможет при создании агентов

habr.com

habr.com:

Исследователи из Кембриджа, Института Макса Планка и сети ELLIS опубликовали работу The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, посвященную способности больших языковых моделей выполнять многошаговые задачи.

Обычно эффективность LLM оценивают по коротким заданиям — ответил правильно или нет. Но в реальных сценариях важны и длинные цепочки действий — например, для агентов, работающих по 20-30 минут.

Читать на habr.com Все новости от habr.com

В сети появились первые примеры работы Gemini 3.0 Pro

Человекоподобный робот Tesla Optimus показал кун-фу в реальном времени

Расходы на ИИ оценили в $7 трлн за 10 лет. Это сопоставимо с ВВП Британии и Франции

Kling 2 Turbo стал лучшим ИИ для создания видео по версии Artificial Analysis

В сети появились первые примеры работы Gemini 3.0 Pro

Человекоподобный робот Tesla Optimus показал кун-фу в реальном времени

Расходы на ИИ оценили в $7 трлн за 10 лет. Это сопоставимо с ВВП Британии и Франции

В Google DeepMind обучили ИИ Dreamer 4 добывать алмазы в Minecraft — почему это важно

Представлен Claude Sonnet 4.5: новый лидер в задачах программирования

Представлен DeepSeek-V3.2-Exp: в разы дешевле при той же производительности

В OpenAI признали, что подменяют ответы одной модели ChatGPT на другую

Создание ИИ-видео расходует больше электричества, чем ожидалось — исследование Hugging Face

OpenAI тестирует нового ИИ-агента для ChatGPT

Школьники и студенты разогнали популярность GPT

ИИ для программирования GPT-5-Codex вышел в API

Nvidia вложит в OpenAI до $100 млрд. Деньги пойдут на рекордную ИИ-инфраструктуру

Grok 4 и GPT-5 стали лучшими в финансовом бенчмарке. Но люди пока впереди

Разработчики Grok 4 привлекли 10 миллиардов долларов. Теперь xAI стоит $200 млрд

Илон Маск теперь считает, что Grok 5 может достичь AGI. Но что убедило его в этом?

Google представила VaultGemma — ИИ с приватностью на уровне обучающих данных

Morgan Stanley: ИИ будет приносить почти $1 трлн в год — но за чей счет?

Google и Coinbase представили платежную систему для ИИ-агентов

В YouTube добавили бесплатное создание ИИ-видео с помощью Veo 3 Fast

Новые принципы ChatGPT: взрослым — свободу и приватность, подросткам — больше защиты

Лучше Google Nano Banana. Представлен ИИ для создания картинок Seedream 4

ИИ Claude уже месяц работает хуже обычного. Anthropic принимает меры

ИИ Google Nano Banana привлек 10 миллионов новых пользователей в Gemini App

DeepSeek готовится запустить ИИ-агента к концу года

ИИ в комбинации с новыми подходами ускорит создание лекарств в два раза — Reuters

Глава Nvidia считает, что внедрение ИИ приведет к 4-дневной рабочей неделе

Минимум 9 сотрудников покинули ИИ-подразделение Meta✶. Причины — бюрократия и турбулентность

Китай выходит в лидеры мировой робототехники

OpenAI и Broadcom вложат до $500 млрд в развертывание GPU собственной разработки — FT

На факультете ВМК МГУ открылась учебно-исследовательская лаборатория свободного ПО при поддержке «Базальт СПО»

Как распознать сердечный приступ заранее: 4 тревожных сигнала от врача

История, которой нет: как и почему исчезли 10 дней в 1582 году

ТОП-6 продуктов для здоровья кишечника назвал диетолог

Ученые назвали неожиданный фактор, который провоцирует деменцию

«Инфосистемы Джет» выяснила, что 60% компаний не готовы рассказывать о киберинцидентах

Синтетические тесты показывают, что новое поколение процессоров Intel будет иметь на 50% более мощное встроенное видеоядро

В электромобилях Rivian появится функция автоматической оплаты Plug & Charge

Распространенная ошибка, которую делают при бессоннице практически все

Четыре привычки, от которых нужно избавиться, чтобы стать счастливее

PGMeetup.KZN 2025 в Казани: всё о PostgreSQL 18, управлении ресурсами и шардинге

«Ростелеком» установил умные переговорные кабины в московском метро

Мorgan stanley: Neuralink может создать рынок на $400 млрд

Logitech выпустила стилус для гарнитуры Apple Vision Pro

Subaru показала тизеры бензинового и электрического концептов STI

Групповые чаты появились в социальной сети Threads

Минюст США конфисковал у мошенников Prince Group биткоины на $15 млрд

Чем отличаются мужской и женский мозг – новое открытие ученых

Специя, которая эффективно уменьшает вздутие живота

Не дешевле, но теперь с M5: Apple представила обновленную гарнитуру смешанной реальности Vision Pro

Duracell запускает в Великобритании сеть быстрых зарядных станций для электромобилей

Краш-тесты Euro NCAP рассекретили новый электрокроссовер MG S6

Невозможно пошевелиться: тревожное состояние, которое возникает во время сна, объяснили врачи

Семь болезней, которые можно "диагностировать" по глазам - на что обратить внимание

Какие супы наиболее полезны - надолго насыщают и содержат ценные микроэлементы

Fastmail запустил приложение для ПК на базе Mac, Windows и Linux

У EA есть повод гордиться: аналитики насчитали 6,5 миллионов проданных копий Battlefield 6 всего за несколько дней после релиза

Шкурки каких овощей и фруктов несут больше пользы, чем сами плоды

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA