Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

habr.com

habr.com:

Компания Abundant AI выпустила SWE-Marathon — новый бенчмарк для ИИ-агентов, который проверяет не привычные короткие багфиксы, а способность часами работать над одной большой задачей.

Главный вывод авторов: агенты проходят почти весь путь, но до рабочего финиша почти никто не добирается.В наборе 20 задач, каждая из которых требует многочасовой автономной работы и десятков миллионов токенов на одну попытку.

Читать на habr.com Все новости от habr.com

DeepSeek выложил в open source DSpark — модуль, ускоряющий ответы ИИ почти вдвое

Глава Signal: чат-боты вам не друзья, а ИИ-агенты — бэкдор

Claude Mythos взломал почти все секретные системы США за считанные часы — глава АНБ

Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

DeepSeek выложил в open source DSpark — модуль, ускоряющий ответы ИИ почти вдвое

Глава Signal: чат-боты вам не друзья, а ИИ-агенты — бэкдор

Claude Mythos взломал почти все секретные системы США за считанные часы — глава АНБ

Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

ИИ обыграл людей в коде для робота-пса. Но мячик питомец так и не принес

ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

У Hugging Face вышел открытый ИИ-инструмент для ревью кода прямо в GitHub

Отчет KPMG про агентный ИИ написал ИИ. Он похвалил сам себя и наврал почти во всех ссылках

Один ИИ против целого НИИ: DeepMind объяснила, где начинается сверхинтеллект

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

ИИ-агент из Купертино: новая Siri от Apple работает на Google Gemini и знает о пользователе почти все

Вышел Kimi Work — ИИ-агент, который работает без сна

Grok все? Google арендует у Маска вычислительные мощности на почти $1 млрд в месяц

Claude Code, но опенсорсный: вышел ИИ-агент Kimi Code CLI

Claude пишет 80% кода Anthropic — люди уже не успевают проверять

ИИ Google Gemma 4 12B запускается на ноутбуке с 16 ГБ и почти догоняет модель вдвое крупнее

ИИ пишет код, чтобы искать в разы эффективнее: новая технология Perplexity

Тело — китайское, мозг — от NVIDIA: вышел первый гуманоид на открытой платформе

Visa инвестировала в Replit: ИИ-агенты получат право платить картой

Техдолг под капотом ИИ-бума: код пишется быстро, чинится долго

Вышел локальный ИИ-агент для смартфонов: LFM2.5-8B-A1B обходит модели вчетверо больше

GPT-5.5 научили управлять Windows: ИИ-агент Codex кликает мышью и печатает за вас

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

«Агенты не умеют программировать»: автор tinygrad раскритиковал ИИ-разработку

OpenClaw на базе DeepSeek сам переписал свой код — и стал работать в 2,4 раза лучше

Представлен Qwen3.7-Max. ИИ-агент за 35 часов в 10 раз ускорил GPU-ядро без человека

NVIDIA зарабатывает почти миллиард долларов в день — «продавец лопат» ставит рекорд за рекордом

BigMe представила необычный смартфон HiBreak Dual 2 с двумя большими экранами

Solar appScreener − в финале премии Generation AI Awards 2026

Против Samsung, Micron и SK Hynix подали коллективный иск за искусственный дефицит ОЗУ

Минюст до конца 2026 года планирует запустить чат‑бот для бесплатной юрпомощи

Нанимаем Senior Data Scientist быстро, решительно

Российские банки заморозили вклады некоторых клиентов-иностранцев

Как цвет волос связан со здоровьем и продолжительностью жизни

“Кровавая бойня в XBOX” не затронет OD: инновационный хоррор Кодзимы не потеряет финансирование от Microsoft

Глава Claude Code описал 5 ролей IT-команды будущего

TerraMaster представила NAS F4-425 Pro с нейросетевыми функциями для администрирования хранилища

Продукты, которые могут стать причиной диабета и ожирения

Как кофе влияет на потенцию мужчин, выяснили ученые

Точный удар – японская подлодка потопила корабль ВМС США

Продукт, который замедляет образование морщин, назвал врач

Citi снизил прогноз по биткоину до $82 000, по Ethereum — до $2240

Все подробности Clicks Communicator — современного гаджета в стиле BlackBerry с физической клавиатурой и AMOLED-экраном

Samsung откажется от Flip-формата? — еще один инсайдер утверждает, что Galaxy Z Flip 8 станет последним смартфоном серии

Европа отправляется на Луну, но забыла карту: миссия Argonaut полетит за чужими данными

Землянам порекомендовали не контактировать с инопланетянами

Британские инвесторы подали в суд на Binance и CZ с требованием на $200 млн

Власти Тайваня приняли закон о криптоактивах

Если забыли Нурофен дома — главный секрет поиска лекарств за границей

Идеальный провал – фото со служебной овчаркой покорило интернет

Четыре секрета крепкой любви раскрыл гарвардский психолог

Магнитные бури не утихают - ученые предупредили об опасности

«Яндекс» начал тестировать платформу для создания ИИ‑агентов в «Алисе AI»

Новые функции у Gemini: личный репетитор

Минтранс разработает новые рекомендации по установке ограничений скорости

Bloomberg: в интернете процветает инсайдерская торговля данными Amazon

XBOX отказалась от Project Fantasy — амбициозной RPG от создателей Hitman и 007 First Light

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA