GPT-5.2 не смогла сложить 5+7. Как эзотерические языки обнулили передовые модели

habr.com

habr.com:

ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare.

Пять фронтирных моделей — GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 — набрали от 0 до 11% точности на задачах, которые в Python решит любой студент за минуты.

Читать на habr.com Все новости от habr.com

Марк Цукерберг кодит в Claude Code — пока Meta* задерживает свои модели

Андрей Карпати рассказал, как ИИ ведет за него вики на 400 000 слов

Microsoft вступила в гонку с OpenAI: команда суперинтеллекта готовит передовые модели к 2027 году

Три задачи Эрдёша за раз: новая модель OpenAI обошла GPT-5.4 Pro в математике

Марк Цукерберг кодит в Claude Code — пока Meta* задерживает свои модели

Андрей Карпати рассказал, как ИИ ведет за него вики на 400 000 слов

Microsoft вступила в гонку с OpenAI: команда суперинтеллекта готовит передовые модели к 2027 году

Три задачи Эрдёша за раз: новая модель OpenAI обошла GPT-5.4 Pro в математике

Сооснователь GitLab рассказал, как использовал ChatGPT для борьбы с раком

«Не доверяйте этим приложениям»: создатель Django навайбкодил macOS-утилиты на незнакомом языке

Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Новый бенчмарк стравил 15 моделей

Claude Mythos: Anthropic случайно слила данные о своей мощнейшей модели

«Выглядит как попытка искалечить Anthropic»: судья раскритиковала Пентагон

50 побед и 600 поражений ИИ в математике: Теренс Тао объяснил, что модели могут и не могут в науке

ИИ обучили «научному вкусу»: модель на 30B обошла GPT-5.2 в оценке потенциала статей

DeepSeek V4, возможно, уже тестируется на OpenRouter — у стелс-модели 1 трлн параметров и 1M контекстное окно

«AGI будет выглядеть как разминка»: Альтман о следующем прорыве в ИИ

Программисты в красной зоне: Карпати вычислил, каким профессиям угрожает ИИ

Корабельные двигатели и самолетные турбины: как ИИ-компании собирают электростанции для GPU

«Как OpenClaw, но лучше»: Nvidia готовит платформу для ИИ-агентов

Год назад Амодеи говорил, что ИИ будет писать 90% кода. Как дела теперь?

«Крестный отец ИИ» привлек $1 млрд: ЛеКун строит альтернативу языковым моделям

Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку

GPT-5.4 протестировали на самых сложных интерфейсах в мире — модель справилась

ИИ не может контролировать свои мысли — и это хорошая новость: OpenAI протестировали 13 моделей

Вышла GPT-5.4 — первая модель OpenAI, которая управляет компьютером

ИИ навайбкодил операционную систему. Как результат, DOOM не запускается, интернет не включается

«Льстят Трампу как диктатору»: утекшее письмо главы Anthropic может добить переговоры с Пентагоном

Вышли младшие модели Qwen-3.5 — и 9B-версия обходит ИИ в 13 раз крупнее

ИИ Claude задействовали при ударах по Ирану — через часы после того, как Трамп забанил Anthropic

Альтман vs Амодей: как публичная солидарность утром превратилась в контракт с Пентагоном вечером

«Самолет Судного дня» совершил серию маневров – что это значит

Продукт, который заменит антивозрастные средства, назвал косметолог

Какие продукты защищают от инсульта и укрепляют сердце

Хакеры украли и опубликовали конфиденциальные документы полиции Лос-Анджелеса

Как длительная жизнь на Луне повлияет на человеческий организм, если мы построим там колонии

В Skoda создали механический велосипедный звонок, который может пробить активное шумоподавление наушников

Регулирующие органы США экстренно созвали банки Уолл-стрит из-за Mythos от Anthropic — Bloomberg

В Microsoft заблокировали учётные записи разработчиков VeraCrypt и WireGuard, но потом разобрались, что это ошибка

Чай или кофе - какой напиток более полезен для вашего здоровья

Почему истребители США сбрасывают топливо перед посадкой на авианосец

Muse Spark — первая LLM от Meta Superintelligence Lab

Вышел пакетный менеджер APT 3.2.0

Follow the Money: «скромные» $75 млн для венчурных инвестиций, одна корпоративная сделка и внимание к DeFi

Илон Маск запустил отдельное приложение XChat для iOS

Дуров сообщил о распространении в ЕС «абсурдных нарративов» против Telegram

Команда Internet Bug Bounty приостанавливает выплаты за обнаружение уязвимостей

Anthropic представила сервис для запуска ИИ-агентов — Claude Managed Agents

Релиз открытого проекта CompressO 3.0.0 для сжатия видео на базе движка FFmpeg

Как приготовить качественный кофе, не тратя при этом большие деньги

Авторы сразу трёх YouTube-каналов подали иск против Apple, обвиняя компанию в использовании контента для обучения ИИ

Идеальное утро без стресса — привычки, которые изменят ваш день

Разработчики представили новые решения для защиты биткоина от квантовых атак

BingX расширила сеточную торговлю фьючерсами на золото, серебро и нефть

Можно ли есть яблоки при диабете — что говорит диетолог

Лучшее время для взвешивания назвали специалисты

Самый маленький кемпер: мини-автодом Ari Motors

Смартфон Samsung Galaxy Z Flip8 показали на CAD-рендерах

Разрушает ли ваш сон синий свет от телефона

В какое время лучше завтракать, чтобы быстрее худеть

Тесла на дискетах: как украинский инженер скрестил электрокар с технологиями 90-х

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA