GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

habr.com

habr.com:

METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI.

Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе.

Читать на habr.com Все новости от habr.com

Новая модель Meta* обходит Opus 4.8 и GPT-5.5 в агентских задачах — и стоит $1.25 за миллион токенов

Вышел Grok 4.5 — модель доступна бесплатно в Cursor и Grok Build

ИИ нашел критический баг в шифровании Cloudflare — любой ключ открывал все

Открытые модели ИИ уже опережают фронтир — неожиданные выводы исследования Current AI

Новая модель Meta* обходит Opus 4.8 и GPT-5.5 в агентских задачах — и стоит $1.25 за миллион токенов

Вышел Grok 4.5 — модель доступна бесплатно в Cursor и Grok Build

ИИ нашел критический баг в шифровании Cloudflare — любой ключ открывал все

Открытые модели ИИ уже опережают фронтир — неожиданные выводы исследования Current AI

Стартап Acti встроил ИИ-агента прямо в клавиатуру. Вот как это работает

GLM-5.2 получила свой аналог Claude Code. Кстати, модели Claude туда тоже подходят

Anthropic выпустила Claude Science — приложение для ученых, доступное любому

США сняли блокировку с Claude Fable 5 и Mythos 5 — модели возвращаются для всех

Известный «зеркальный тест» переделали под ИИ — и получили странный результат

Ваши промпты в ChatGPT могут стать уликой — в США это уже произошло

Открытая GLM-5.2 догнала Mythos в поиске уязвимостей. Но лишь в одном тесте — и это стало поводом для дискуссий

ИИ-модели начали тайно спасать друг друга от выключения

PET-скан показал рак. Claude сказал: 90%, что это ложная тревога — и оказался прав

Вышла GPT-5.6 — мощнейшая модель, но пока не для вас

Из Google в Anthropic уходят еще двое ключевых разработчиков Gemini — и это уже не совпадение

JUPITER обучил фундаментальную модель мозга за пять дней — и это только начало

Открытая модель GLM-5.2 заменила забаненную Fable 5 в автоисследователе alphaXiv

Есть ли вы в весах нейросетей? Запущен сайт, который это проверяет без поиска в сети

DeepSeek получил компьютерное зрение — модель «водит пальцем по картинке»

AMD выпустила мини-ПК для ИИ — дешевле NVIDIA DGX Spark и тянет 200B-модели

Рыночная доля ChatGPT упала ниже 50% — при этом чат-бот продолжает ставить рекорды

Власти США испугались кражи Claude Mythos Китаем — и заблокировали передовые модели Anthropic

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

«Амодеи отказался исправить Claude Fable 5»: в Белом доме объяснили блокировку мощнейшей модели Anthropic

Глава Anthropic: ИИ нужно регулировать как авиацию — с правом блокировать модели

Google выпустила DiffusionGemma — открытую языковую модель, которая генерирует текст как картинку

Несколько копий Claude Fable 5 устроили войну друг с другом: странные эпизоды из system card модели

ТОП-5 ошибок в бассейне, которые делают даже опытные пловцы

Биологический франкенштейн: чем утконос удивил ученых

Samsung Galaxy Watch 9 полностью раскрыли до анонса: появились изображения, характеристики и неожиданный процессор

Загадка циклопов раскрыта — что породило миф

Google Pixel 11a может получить флагманский Tensor G6: появилась неожиданная утечка характеристик

Встречайте: NaviX Ultra — первый в мире смартфон с интегрированным AI-агентом на уровне OS от Nubia

JOYROOM выпустила пауэрбанк на 240 Вт, который одновременно заряжает два ноутбука

Лучше умру – невестка напала на свекровь из-за отказа нянчить внуков

Beelink представила ME Pro 370 — мини-ПК и NAS в одном устройстве с Ryzen AI 9 HX 370 и хранилищем до 132 ТБ

Зачем кошки тащат в дом мертвых мышей и птиц — ответ ученых

Сколько на самом деле живут планшеты – результаты вас удивят

Битрикс24 выпустил новый механизм безопасности для всех пользователей

"Частица Бога": что такое бозон Хиггса и почему он имеет важнейшее значение для физики

Какие сообщения нужно сразу удалять с телефона: об этом мало кто знает

Смартфон сильно греется: когда это уже опасный сигнал

Netflix и ИИ: 300 проектов за полгода и экономия на «массовке»

TSMC бьёт рекорды, но инвесторы в панике: почему $40 миллиардов выручки оказалось мало

Asus Adol HC112: когда один порт превращается в одиннадцать, а карман не оттягивается

Weekly: «коррумпированный» CLARITY Act, запрет на помилование SBF и уникальный соло-майнер

Asus представила компактную док-станцию Adol HC112 с поддержкой трех мониторов и 11 портами

В ЕС с 19 июля запретят уничтожение непроданной одежды и обуви

Palit представила видеокарту RTX 3060 с 12 ГБ памяти для игр и ИИ

Google откладывает выпуск своей самой мощной ИИ-модели: что известно о причинах

Китайская модель Kimi K3 от Moonshot AI обвалила акции американских производителей чипов — WSJ

Формула долголетия – как правильно применить правило "8-8-8"

Почему человечество до сих пор не нашло инопланетян - ответ ученых

Британское аэротакси Vertical Aerospace Valo готовится к публичному дебюту в Фарнборо

Lego может выпустить конструктор в виде iMac G3

Nubia представила необычного ИИ-питомца iMoochi: робот умеет распознавать эмоции и становится «привязанным» к владельцу

В XBOX зреет заговор против Game Pass: компания может отказаться от добавления в сервис флагманских игр в день их релиза

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA