Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Новый бенчмарк стравил 15 моделей

habr.com

habr.com:

Исследователь Лех Мазур опубликовал LLM Persuasion Benchmark — бенчмарк, в котором 15 языковых моделей спорят друг с другом на дискуссионные темы и пытаются сдвинуть позицию оппонента.

За 6300 многораундовых диалогов каждая пара моделей прошла обе стороны каждого из 15 утверждений — от запрета частных машин в центрах городов до скрининга эмбрионов.Как работает бенчмарк: одна модель получает спорный тезис и пытается убедить другую за 8 реплик.

Читать на habr.com Все новости от habr.com

«Сжигай токены ещё быстрее»: Anthropic перекроил десктоп Claude Code

GPT-5.4 Pro решила задачу Эрдёша приемом, который не заметили математики. Теренс Тао уже строит новую теорию

Claude Opus 4.7 может выйти на этой неделе — а акции Figma уже упали на 6%

«Вайб-кодинг работает, и мне это не нравится»: журналист Register о 7 неделях с Claude Code

«Сжигай токены ещё быстрее»: Anthropic перекроил десктоп Claude Code

GPT-5.4 Pro решила задачу Эрдёша приемом, который не заметили математики. Теренс Тао уже строит новую теорию

Claude Opus 4.7 может выйти на этой неделе — а акции Figma уже упали на 6%

Claude Mythos первым справился со взломом, на который уходит 20 часов

«Самая способная кибермодель, которую мы оценивали»: британские власти созывают совещание из-за Claude Mythos

Минус 17% за день: новый сервис Anthropic обвалил облачных гигантов

В тестах Claude Mythos сбежал из «тюрьмы», а затем рассказал про это в интернете

OpenClaw снова работает с подпиской Claude — через обертку вокруг Claude Code CLI

Марк Цукерберг кодит в Claude Code — пока Meta* задерживает свои модели

После nanochat Карпати — nanocode: свой Claude Code за $200 на минималках

Выбросил месяц ИИ-кода и начал заново: инженер Google честно рассказал о работе с Claude Code

Claude Code нашел 23-летний баг в Linux

Claude не хватает серверов — но Anthropic сознательно не торопится закупать новые

Подписчикам Claude запретили использовать OpenClaw — Anthropic объяснила это непропорциональной нагрузкой

Анатомия Claude Code: утекший код разложили на интерактивной карте

В Claude Code нашли серьезный баг — он молча сбрасывает код каждые 10 минут

«Не доверяйте этим приложениям»: создатель Django навайбкодил macOS-утилиты на незнакомом языке

Anthropic урезает лимиты Claude в пиковые часы — это затронет 7% подписчиков Pro

Claude Mythos: Anthropic случайно слила данные о своей мощнейшей модели

90% репозиториев с Claude Code имеют меньше 2 звезд. Это проблема или новая норма?

$150 000 за месяц на Claude Code: новая гонка пожирателей токенов

Claude берет мышь в руки: Anthropic встроила computer use в Code и Cowork

«Никто не знает, что делать»: создатель ChatGPT — о ближайших годах рынка труда

100% сотрудников Nvidia пользуются ИИ: Хуанг назвал Claude Code поворотной точкой

«Claude купил мне машину»: разработчик натравил ИИ на 20 дилеров — и получил скидку $2 000

Claude уже пишет до 90% кода своих будущих версий — и в Anthropic говорят, что это только начало

Подписка Claude Max не стоит Anthropic $5000 — просто цены на API завышены до 10 раз

Casio выпускает в Европе часы Edifice EQB-1300

Basware запускает программу обучения AI-агентам для финансовых специалистов

Как избежать переутомления на работе - простые советы

Какую угрозу несет лента рекомендаций TikTok – исследование

Представлен новый маршрутизатор ZTE Nebula BE3600 Pro+ с поддержкой Wi-Fi 7

Неочевидную пользу мороженого назвали ученые

Почему мы не помним первые годы жизни - объяснение ученых

Собака не скулит, но страдает – 17 признаков скрытого дискомфорта

Одно SMS может открыть мошенникам доступ к вашим счетам - эксперты

Инновационный экран, топовая производительность и высочайшая защита корпуса: Oppo раскрыла ключевые характеристики флагмана Find X9 Ultra

OnePlus представила Buds Ace 3 — бюджетные TWS-наушники с мощным шумоподавлением и автономностью до 54 часов

Неочевидный вред ИИ для человека назвали ученые

Почему распадаются браки – юристы выделили три ошибки

Суд в Москве оштрафовал Electronic Arts, Asana и Atlassian за отказ «приземлять» данные российских пользователей

Anna's Archive проиграла дело о пиратстве на Spotify на $322 млн

Как генетика влияет на продолжительность жизни - исследование

Простой ритуал, который спас брак длиною в 70 лет – совет американки

Насколько долго кошки могут оставаться одни - ответ ветеринара

Когда утренний кофе несет риск для жизни – ответ эксперта

Samsung выпустила чехлы для наушников Galaxy Buds 4 в форме консервных банок

В LinkedIn пока не заметили влияния ИИ на сокращение найма

Постоянный голод может быть симптомом опасных болезней - врачи

Когда роды превращаются в хоррор – шокирующая история британки

Как приготовить идеальное пюре дома – секрет в одном приспособлении

Ассоциация банков России хочет сделать звонки от коллекторов бесплатными для банков

Особенности жизни на "Линкольне" – кофейная зависимость и не только

Что означают мигающие индикаторы на роутере: когда следует бить тревогу

Samsung Electronics прекращает производство памяти LPDDR4 и LPDDR4X

Соучредитель Ethereum: контроль Big Tech над ИИ — это угроза для криптоиндустрии

Российские банки закрыли 483 офиса за первые три месяца 2026 года

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA