runawayllm Xiaomi ByteDance gemini runawayllm

Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Новый бенчмарк стравил 15 моделей

Исследователь Лех Мазур опубликовал LLM Persuasion Benchmark — бенчмарк, в котором 15 языковых моделей спорят друг с другом на дискуссионные темы и пытаются сдвинуть позицию оппонента.

За 6300 многораундовых диалогов каждая пара моделей прошла обе стороны каждого из 15 утверждений — от запрета частных машин в центрах городов до скрининга эмбрионов.Как работает бенчмарк: одна модель получает спорный тезис и пытается убедить другую за 8 реплик.

DMCA