«Героиня прикована к полу, но спускается по лестнице»: разбираем логику ИИ-писателей
Леч Мазур добавил три модели в свой бенчмарк по оценке навыков написания коротких рассказов. Kimi K2.5 — 8,07 балла, Qwen3 Max — 7,84, MiniMax-M2.1 — 7,78.
Результаты неплохие, но самое ценное в этом бенчмарке — не цифры, а разбор конкретных ошибок.Если вы используете ИИ для текстов, вот на что стоит обращать внимание при проверке.Физическая непрерывность.
habr.com