runawayllm закон общество самит интересное runawayllm

DeepSeek-R1 провалил проверку на здравый смысл в новом бенчмарке

Семейство бенчмарков EQ‑Bench пополнилось новым тестом, в котором популярные ИИ оцениваются на подхалимство и подкрепление бреда.

Худший общий результат в бенчмарке показал DeepSeek‑R1, дальше идут Claude Sonnet 4 и GPT-4o. Лучшие результаты у рассуждающей версии GPT-5, GPT o3 и, неожиданно, открытой модели OpenAI — GPT‑OSS.

DMCA