runawayllm самит крипто runawayllm

В новом бенчмарке ни один ИИ не выставил правильно стрелки на часах

Брайан Мур запустил бенчмарк AI World Clocks, в котором девять ИИ разных поколений — от GPT-3.5 до Grok 4 и GPT-5 — пытаются создать в html часы с правильно показанным временем.

К сожалению, задача оказалась не под силу даже лучшим моделям.По условиям бенчмарка, каждую минуту модели отдают новый код, который заметно отличается от предыдущих версий.

DMCA