GPT-4 обгоняет среднего человека в креативности, но проигрывает лучшим 10%
В журнале Nature Human Behaviour вышло масштабное исследование креативности людей и больших языковых моделей. Ученые из Гонконгского университета и Северо-Западного университета сравнили 9198 человек с восемью LLM на тесте дивергентного мышления — в общей сложности 215 542 прогона моделей.
Результаты неоднозначные: GPT-4 Turbo набрал 81.78 балла и обошел средний человеческий результат (78–80 баллов), Claude 3.5 Sonnet показал 80.01, а китайская Ernie 4.0 оказалась худшей с 76.17 балла.
habr.com