mefdayy технологии общество семья самит google gemini mefdayy

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспечивать точность более 90%, и BIG-Bench достиг своего предела.

В ответ на это Google DeepMind разработала тест BIG-Bench Extra Hard (BBEH), который позволяет выявлять существенные недостатки даже в самых передовых моделях ИИ.BBEH — это усовершенствованная версия BIG-Bench Hard (BBH).

DMCA