Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях
В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспечивать точность более 90%, и BIG-Bench достиг своего предела.
В ответ на это Google DeepMind разработала тест BIG-Bench Extra Hard (BBEH), который позволяет выявлять существенные недостатки даже в самых передовых моделях ИИ.BBEH — это усовершенствованная версия BIG-Bench Hard (BBH).
habr.com