Разработан метод оценки нейросетей в работе с длинными текстами
Исследователи из Института AIRI, МФТИ и Лондонского института математических наук (LIMS) разработали бенчмарк BABILong для оценки производительности языковых моделей при работе с большими текстами.
Бенчмарк включает 20 задач, ориентированных на поиск и анализ разрозненных фактов в крупных текстах, включая индукцию, дедукцию, связывание информации, простейшие вычисления и работу со списками.
habr.com