Нейросети предпочитают русский и польский языки — бенчмарк OneRuler
Известно, что современные языковые модели начинают терять эффективность на длинных контекстах — даже если текст помещается в контекстное окно, то точность все равно может падать.
Авторы многоязычного бенчмарка OneRuler решили выяснить, зависит ли эффективность от языка общения, и пришли к неожиданным выводам: если на коротких (8К) контекстах разница минимальна, то для длинных контекстов самыми эффективными оказались польский, русский и украинский языки.
habr.com