Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций
*Meta выпустила AdvancedIF, уникальный инструмент для тестирования больших языковых моделей, который оценивает способность LLM справляться с многослойными и высоко когнитивными задачами.
Набор данных включает более 1600 промптов, каждый из которых содержит шесть одновременно действующих условий. В этих условиях учитываются требования к формату, стилю, логическим связям между частями текста, ограничения на нежелательные действия модели и перекрестные зависимости, что делает тест крайне сложным даже для самых современных моделей.AdvancedIF позволяет проверять не только разовые ответы, но и способность моделей сохранять контекст в длинных диалогах, управляться через системные промпты и корректно реагировать на последовательные инструкции.
habr.com