Марк Цукерберг cognitronn Facebook связь технологии промышленность политика самит крипто Марк Цукерберг cognitronn

Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций

*Meta выпустила AdvancedIF, уникальный инструмент для тестирования больших языковых моделей, который оценивает способность LLM справляться с многослойными и высоко когнитивными задачами.

Набор данных включает более 1600 промптов, каждый из которых содержит шесть одновременно действующих условий. В этих условиях учитываются требования к формату, стилю, логическим связям между частями текста, ограничения на нежелательные действия модели и перекрестные зависимости, что делает тест крайне сложным даже для самых современных моделей.AdvancedIF позволяет проверять не только разовые ответы, но и способность моделей сохранять контекст в длинных диалогах, управляться через системные промпты и корректно реагировать на последовательные инструкции.

DMCA