Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций

habr.com:

*Meta выпустила AdvancedIF, уникальный инструмент для тестирования больших языковых моделей, который оценивает способность LLM справляться с многослойными и высоко когнитивными задачами.

Набор данных включает более 1600 промптов, каждый из которых содержит шесть одновременно действующих условий. В этих условиях учитываются требования к формату, стилю, логическим связям между частями текста, ограничения на нежелательные действия модели и перекрестные зависимости, что делает тест крайне сложным даже для самых современных моделей.AdvancedIF позволяет проверять не только разовые ответы, но и способность моделей сохранять контекст в длинных диалогах, управляться через системные промпты и корректно реагировать на последовательные инструкции.

Читать на habr.com Все новости от habr.com

Tencent открывает HY World 1.5 — модель для создания интерактивных 3D‑миров в реальном времени

Mozilla подтверждает: ИИ придёт в Firefox, но останется в опции выбора для пользователей

Black Forest Labs представила FLUX.2 max, флагман для кинематографической генерации изображений

OpenAI представила GPT‑5.2 — новую версию ведущей языковой модели с улучшенной логикой и скоростью

Tencent открывает HY World 1.5 — модель для создания интерактивных 3D‑миров в реальном времени

Mozilla подтверждает: ИИ придёт в Firefox, но останется в опции выбора для пользователей

OpenAI представила GPT‑5.2 — новую версию ведущей языковой модели с улучшенной логикой и скоростью

Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой

Perplexity представила BrowseSafe для защиты ИИ-браузеров от скрытых инструкций

Google запускает Workspace Studio для создания ИИ-агентов без кода

Anthropic опубликовала уникальный датасет из 1250 интервью для изучения внедрения ИИ в рабочие процессы