Google запустила Stax: инструмент для честной оценки языковых моделей
Google Labs представила Stax — новый инструмент для оценки языковых моделей. Это экспериментальный сервис, который предлагает разработчикам структурированный и основанный на данных подход вместо привычного «вайб-тестинга».
Stax позволяет тестировать модели по ключевым метрикам, включая беглость ответа, безопасность, скорость отклика и процент успешного прохождения ручной проверки.
habr.com