dilnaz04 продукты финансы экономика стартап dilnaz04

OpenAI запускает программу по разработке новых специализированных бенчмарков AI

OpenAI считает, что бенчмарки AI сломаны. Теперь компания запускает программу по исправлению оценки моделей AI. Новая программа OpenAI Pioneers будет сосредоточена на создании оценок для моделей AI, которые «устанавливают планку того, как должно быть хорошо», как сформулировала OpenAI в своем блоге.«Поскольку темпы внедрения AI в различных отраслях ускоряются, необходимо понимать и улучшать его влияние в мире», — продолжила компания в своем сообщении. «Создание оценок, специфичных для предметной области, — один из способов лучше отразить реальные варианты использования, помогая командам оценивать производительность модели в практических, высокорисковых средах».Как показывает недавняя полемика с краудсорсинговым бенчмарком LM Arena и моделью Maverick от Meta*, в наши дни сложно понять, что именно отличает одну модель от другой.

Многие широко используемые бенчмарки AI измеряют производительность в эзотерических задачах, таких как решение математических задач уровня докторской диссертации.

DMCA