OpenAI запускает программу по разработке новых специализированных бенчмарков AI

habr.com:

OpenAI считает, что бенчмарки AI сломаны. Теперь компания запускает программу по исправлению оценки моделей AI. Новая программа OpenAI Pioneers будет сосредоточена на создании оценок для моделей AI, которые «устанавливают планку того, как должно быть хорошо», как сформулировала OpenAI в своем блоге.«Поскольку темпы внедрения AI в различных отраслях ускоряются, необходимо понимать и улучшать его влияние в мире», — продолжила компания в своем сообщении. «Создание оценок, специфичных для предметной области, — один из способов лучше отразить реальные варианты использования, помогая командам оценивать производительность модели в практических, высокорисковых средах».Как показывает недавняя полемика с краудсорсинговым бенчмарком LM Arena и моделью Maverick от Meta*, в наши дни сложно понять, что именно отличает одну модель от другой.

Многие широко используемые бенчмарки AI измеряют производительность в эзотерических задачах, таких как решение математических задач уровня докторской диссертации.

Читать на habr.com Все новости от habr.com

OpenAI обновляет поиск ChatGPT функциями покупок

Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение

Предстоящая открытая модель OpenAI получит доступ к облачным возможностям

OpenAI выпускает «облегченную» версию своего инструмента для глубоких исследований ChatGPT

OpenAI обновляет поиск ChatGPT функциями покупок

Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение

Предстоящая открытая модель OpenAI получит доступ к облачным возможностям

OpenAI выпускает «облегченную» версию своего инструмента для глубоких исследований ChatGPT

Сообщается, что OpenAI планирует увеличить доход с $4 млрд до $174 млрд к 2030 году

Реструктуризация OpenAI вызывает опасения у экспертов по поводу контроля и безопасности AGI

OpenAI добавляет модель изображения ChatGPT «GPT-Image-1» в API для разработчиков