OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

habr.com:

Участие OpenAI в финансировании FrontierMath, ведущего AI-бенчмарка по математике, стало известно только тогда, когда компания объявила о рекордных показателях на этом тесте.

Теперь разработчик бенчмарка, Epoch AI, признает, что следовало быть более прозрачными относительно их отношений.FrontierMath, представленный в ноябре 2024 года, тестирует, насколько хорошо AI-системы могут справляться со сложными математическими задачами, требующими продвинутого рассуждения и навыков решения проблем — именно такие задачи обычно ставят в тупик даже самые продвинутые AI-системы.

Читать на habr.com Все новости от habr.com

Hugging Face работает над копированием возможностей OpenAI Deep Research с помощью агента AI с открытым исходным кодом

Исследователи создали открытого конкурента модели рассуждений OpenAI o1 менее чем за $50

Компания OpenAI анонсировала новую версию ChatGPT для государственных учреждений: чего от нее ожидают

OpenAI провела ребрендинг, немного изменила логотип и представила новый шрифт OpenAI Sans

Hugging Face работает над копированием возможностей OpenAI Deep Research с помощью агента AI с открытым исходным кодом

Исследователи создали открытого конкурента модели рассуждений OpenAI o1 менее чем за $50

Компания OpenAI анонсировала новую версию ChatGPT для государственных учреждений: чего от нее ожидают

OpenAI провела ребрендинг, немного изменила логотип и представила новый шрифт OpenAI Sans

Робототехнический стартап Figure AI прекращает партнерство с OpenAI, чтобы создавать собственные модели AI

SoftBank инвестирует в автоматизацию работы с агентами OpenAI

SoftBank планирует инвестировать до $25 млрд в OpenAI, сравнявшись с Microsoft