LM Arena обвиняют в предоставлении «избранным» AI-компаниям несправедливых преимуществ при тестировании моделей

habr.com:

В новом документе лаборатории искусственного интеллекта Cohere, Стэнфорда, Массачусетского технологического института и Ai2 обвиняется LM Arena, организация, стоящая за популярным краудсорсинговым бенчмарком в области искусственного интеллекта Chatbot Arena, в помощи избранной группе компаний, занимающихся разработкой искусственного интеллекта, в достижении более высоких результатов в рейтингах за счет конкурентов.По словам авторов, LM Arena позволила некоторым ведущим в отрасли компаниям AI, таким как Meta*, OpenAI, Google и Amazon, провести закрытое тестирование нескольких вариантов моделей AI, а затем не публиковать оценки худших исполнителей.

Это облегчило этим компаниям задачу занять лидирующие позиции в рейтинге платформы, хотя такая возможность была предоставлена не каждой фирме, говорят авторы.«Лишь нескольким компаниям сообщили, что это частное тестирование доступно, и объем частного тестирования, которое получили некоторые компании, просто намного больше, чем другие», — сказала вице-президент Cohere по исследованиям AI и соавтор исследования Сара Хукер в интервью TechCrunch. «Это геймификация».Chatbot Arena, созданная в 2023 году как академический исследовательский проект Калифорнийского университета в Беркли, стала эталоном для компаний, занимающихся AI.

Читать на habr.com Все новости от habr.com

Google запускает «скрытое кэширование», чтобы сделать доступ к своим новейшим моделям AI дешевле

Новая небольшая модель искусственного интеллекта Ai2 превосходит аналогичные по размеру модели от Google и Meta*

Microsoft бросает вызов OpenAI с новыми моделями AI Phi-4 с открытым исходным кодом

Amazon запускает Nova Premier — свою самую мощную на сегодняшний день AI-модель

Google запускает «скрытое кэширование», чтобы сделать доступ к своим новейшим моделям AI дешевле

Новая небольшая модель искусственного интеллекта Ai2 превосходит аналогичные по размеру модели от Google и Meta*

Microsoft бросает вызов OpenAI с новыми моделями AI Phi-4 с открытым исходным кодом

Amazon запускает Nova Premier — свою самую мощную на сегодняшний день AI-модель

Amazon обновляет Q Business, чтобы позволить компаниям создавать публичные чат-боты

JetBrains выпускает Mellum, открытую модель кодирования AI

Xiaomi представляет MiMo-7B — компактную модель для решения математических задач и задач по кодированию