runawayllm бизнес медицина интересное runawayllm

В новом бенчмарке на галлюцинации лишь три ИИ чаще отвечают правильно, чем ошибаются

Artificial Analysis представила новый бенчмарк AA-Omniscience, который оценивает уровень галлюцинаций не только по количеству правильных ответов, но и по умению моделей говорить "не знаю".

Первые три места занимают ИИ из линейки Claude: маленькая Claude 4.5 Haiku показывает около 26% неверных ответов среди всех неудачных попыток, а Claude 4.5 Sonnet и Claude 4.1 Opus делят второе и третье место с результатом 48%.

DMCA