Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Результат — 1,4%
Claude Opus 4.8 занял первое место в ARC-AGI-3 — интерактивном тесте на общий интеллект, который до сих пор не дается ни одной модели.
Версия в режиме High стала новым лидером с результатом 1,4% на закрытом наборе (1,5% на публичном лидерборде) при стоимости прогона около 10 тысяч долларов.
habr.com