технологии общество доллар gemini

Фонд Arc Prize представил новый AGI-тест, который ставит в тупик большинство ИИ-моделей

Фонд Arc Prize, некоммерческая организация, сооснованная видным исследователем ИИ Франсуа Шолле, объявил в блоге в понедельник о создании нового, сложного теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.Пока что новый тест, получивший название ARC-AGI-2, оказался непосильным для большинства моделей.По данным таблицы лидеров Arc Prize, модели с акцентом на логическое мышление, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают от 1% до 1,3% на ARC-AGI-2.

Мощные, но не специализированные на рассуждениях модели — включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash — показывают результат около 1%.Тесты ARC-AGI состоят из задач, напоминающих головоломки, где ИИ должен выявлять визуальные закономерности в массивах разноцветных квадратов и на их основе генерировать правильную сетку-ответ.

DMCA