Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение
Недавний анализ, проведенный фондом Arc Prize Foundation показал, что модель o3 от OpenAI демонстрирует значительно более слабые результаты на стандартизированных тестах рассуждений, чем ранее протестированная предварительная версия o3.
ARC Prize Foundation, некоммерческая группа, занимающаяся оценкой AI, использует открытые бенчмарки, такие как ARC-AGI, чтобы подчеркнуть разрыв между человеческим мышлением и текущими системами искусственного интеллекта.
habr.com