Почему AI-модели не могут конкурировать с фрилансерами-разработчиками: анализ OpenAI

habr.com:

Модели больших языков (LLMs) уже изменили разработку программного обеспечения, однако компаниям стоит дважды подумать, прежде чем полностью заменять человеческих разработчиков программного обеспечения на LLM, несмотря на утверждение генерального директора OpenAI Сэма Альтмана о том, что модели могут заменить «низкоуровневых» инженеров.В новой работе исследователи OpenAI описали, как они разработали бенчмарк для тестирования LLM под названием SWE-Lancer, который проверяет, сколько могут заработать модели на реальных фриланс-задачах по разработке ПО.

Тест показал, что, хотя модели могут решать баги, они не способны понять, почему баг возник, и продолжают допускать ошибки.Исследователи дали трем моделям — GPT-4o и o1 от OpenAI и Claude-3.5 Sonnet от Anthropic — 1488 фриланс-задач по разработке программного обеспечения с платформы Upwork на общую сумму $1 миллион.

Читать на habr.com Все новости от habr.com

Сотрудничество Microsoft и OpenAI под микроскопом: решение антимонопольного регулятора Великобритании

GPT-4.5: самая большая модель ИИ от OpenAI или шаг назад в развитии технологий?

Что думают эксперты и пользователи о выпуске модели GPT-4.5?

Вышел GPT-4.5 от OpenAI [обновляется, UPD 4]

Сотрудничество Microsoft и OpenAI под микроскопом: решение антимонопольного регулятора Великобритании

GPT-4.5: самая большая модель ИИ от OpenAI или шаг назад в развитии технологий?

Что думают эксперты и пользователи о выпуске модели GPT-4.5?

Вышел GPT-4.5 от OpenAI [обновляется, UPD 4]

Новая модель ИИ Anthropic позволяет пользователям решать, насколько она обоснованна

OpenAI представила обновленную модель GPT-4.5

Стремление OpenAI к росту оказывает давление на стартапы в сфере AI