Исследование Microsoft показывает, что модели AI по-прежнему испытывают трудности с отладкой программного обеспечения

habr.com:

Модели AI от OpenAI, Anthropic и других ведущих лабораторий AI все чаще используются для помощи в задачах программирования. Генеральный директор Google Сундар Пичаи заявил в октябре, что 25% нового кода в компании генерируется AI, а генеральный директор Meta* Марк Цукерберг выразил амбиции по широкому внедрению моделей кодирования AI в гиганте социальных сетей.Однако даже некоторые из лучших современных моделей испытывают трудности с устранением ошибок программного обеспечения, которые не смутили бы опытных разработчиков.Новое исследование Microsoft Research, научно-исследовательского подразделения Microsoft, показывает, что модели, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не в состоянии отладить множество проблем в тесте разработки программного обеспечения под названием SWE-bench Lite.

Результаты являются отрезвляющим напоминанием о том, что, несмотря на смелые заявления таких компаний, как OpenAI, AI по-прежнему не может сравниться с экспертами-людьми в таких областях, как кодирование.Соавторы исследования протестировали девять различных моделей в качестве основы для агента, который имел доступ к ряду инструментов отладки, включая отладчик Python.

Читать на habr.com Все новости от habr.com

Генеральный директор Microsoft заявил, что до 30% кода компании было написано ИИ

«Яндекс» начинает работу над программным обеспечением для гуманоидных роботов

Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение

Google прекращает поддержку программного обеспечения для ранних термостатов Nest

Генеральный директор Microsoft заявил, что до 30% кода компании было написано ИИ

«Яндекс» начинает работу над программным обеспечением для гуманоидных роботов

Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение

Google прекращает поддержку программного обеспечения для ранних термостатов Nest

Dropbox добавляет новые функции в Dash, свой поисковый инструмент на базе AI

В течение шести лет строительство ведущего центра обработки данных AI может обойтись в $200 млрд

OpenAI выпускает «облегченную» версию своего инструмента для глубоких исследований ChatGPT