Этот ИИ сделает все за вас: Google запускает Gemini 2.5 Computer Use, который работает с веб-интерфейсами
Google DeepMind представила новую специализированную ИИ-модель — Gemini 2.5 Computer Use, предназначенную для создания ИИ-агентов, способных взаимодействовать с графическими интерфейсами так же, как это делает человек. Что умеет Gemini 2.5 Computer Use Как это работает Модель получает запрос пользователя, делает скриншот текущего интерфейса и анализирует историю предыдущих действий.
На основе этих данных она выполняет действие, например, “нажать кнопку” или “ввести текст”. Некоторые действия требуют подтверждения пользователя, особенно если речь идет о покупках или чувствительных операциях. Gemini 2.5 Computer Use демонстрирует: Чтобы обеспечить безопасность личных данных пользователей, Google встроила в модель защиту от вредоносных действий,unexpected поведения и атак через веб-интерфейсы (например, prompt injection).Для разработчиков доступен набор инструментов, включая оценку каждого действия перед выполнением, и системные инструкции, запрещающие или требующие подтверждения для рискованных операций.Модель уже применяется в UI-тестировании (в том числе в Project Mariner и Firebase Testing Agent), автоматизации рабочих процессов и создании персональных ассистентов.Модель уже доступна в публичной превью-версии через API Gemini в Google AI Studio и Vertex AI.Источник: Google Blog
gagadget.com