Google DeepMind анонсировали Gemini Robotics — VLA-модель для робототехники
12 марта Google DeepMind анонсировали свою новую vision-language-action (VLA) модель Gemini Robotics на основе языковой модели Gemini 2.0.VLA(Vision-Language-Action) — это архитектурный подход для создания систем, оперирующих в реальном мире, объединяющий компьютерное зрение, языковую модель и модель физического управления.
Первая часть модели (vision) распознает изображение с камер и других сенсоров, вторая (language) позволяет воспринимать команды пользователя и выстраивать стратегию действий.
habr.com