У Gemini появилось агентное зрение
Google фактически изменил сам принцип работы Gemini с изображениями. Если раньше модель просто анализировала картинку целиком и отвечала на основе общего восприятия, то теперь она действует как исследователь.
Gemini использует цикл «думай, действуй, наблюдай» и сама решает, какие операции нужно выполнить, чтобы лучше понять сцену.На практике это выглядит так.
habr.com