Google анонсировала новую модель PaliGemma 2 для обработки изображений и текста
После анонса Gemma 2 на I/O 2024 в мае, Google представляет новую версию модели PaliGemma 2 - открытую модель для обработки изображений и текста.Первая версия PaliGemma была запущена в мае и использовалась для таких задач, как добавление подписей к изображениям и видео, распознавание текста на изображениях, обнаружение объектов, их разделение на части и ответы на вопросы относительно визуального контента.PaliGemma 2 предлагает функцию "длинных подписей", которая позволяет генерировать подробные описания изображений, учитывая действия, эмоции и общую атмосферу сцены.
Модель доступна в нескольких вариантах с размерами 3B, 10B, 28B параметров и различными разрешениями.Также улучшено распознавание текста и анализ структуры таблиц в документах.