*Meta запускает PE-AV — аудио-визуальный энкодер для мультимодального ИИ
ИИ-подразделение компании *Meta представило Perception Encoder Audiovisual (PE-AV) - мультимодальную модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов.
PE-AV является техническим ядром, лежащим в основе SAM Audio, и предназначена для улучшения понимания сцены в задачах, где важно учитывать синхронный контекст изображения и звука.
habr.com