Новая AI-модель от ByteDance оживляет статичные изображения с помощью звука
Материнская компания TikTok, ByteDance, разработала систему AI под названием INFP, которая способна заставлять статичные портретные фотографии говорить и реагировать на аудиовход.Что отличает INFP (Interactive, Natural, Flash and Person-generic) от других, так это его способность создавать реалистичные видео разговоров между двумя людьми без необходимости вручного назначения ролей говорящего и слушающего.
Система автоматически определяет эти роли по ходу разговора.Система работает в два основных этапа. На первом этапе, который ByteDance называет "Motion-Based Head Imitation" (Имитация движений головы на основе движения), AI учится учитывать все мелкие детали того, как люди общаются — такие как мимика и движение головы во время разговоров.
habr.com