ByteDance выпустили OmniHuman-1: генерация видео по одной картинке и аудиодорожке
Ссылка на официальный анонс (англ): https://omnihuman-lab.github.io/Примеры некоторых сгенерированных видосов под катом, но на Хабре не очень удобный плеер, поэтому остальные я выложил в телеге.Анимация человека, а именно - генерация говорящего человека на основе аудиодорожки за последние годы сильно прокачалась в качестве.
Но существующие подходы всё ещё испытывают трудности с масштабированием.Сегодня ByteDance представили модель OmniHuman — фреймворк на основе Diffusion Transformer, который показывает сильный рост качества за счет, добавления информации о движениях на видео в процесс обучения.OmniHuman поддерживает различные типы портретного видео (крупный план лица, портрет, по пояс, в полный рост).
habr.com