cognitronn технологии история общество семья самит крипто ByteDance cognitronn

ByteDance и Stanford придумали, как научить ИИ «помнить» длинные видео

Исследователи из ByteDance и Стэнфорда представили новый метод генерации длинных видео под названием Mixture of Contexts. Он призван решить ключевую проблему, с которой сталкиваются современные модели: по мере увеличения длины ролика внимание «раздувается», вычислительные затраты растут, детали теряются, персонажи становятся непоследовательными, а сюжет уходит в сторону.

Новый подход меняет сам принцип работы с контекстом. Видео разбивается на части — кадры, шоты и подписи. Вместо того чтобы учитывать всю историю сразу, модель выбирает только те фрагменты, которые действительно важны для текущего запроса.

DMCA