Вышла новая масштабная мультимодальная world-модель
Emu3.5 представлена как новая масштабная мультимодальная world-модель, которая объединяет текст и изображение в единое пространство восприятия.
Она способна одновременно обрабатывать два потока данных (текстовый и визуальный) и предсказывать их совместное состояние на каждом шаге.
habr.com