X-Omni от Tencent: авторегрессионная text-to-image модель с RL
X-Omni — методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.X-Omni построена на гибридной, но при этом унифицированной архитектуре.
Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены.
habr.com