Вышла GLM-Image: открытая модель создания изображений «промышленного уровня»
Zhipu AI выпустила GLM-Image — первую open source модель генерации изображений промышленного уровня (термин создателей модели), объединяющую авторегрессивную архитектуру с диффузионным декодером.
Веса доступны на HuggingFace, код — на GitHub, лицензия MIT.Главная проблема диффузионных моделей вроде Stable Diffusion или FLUX — они плохо следуют сложным инструкциям и часто "ломают" текст на картинках, особенно длинный.
habr.com