X-Omni от Tencent бросает вызов GPT-4o в генерации изображений, опираясь на опенсорс
Команда Tencent X‑Omni показала, как методы обучения с подкреплением могут исправить типичные слабости гибридных систем искусственного интеллекта для генерации картинок.
Модель особенно сильна в отображении длинных текстов в изображениях и временами задаёт новые стандарты качества. Автогенеративные модели, создающие картинку токен за токеном, сталкиваются с серьёзным ограничением: ошибки накапливаются в процессе и заметно снижают итоговое качество.
habr.com