Изследователи от лабораторията Noah’s Ark Lab на Huawei, в партньорство с редица китайски университети, представиха PixArt-Σ (Sigma) – модел за генериране на изображения от текст.
PixArt-Σ е дифузионен трансформатор (Diffusion Transformer model, DiT), който може да генерира изображения с резолюция до 4K (3840 x 2560 пиксела). За сравнение, последната версия (V6) на Midjourney създава изображения с размер до 2912 x 1632 пиксела.
Китайските изследователи твърдят, че само с 600 милиона параметъра PixArt-Σ превъзхожда модели с отворен код, като SDXL (2,6B параметъра) и SD Cascade (5,1B параметъра), по отношение на качеството на изображението и придържането към текстовите указания.
Отличителен аспект на PixArt-Σ е неговата методика на обучение, наречена „weak-to-strong“. Изследователите започват с по-малък модел, наречен PixArt-α, и след това използват по-качествени данни за обучение (33 милиона изображения с висока резолюция) и по-точни описания на изображенията, с цел да подобрят начина, по който моделът разбира връзката между думите и изображенията.
Можете да научите повече за проекта тук.
Относно генераторите на изображения, наскоро Ideogram пусна нов модел, който е доста добър, а Midjourney подготвя стартирането на версия V6 Beta. Компанията също така работи по интегрирането на своя генератор в уебсайта си, който в момента е достъпен за потребители, създали над 1000 изображения. Уебсайтът дава възможност на потребителите да генерират изображения онлайн, без да се налага да използват Discord.
От OpenAI пък тестват нов потребителски интерфейс за DALL-E 3, в който можете да избирате стилове и размери на изображенията директно в ChatGPT.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!
Споделете: