МЕТОДИ ЗАБЕЗПЕЧЕННЯ КОНСИСТЕНТНОСТІ ГЕНЕРАЦІЇ В ДИФУЗІЙНИХ МОДЕЛЯХ

Л. Р. Кулик; О. Б. Мокін

doi:10.31649/1997-9266-2024-175-4-75-85

Автор(и)

Л. Р. Кулик Вінницький національний технічний університет
О. Б. Мокін Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/1997-9266-2024-175-4-75-85

Ключові слова:

глибоке навчання, генерація зображень, генеративні дифузійні моделі, консистентність генерації, консистентність концепції

Анотація

Досліджено проблему консистентної генерації в дифузійних моделях. Сучасні генеративні дифузійні моделі здатні створювати зображення високої точності, але підтримання консистентності між спорідненими результатами генерації залишається складним завданням. Проаналізовано ключові методи забезпечення консистентності генерації. При цьому введено додатковий тип консистентності — консистентність концепції, що дозволяє оцінити здатність моделей не тільки відтворювати існуючі стилі та об’єкти, а й генерувати абсолютно нові візуальні ідеї, з якими модель ніколи не стикалася під час навчання. Проведено аналіз наявних методів забезпечення консистентності та визначено їхні переваги та недоліки. Метод генерації на базі вхідного еталонного зображення image-to-image має перевагу в простоті реалізації. Такі методи дотренування, як DreamBooth і LoRA DreamBooth, забезпечують ширший контроль над консистентністю об’єктів. Моделі ControlNet за допомогою спеціального вхідного зображення забезпечують консистентність форми. Методи інверсії шуму, дозволяють здійснити точніший контроль та ітеративне вдосконалення підсумкових зображень за рахунок маніпуляцій з шумовим простором, що дозволяє генерувати стилістичніше та концептуально консистентні зображення. Завдяки механізму спільної уваги, що застосовується в методі StyleAligned, може забезпечуватись стилістична консистентність згенерованих зображень. Розуміння можливостей та обмежень методів забезпечення консистентності дифузійної генерації дозволяє обрати найефективніший набір інструментів відповідно до задачі. Дифузійні моделі продовжують активно розвиватися та поширюватися на нові галузі, тому досягнення надійної та універсальної консистентності в дифузійних моделях може дати шлях для креативніших та ефективніших рішень.

Біографії авторів

Л. Р. Кулик, Вінницький національний технічний університет

аспірант кафедри системного аналізу та інформаційних технологій

О. Б. Мокін, Вінницький національний технічний університет

д-р техн. наук, професор, професор кафедри системного аналізу та інформаційних технологій

Посилання

Chenshuang Zhang, Chaoning Zhang, et al., “Text-to-image Diffusion Models in Generative AI: A Survey,” in arXiv e-prints, 2023. [Online]. Available: https://arxiv.org/abs/2303.07909 . Accessed on: April 29, 2024.

Dustin Podell, Zion English, et al., “SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis,” in arXiv e-prints, 2023. [Online]. Available: https://arxiv.org/abs/2307.01952 . Accessed on: April 29, 2024.

Ling Yang, Zhilong Zhang, et al., “Diffusion Models: A Comprehensive Survey of Methods and Applications,” in arXiv e-prints, 2022. [Online]. Available: https://arxiv.org/abs/2209.00796 . Accessed on: April 29, 2024.

Omri Avrahami, Amir Hertz, et al., “The Chosen One: Consistent Characters in Text-to-Image Diffusion Models,” in arXiv e-prints, 2023. [Online]. Available: https://arxiv.org/abs/2311.10093 . Accessed on: April 29, 2024.

Jonathan Ho, Ajay Jain, and Pieter Abbeel, “Denoising Diffusion Probabilistic Models,” in arXiv e-prints, 2020. [Online]. Available: https://arxiv.org/abs/2006.11239 . Accessed on: April 29, 2024.

Yong-Hyun Park, Mingi Kwon, et al., “Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry,” in arXiv e-prints, 2023. [Online]. Available: https://arxiv.org/abs/2307.12868 . Accessed on: April 29, 2024.

Olaf Ronneberger, Philipp Fischer, and Thomas Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation,” in arXiv e-prints, 2015. [Online]. Available: https://arxiv.org/abs/1505.04597 . Accessed on: April 29, 2024.

Diederik P. Kingma, Max Welling, et al., “An Introduction to Variational Autoencoders,” in arXiv e-prints, 2019. [Online]. Available: https://arxiv.org/abs/1906.02691 . Accessed on: April 29, 2024.

Fan Judith. E., Bainbridge Wilma. A., et al, “Drawing as a versatile cognitive tool,” Nature Reviews Psychology, 2023. https://doi.org/10.1038/s44159-023-00212-w .

G. Greenberg, “Semantics of pictorial space,” Springer Link, 2021. https://doi.org/10.1007/s13164-020-00513-6 .

Gihyun Kwon, and Jong Chul Ye, “Diffusion-based Image Translation using Disentangled Style and Content Representation,” in arXiv e-prints, 2022. [Online]. Available: https://arxiv.org/abs/2209.15264 . Accessed on: April 29, 2024.

Aaron Hertzmann, “Toward a theory of perspective perception in pictures,” Journal of Vision, 2024. https://doi.org/10.1167/jov.24.4.23 .

Chenlin Meng, Yutong He, et al., “SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations,” in arXiv e-prints, 2021. [Online]. Available: https://arxiv.org/abs/2108.01073 . Accessed on: April 29, 2024.

Nataniel Ruiz, Yuanzhen Li, et al., “DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation,” in arXiv e-prints, 2022. [Online]. Available: https://arxiv.org/abs/2208.12242. Accessed on: April 29, 2024.

Edward J. Hu, Yelong Shen, et al., “LoRA: Low-Rank Adaptation of Large Language Models,” in arXiv e-prints, 2021. [Online]. Available: https://arxiv.org/abs/2106.09685 . Accessed on: April 29, 2024.

Lvmin Zhang, Anyi Rao, et al., “Adding Conditional Control to Text-to-Image Diffusion Models,” in arXiv e-prints, 2023. [Online]. Available: https://arxiv.org/abs/2302.05543. Accessed on: April 29, 2024.

Ron Mokady, Amir Hertz, et al., “Null-text Inversion for Editing Real Images using Guided Diffusion Models,” in arXiv e-prints, 2022. [Online]. Available: https://arxiv.org/abs/2211.09794 . Accessed on: April 29, 2024.

Inbar Huberman-Spiegelglas, Vladimir Kulikov, et al., “An Edit Friendly DDPM Noise Space: Inversion and Manipulations,” in arXiv e-prints, 2023. [Online]. Available: https://arxiv.org/abs/2304.06140 . Accessed on: April 29, 2024.

Amir Hertz, Andrey Voynov, et al., “Style Aligned Image Generation via Shared Attention,” in arXiv e-prints, 2023. [Online]. Available: https://arxiv.org/abs/2312.02133. Accessed on: April 29, 2024.

Xun Huang, Serge Belongie, “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization,” in arXiv e-prints, 2017. [Online]. Available: https://arxiv.org/abs/1703.06868 . Accessed on: April 29, 2024.

МЕТОДИ ЗАБЕЗПЕЧЕННЯ КОНСИСТЕНТНОСТІ ГЕНЕРАЦІЇ В ДИФУЗІЙНИХ МОДЕЛЯХ

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Л. Р. Кулик, Вінницький національний технічний університет

О. Б. Мокін, Вінницький національний технічний університет

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Метрики

Завантаження

Ліцензія

Статті цього автора (авторів), які найбільше читають

Мова

Подати статтю

Інформація

Відвідування

Поточний номер