11.14.3.4.1 Diffusion for Text to Image Generation

Chapter Contents (Back)
Diffusion Models. Synthesis. Image Synthesis. Text to Image.
See also Diffusion Process, Diffusion Operators, Mechanism, or Technique.
See also Adversarial Networks for Image Synthesis, Image Generation.

Li, C.[Cheng], Qi, Y.[Yali], Zeng, Q.[Qingtao], Lu, L.[Likun],
Comparison of Image Generation methods based on Diffusion Models,
CVIDL23(1-4)
IEEE DOI 2403
Training, Deep learning, Learning systems, Image synthesis, Computational modeling, Diffusion models BibRef

Chen, M.H.[Ming-Hao], Laina, I.[Iro], Vedaldi, A.[Andrea],
Training-Free Layout Control with Cross-Attention Guidance,
WACV24(5331-5341)
IEEE DOI 2404
Training, Visualization, Layout, Semantics, Noise, Benchmark testing, Algorithms, Generative models for image, video, 3D, etc BibRef

Huang, R.H.[Run-Hui], Han, J.H.[Jian-Hua], Lu, G.S.[Guan-Song], Liang, X.D.[Xiao-Dan], Zeng, Y.[Yihan], Zhang, W.[Wei], Xu, H.[Hang],
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability,
ICCV23(15667-15677)
IEEE DOI 2401
BibRef

Yang, X.Y.[Xing-Yi], Wang, X.C.[Xin-Chao],
Diffusion Model as Representation Learner,
ICCV23(18892-18903)
IEEE DOI Code:
WWW Link. 2401
BibRef

Nair, N.G.[Nithin Gopalakrishnan], Cherian, A.[Anoop], Lohit, S.[Suhas], Wang, Y.[Ye], Koike-Akino, T.[Toshiaki], Patel, V.M.[Vishal M.], Marks, T.K.[Tim K.],
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis,
ICCV23(20793-20803)
IEEE DOI 2401
BibRef

Wang, Z.D.[Zhen-Dong], Bao, J.M.[Jian-Min], Zhou, W.G.[Wen-Gang], Wang, W.[Weilun], Hu, H.[Hezhen], Chen, H.[Hong], Li, H.Q.[Hou-Qiang],
DIRE for Diffusion-Generated Image Detection,
ICCV23(22388-22398)
IEEE DOI Code:
WWW Link. 2401
BibRef

Tang, J.[Junshu], Wang, T.F.[Teng-Fei], Zhang, B.[Bo], Zhang, T.[Ting], Yi, R.[Ran], Ma, L.Z.[Li-Zhuang], Chen, D.[Dong],
Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior,
ICCV23(22762-22772)
IEEE DOI 2401
BibRef

Ge, S.W.[Song-Wei], Nah, S.J.[Seung-Jun], Liu, G.L.[Gui-Lin], Poon, T.[Tyler], Tao, A.[Andrew], Catanzaro, B.[Bryan], Jacobs, D.[David], Huang, J.B.[Jia-Bin], Liu, M.Y.[Ming-Yu], Balaji, Y.[Yogesh],
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models,
ICCV23(22873-22884)
IEEE DOI Code:
WWW Link. 2401
BibRef

Hong, S.[Susung], Lee, G.[Gyuseong], Jang, W.[Wooseok], Kim, S.[Seungryong],
Improving Sample Quality of Diffusion Models Using Self-Attention Guidance,
ICCV23(7428-7437)
IEEE DOI 2401
BibRef

Wu, J.Z.J.[Jay Zhang-Jie], Ge, Y.X.[Yi-Xiao], Wang, X.[Xintao], Lei, S.W.X.[Stan Wei-Xian], Gu, Y.C.[Yu-Chao], Shi, Y.F.[Yu-Fei], Hsu, W.[Wynne], Shan, Y.[Ying], Qie, X.[Xiaohu], Shou, M.Z.[Mike Zheng],
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation,
ICCV23(7589-7599)
IEEE DOI 2401
BibRef

Szymanowicz, S.[Stanislaw], Rupprecht, C.[Christian], Vedaldi, A.[Andrea],
Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D Data,
ICCV23(8829-8839)
IEEE DOI 2401
BibRef

Jiang, Y.[Yutao], Zhou, Y.[Yang], Liang, Y.[Yuan], Liu, W.X.[Wen-Xi], Jiao, J.B.[Jian-Bo], Quan, Y.H.[Yu-Hui], He, S.F.[Sheng-Feng],
Diffuse3D: Wide-Angle 3D Photography via Bilateral Diffusion,
ICCV23(8964-8974)
IEEE DOI Code:
WWW Link. 2401
BibRef

Feng, B.T.[Berthy T.], Smith, J.[Jamie], Rubinstein, M.[Michael], Chang, H.[Huiwen], Bouman, K.L.[Katherine L.], Freeman, W.T.[William T.],
Score-Based Diffusion Models as Principled Priors for Inverse Imaging,
ICCV23(10486-10497)
IEEE DOI 2401
BibRef

Yang, B.B.[Bin-Bin], Luo, Y.[Yi], Chen, Z.[Ziliang], Wang, G.[Guangrun], Liang, X.D.[Xiao-Dan], Lin, L.[Liang],
LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts,
ICCV23(22612-22622)
IEEE DOI 2401
BibRef

Levi, E.[Elad], Brosh, E.[Eli], Mykhailych, M.[Mykola], Perez, M.[Meir],
DLT: Conditioned layout generation with Joint Discrete-Continuous Diffusion Layout Transformer,
ICCV23(2106-2115)
IEEE DOI Code:
WWW Link. 2401
BibRef

Couairon, G.[Guillaume], Careil, M.[Marlène], Cord, M.[Matthieu], Lathuilière, S.[Stéphane], Verbeek, J.[Jakob],
Zero-shot spatial layout conditioning for text-to-image diffusion models,
ICCV23(2174-2183)
IEEE DOI 2401
BibRef

Zhang, L.[Lvmin], Rao, A.[Anyi], Agrawala, M.[Maneesh],
Adding Conditional Control to Text-to-Image Diffusion Models,
ICCV23(3813-3824)
IEEE DOI 2401
BibRef

Zhao, W.L.[Wen-Liang], Rao, Y.M.[Yong-Ming], Liu, Z.[Zuyan], Liu, B.[Benlin], Zhou, J.[Jie], Lu, J.W.[Ji-Wen],
Unleashing Text-to-Image Diffusion Models for Visual Perception,
ICCV23(5706-5716)
IEEE DOI Code:
WWW Link. 2401
BibRef

Xie, J.[Jinheng], Li, Y.X.[Yue-Xiang], Huang, Y.W.[Ya-Wen], Liu, H.Z.[Hao-Zhe], Zhang, W.[Wentian], Zheng, Y.F.[Ye-Feng], Shou, M.Z.[Mike Zheng],
BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion,
ICCV23(7418-7427)
IEEE DOI 2401
BibRef

Wu, Q.C.[Qiu-Cheng], Liu, Y.J.[Yu-Jian], Zhao, H.[Handong], Bui, T.[Trung], Lin, Z.[Zhe], Zhang, Y.[Yang], Chang, S.Y.[Shi-Yu],
Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis,
ICCV23(7732-7742)
IEEE DOI 2401
BibRef

Khachatryan, L.[Levon], Movsisyan, A.[Andranik], Tadevosyan, V.[Vahram], Henschel, R.[Roberto], Wang, Z.Y.[Zhang-Yang], Navasardyan, S.[Shant], Shi, H.[Humphrey],
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators,
ICCV23(15908-15918)
IEEE DOI Code:
WWW Link. 2401
BibRef

Zhao, J.[Jing], Zheng, H.[Heliang], Wang, C.[Chaoyue], Lan, L.[Long], Yang, W.J.[Wen-Jing],
MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models,
ICCV23(22535-22545)
IEEE DOI Code:
WWW Link. 2401
BibRef

Kumari, N.[Nupur], Zhang, B.L.[Bing-Liang], Wang, S.Y.[Sheng-Yu], Shechtman, E.[Eli], Zhang, R.[Richard], Zhu, J.Y.[Jun-Yan],
Ablating Concepts in Text-to-Image Diffusion Models,
ICCV23(22634-22645)
IEEE DOI 2401
BibRef

Schwartz, I.[Idan], Snæbjarnarson, V.[Vésteinn], Chefer, H.[Hila], Belongie, S.[Serge], Wolf, L.[Lior], Benaim, S.[Sagie],
Discriminative Class Tokens for Text-to-Image Diffusion Models,
ICCV23(22668-22678)
IEEE DOI Code:
WWW Link. 2401
BibRef

Patashnik, O.[Or], Garibi, D.[Daniel], Azuri, I.[Idan], Averbuch-Elor, H.[Hadar], Cohen-Or, D.[Daniel],
Localizing Object-level Shape Variations with Text-to-Image Diffusion Models,
ICCV23(22994-23004)
IEEE DOI 2401
BibRef

Ge, S.W.[Song-Wei], Park, T.[Taesung], Zhu, J.Y.[Jun-Yan], Huang, J.B.[Jia-Bin],
Expressive Text-to-Image Generation with Rich Text,
ICCV23(7511-7522)
IEEE DOI 2401
BibRef

Kim, Y.J.[Yun-Ji], Lee, J.Y.[Ji-Young], Kim, J.H.[Jin-Hwa], Ha, J.W.[Jung-Woo], Zhu, J.Y.[Jun-Yan],
Dense Text-to-Image Generation with Attention Modulation,
ICCV23(7667-7677)
IEEE DOI Code:
WWW Link. 2401
BibRef

Xiang, J.F.[Jian-Feng], Yang, J.[Jiaolong], Huang, B.B.[Bin-Bin], Tong, X.[Xin],
3D-aware Image Generation using 2D Diffusion Models,
ICCV23(2383-2393)
IEEE DOI 2401
BibRef

Schramowski, P.[Patrick], Brack, M.[Manuel], Deiseroth, B.[Björn], Kersting, K.[Kristian],
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models,
CVPR23(22522-22531)
IEEE DOI 2309
BibRef

Chen, C.[Chen], Liu, D.[Daochang], Ma, S.Q.[Si-Qi], Nepal, S.[Surya], Xu, C.[Chang],
Private Image Generation with Dual-Purpose Auxiliary Classifier,
CVPR23(20361-20370)
IEEE DOI 2309
BibRef

Chai, L.[Lucy], Tucker, R.[Richard], Li, Z.Q.[Zheng-Qi], Isola, P.[Phillip], Snavely, N.[Noah],
Persistent Nature: A Generative Model of Unbounded 3D Worlds,
CVPR23(20863-20874)
IEEE DOI 2309
BibRef

Ni, H.[Haomiao], Shi, C.[Changhao], Li, K.[Kai], Huang, S.X.[Sharon X.], Min, M.R.[Martin Renqiang],
Conditional Image-to-Video Generation with Latent Flow Diffusion Models,
CVPR23(18444-18455)
IEEE DOI 2309
BibRef

Zhang, Q.S.[Qin-Sheng], Song, J.[JiaMing], Huang, X.[Xun], Chen, Y.X.[Yong-Xin], Liu, M.Y.[Ming-Yu],
DiffCollage: Parallel Generation of Large Content with Diffusion Models,
CVPR23(10188-10198)
IEEE DOI 2309
BibRef

Phung, H.[Hao], Dao, Q.[Quan], Tran, A.[Anh],
Wavelet Diffusion Models are fast and scalable Image Generators,
CVPR23(10199-10208)
IEEE DOI 2309
BibRef

Shim, J.[Jaehyeok], Kang, C.W.[Chang-Woo], Joo, K.[Kyungdon],
Diffusion-Based Signed Distance Fields for 3D Shape Generation,
CVPR23(20887-20897)
IEEE DOI 2309
BibRef

Shue, J.R.[J. Ryan], Chan, E.R.[Eric Ryan], Po, R.[Ryan], Ankner, Z.[Zachary], Wu, J.J.[Jia-Jun], Wetzstein, G.[Gordon],
3D Neural Field Generation Using Triplane Diffusion,
CVPR23(20875-20886)
IEEE DOI 2309
BibRef

Kim, S.W.[Seung Wook], Brown, B.[Bradley], Yin, K.X.[Kang-Xue], Kreis, K.[Karsten], Schwarz, K.[Katja], Li, D.[Daiqing], Rombach, R.[Robin], Torralba, A.[Antonio], Fidler, S.[Sanja],
NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models,
CVPR23(8496-8506)
IEEE DOI 2309
BibRef

Luo, Z.X.[Zheng-Xiong], Chen, D.[Dayou], Zhang, Y.Y.[Ying-Ya], Huang, Y.[Yan], Wang, L.[Liang], Shen, Y.J.[Yu-Jun], Zhao, D.L.[De-Li], Zhou, J.[Jingren], Tan, T.N.[Tie-Niu],
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation,
CVPR23(10209-10218)
IEEE DOI 2309
BibRef

Ruan, L.[Ludan], Ma, Y.Y.[Yi-Yang], Yang, H.[Huan], He, H.G.[Hui-Guo], Liu, B.[Bei], Fu, J.L.[Jian-Long], Yuan, N.J.[Nicholas Jing], Jin, Q.[Qin], Guo, B.[Baining],
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation,
CVPR23(10219-10228)
IEEE DOI 2309
BibRef

Zhu, Y.Z.[Yuan-Zhi], Li, Z.[Zhaohai], Wang, T.W.[Tian-Wei], He, M.C.[Meng-Chao], Yao, C.[Cong],
Conditional Text Image Generation with Diffusion Models,
CVPR23(14235-14244)
IEEE DOI 2309
BibRef

Zhou, Y.F.[Yu-Fan], Liu, B.C.[Bing-Chen], Zhu, Y.Z.[Yi-Zhe], Yang, X.[Xiao], Chen, C.Y.[Chang-You], Xu, J.H.[Jin-Hui],
Shifted Diffusion for Text-to-image Generation,
CVPR23(10157-10166)
IEEE DOI 2309
BibRef

Li, M.[Muheng], Duan, Y.[Yueqi], Zhou, J.[Jie], Lu, J.W.[Ji-Wen],
Diffusion-SDF: Text-to-Shape via Voxelized Diffusion,
CVPR23(12642-12651)
IEEE DOI 2309
BibRef

Xu, J.[Jiale], Wang, X.[Xintao], Cheng, W.H.[Wei-Hao], Cao, Y.P.[Yan-Pei], Shan, Y.[Ying], Qie, X.[Xiaohu], Gao, S.H.[Sheng-Hua],
Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models,
CVPR23(20908-20918)
IEEE DOI 2309
BibRef

Chai, S.[Shang], Zhuang, L.S.[Lian-Sheng], Yan, F.Y.[Feng-Ying],
LayoutDM: Transformer-based Diffusion Model for Layout Generation,
CVPR23(18349-18358)
IEEE DOI 2309
BibRef

Wu, Q.C.[Qiu-Cheng], Liu, Y.J.[Yu-Jian], Zhao, H.[Handong], Kale, A.[Ajinkya], Bui, T.[Trung], Yu, T.[Tong], Lin, Z.[Zhe], Zhang, Y.[Yang], Chang, S.Y.[Shi-Yu],
Uncovering the Disentanglement Capability in Text-to-Image Diffusion Models,
CVPR23(1900-1910)
IEEE DOI 2309
BibRef

Jain, A.[Ajay], Xie, A.[Amber], Abbeel, P.[Pieter],
VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models,
CVPR23(1911-1920)
IEEE DOI 2309
BibRef

Kumari, N.[Nupur], Zhang, B.L.[Bing-Liang], Zhang, R.[Richard], Shechtman, E.[Eli], Zhu, J.Y.[Jun-Yan],
Multi-Concept Customization of Text-to-Image Diffusion,
CVPR23(1931-1941)
IEEE DOI 2309
BibRef

Hui, M.[Mude], Zhang, Z.Z.[Zhi-Zheng], Zhang, X.Y.[Xiao-Yi], Xie, W.X.[Wen-Xuan], Wang, Y.W.[Yu-Wang], Lu, Y.[Yan],
Unifying Layout Generation with a Decoupled Diffusion Model,
CVPR23(1942-1951)
IEEE DOI 2309
BibRef

Ruiz, N.[Nataniel], Li, Y.Z.[Yuan-Zhen], Jampani, V.[Varun], Pritch, Y.[Yael], Rubinstein, M.[Michael], Aberman, K.[Kfir],
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation,
CVPR23(22500-22510)
IEEE DOI 2309
BibRef

Zheng, G.C.[Guang-Cong], Zhou, X.P.[Xian-Pan], Li, X.W.[Xue-Wei], Qi, Z.A.[Zhong-Ang], Shan, Y.[Ying], Li, X.[Xi],
LayoutDiffusion: Controllable Diffusion Model for Layout-to-Image Generation,
CVPR23(22490-22499)
IEEE DOI 2309
BibRef

Liu, X.H.[Xi-Hui], Park, D.H.[Dong Huk], Azadi, S.[Samaneh], Zhang, G.[Gong], Chopikyan, A.[Arman], Hu, Y.X.[Yu-Xiao], Shi, H.[Humphrey], Rohrbach, A.[Anna], Darrell, T.J.[Trevor J.],
More Control for Free! Image Synthesis with Semantic Diffusion Guidance,
WACV23(289-299)
IEEE DOI 2302
Image synthesis, Annotations, Image matching, Semantics, Noise reduction, Probabilistic logic, Vision + language and/or other modalities BibRef

Pan, Z.H.[Zhi-Hong], Zhou, X.[Xin], Tian, H.[Hao],
Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image Generation,
WACV23(4450-4460)
IEEE DOI 2302
Graphics, Training, Technological innovation, Adaptation models, Adaptive systems, Art, Navigation, Vision + language and/or other modalities BibRef

Gu, S.Y.[Shu-Yang], Chen, D.[Dong], Bao, J.M.[Jian-Min], Wen, F.[Fang], Zhang, B.[Bo], Chen, D.D.[Dong-Dong], Yuan, L.[Lu], Guo, B.N.[Bai-Ning],
Vector Quantized Diffusion Model for Text-to-Image Synthesis,
CVPR22(10686-10696)
IEEE DOI 2210
Image quality, Image resolution, Image synthesis, Computational modeling, Noise reduction, Vision+language BibRef

Jing, B.[Bowen], Corso, G.[Gabriele], Berlinghieri, R.[Renato], Jaakkola, T.[Tommi],
Subspace Diffusion Generative Models,
ECCV22(XXIII:274-289).
Springer DOI 2211
BibRef

Han, L.G.[Li-Gong], Li, Y.X.[Yin-Xiao], Zhang, H.[Han], Milanfar, P.[Peyman], Metaxas, D.N.[Dimitris N.], Yang, F.[Feng],
SVDiff: Compact Parameter Space for Diffusion Fine-Tuning,
ICCV23(7289-7300)
IEEE DOI 2401
BibRef

Nair, N.G.[Nithin Gopalakrishnan], Bandara, W.G.C.[Wele Gedara Chaminda], Patel, V.M.[Vishal M.],
Unite and Conquer: Plug and Play Multi-Modal Synthesis Using Diffusion Models,
CVPR23(6070-6079)
IEEE DOI 2309
BibRef

Benny, Y.[Yaniv], Wolf, L.B.[Lior B.],
Dynamic Dual-Output Diffusion Models,
CVPR22(11472-11481)
IEEE DOI 2210
Image quality, Image synthesis, Noise reduction, Generative adversarial networks, Image and video synthesis and generation BibRef

Hu, M.H.[Ming-Hui], Wang, Y.J.[Yu-Jie], Cham, T.J.[Tat-Jen], Yang, J.F.[Jian-Fei], Suganthan, P.N.,
Global Context with Discrete Diffusion in Vector Quantised Modelling for Image Generation,
CVPR22(11492-11501)
IEEE DOI 2210
Training, Visualization, Image resolution, Image synthesis, Pipelines, Noise reduction, Probabilistic logic, Image and video synthesis and generation BibRef

Ma, H.Y.[Heng-Yuan], Zhang, L.[Li], Zhu, X.T.[Xia-Tian], Feng, J.F.[Jian-Feng],
Accelerating Score-Based Generative Models with Preconditioned Diffusion Sampling,
ECCV22(XXIII:1-16).
Springer DOI 2211
BibRef

Zheng, G.[Guangcong], Li, S.[Shengming], Wang, H.[Hui], Yao, T.P.[Tai-Ping], Chen, Y.[Yang], Ding, S.H.[Shou-Hong], Li, X.[Xi],
Entropy-Driven Sampling and Training Scheme for Conditional Diffusion Generation,
ECCV22(XXII:754-769).
Springer DOI 2211
BibRef

Liu, N.[Nan], Li, S.[Shuang], Du, Y.L.[Yi-Lun], Torralba, A.[Antonio], Tenenbaum, J.B.[Joshua B.],
Compositional Visual Generation with Composable Diffusion Models,
ECCV22(XVII:423-439).
Springer DOI 2211
BibRef

Sehwag, V.[Vikash], Hazirbas, C.[Caner], Gordo, A.[Albert], Ozgenel, F.[Firat], Ferrer, C.C.[Cristian Canton],
Generating High Fidelity Data from Low-density Regions using Diffusion Models,
CVPR22(11482-11491)
IEEE DOI 2210
Manifolds, Computational modeling, Diffusion processes, Data models, Pattern recognition, Representation learning BibRef

Chapter on 3-D Object Description and Computation Techniques, Surfaces, Deformable, View Generation, Video Conferencing continues in
Vision Transformers for Image Generation and Image Synthesis .

Last update:Apr 27, 2024 at 11:46:35