17.1.5.4.1 Generation of Human Interaction Images, Reconstruction, Synthesis

Chapter Contents (Back)
Synthesis. Generation. Interactions. Human-Object. HOI. 2509

See also Human Activities, Interacting with Objects, HOI.

Su, Z.[Zhuo], Xu, L.[Lan], Zhong, D.W.[Da-Wei], Li, Z.[Zhong], Deng, F.[Fan], Quan, S.[Shuxue], Fang, L.[Lu],
RobustFusion: Robust Volumetric Performance Reconstruction Under Human-Object Interactions from Monocular RGBD Stream,
PAMI(45), No. 5, May 2023, pp. 6196-6213.
IEEE DOI 2304
Image reconstruction, Visualization, Solid modeling, Semantics, Shape, Dynamics, robust BibRef

Jiang, Y.H.[Yu-Heng], Yao, K.X.[Kai-Xin], Su, Z.[Zhuo], Shen, Z.H.[Zhe-Hao], Luo, H.M.[Hai-Min], Xu, L.[Lan],
Instant-NVR: Instant Neural Volumetric Rendering for Human-object Interactions from Monocular RGBD Stream,
CVPR23(595-605)
IEEE DOI 2309
BibRef

Jiang, Y.H.[Yu-Heng], Jiang, S.[Suyi], Sun, G.X.[Guo-Xing], Su, Z.[Zhuo], Guo, K.W.[Kai-Wen], Wu, M.[Minye], Yu, J.Y.[Jing-Yi], Xu, L.[Lan],
NeuralHOFusion: Neural Volumetric Rendering under Human-object Interactions,
CVPR22(6145-6155)
IEEE DOI 2210
Geometry, Telepresence, Face recognition, Pose estimation, Pipelines, 3D from multi-view and sensors, Face and gestures, RGBD sensors and analytics BibRef

Razali, H.[Haziq], Demiris, Y.F.[Yi-Fannis],
Keystate-Driven Long-Term Generation of Bimanual Object Manipulation Sequences,
PAMI(47), No. 9, September 2025, pp. 7784-7795.
IEEE DOI 2508
Forecasting, Predictive models, Dictionaries, Trajectory, Hands, Transformers, Training, Solid modeling, Semantics, bimanual object manipulation BibRef

Xu, S.[Sirui], Li, D.T.[Dong-Ting], Zhang, Y.C.[Yu-Cheng], Xu, X.[Xiyan], Long, Q.[Qi], Wang, Z.[Ziyin], Lu, Y.Z.[Yun-Zhi], Dong, S.C.[Shu-Chang], Jiang, H.[Hezi], Gupta, A.[Akshat], Wang, Y.X.[Yu-Xiong], Gui, L.Y.[Liang-Yan],
InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation,
CVPR25(7048-7060)
IEEE DOI 2508
Hands, Solid modeling, Annotations, Data integrity, Computational modeling, Benchmark testing, Optimization, benchmark BibRef

Gao, D.[Dahua], Wang, W.L.[Wen-Long], Liu, X.Y.[Xin-Yu], Hu, Y.X.[Yu-Xi], Liu, D.H.[Dan-Hua],
Physics-guided human interaction generation via motion diffusion model,
CVIU(260), 2025, pp. 104470.
Elsevier DOI 2510
Text-driven motion synthesis, Diffusion model, Physical principle, Human interactive motions BibRef

Fieraru, M.[Mihai], Zanfir, M.[Mihai], Oneata, E.[Elisabeta], Popa, A.I.[Alin-Ionut], Olaru, V.[Vlad], Sminchisescu, C.[Cristian],
Reconstructing Three-Dimensional Models of Interacting Humans,
PAMI(47), No. 12, December 2025, pp. 10870-10881.
IEEE DOI 2511
Shape, Solid modeling, Annotations, Image reconstruction, Hands, Skeleton, Surface reconstruction, Motion capture, Video sequences, physical contact BibRef

Sun, W.Q.[Wen-Qian], Zuo, B.H.[Bing-Hui], Zhao, Z.[Zimeng], Wu, Z.J.[Zi-Jing], Wang, Y.G.[Yan-Gang],
Two-stage diffusion for hands and articulated objects interaction synthesis,
PR(173), 2026, pp. 112783.
Elsevier DOI 2601
Interaction generation, Diffusion models, Hand-object interaction BibRef

Sui, K.W.[Ke-Wei], Ghosh, A.[Anindita], Hwang, I.[Inwoo], Zhou, B.[Bing], Wang, J.[Jian], Guo, C.[Chuan],
A Survey on Human Interaction Motion Generation,
IJCV(134), No. 1, January 2026, pp. 113.
Springer DOI
WWW Link. 2602
BibRef

Kawamura, R.[Ryosuke], Milacski, Z.Á.[Zoltán Á.], de la Torre, F.[Fernando], Jeni, L.A.[László A.], Niinuma, K.[Koichiro],
Custom Condition Generation for Zero-Shot Human-Scene Interactions Synthesis,
FG25(1-11)
IEEE DOI 2601
Large language models, Face recognition, Training data, Gesture recognition, Optimization BibRef

Yang, C.C.[Chih-Chun], Cai, T.[Tianhui], Milacski, Z.[Zoltán], Prakash, A.[Aayush], Takagi, S.[Shingo], Kim, D.[Daeil], de la Torre, F.[Fernando],
OASIS: Object-guided Attention for Text-conditional Diffusion Synthesis of Human Interaction Sequences,
FG25(1-9)
IEEE DOI 2601
Measurement, Hands, Accuracy, Tracking, Impedance matching, Gesture recognition, Diffusion models, Robustness, Intelligent systems BibRef

Peng, X.G.[Xiao-Gang], Xie, Y.M.[Yi-Ming], Wu, Z.Z.[Zi-Zhao], Jampani, V.[Varun], Sun, D.Q.[De-Qing], Jiang, H.[Huaizu],
HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models,
HUMOGen25(2869-2879)
IEEE DOI 2512
Accuracy, Affordances, Dynamics, Coherence, Predictive models, Diffusion models, human motion generation BibRef

Pan, L.[Liang], Yang, Z.[Zeshi], Dou, Z.Y.[Zhi-Yang], Wang, W.J.[Wen-Jia], Huang, B.[Buzhen], Dai, B.[Bo], Komura, T.[Taku], Wang, J.B.[Jing-Bo],
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization,
CVPR25(5379-5391)
IEEE DOI 2508
Training, Geometry, Humanoid robots, Transformers, Multitasking, Tokenization, Extensibility, simulated character control, reinforcement learning BibRef

Wen, B.[Boran], Huang, D.B.[Ding-Bang], Zhang, Z.C.[Zi-Chen], Zhou, J.H.[Jia-Hong], Deng, J.B.[Jian-Bin], Gong, J.Y.[Jing-Yu], Chen, Y.L.[Yu-Long], Ma, L.Z.[Li-Zhuang], Li, Y.L.[Yong-Lu],
Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions,
CVPR25(17426-17436)
IEEE DOI Code:
WWW Link. 2508
Codes, Annotations, Pipelines, Image reconstruction, computer vision (cv), 3d reconstruction, activity analysis BibRef

Wang, Z.R.[Zhen-Rong], Zheng, Q.[Qi], Ma, S.[Sihan], Ye, M.S.[Mao-Sheng], Zhan, Y.B.[Yi-Bing], Li, D.J.[Dong-Jiang],
End-to-End HOI Reconstruction Transformer with Graph-based Encoding,
CVPR25(27706-27715)
IEEE DOI 2508
Image coding, Graph convolutional networks, Reconstruction algorithms, Transformers, Encoding, Topology, graph convolutional network BibRef

Hu, X.T.[Xin-Ting], Wang, H.R.[Hao-Ran], Lenssen, J.E.[Jan Eric], Schiele, B.[Bernt],
PersonaHOI: Effortlessly Improving Face Personalization in Human-Object Interaction Generation,
CVPR25(23775-23784)
IEEE DOI Code:
WWW Link. 2508
Measurement, Fuses, Face recognition, Scalability, Merging, Phase frequency detectors, Coherence, Standards, Facial features, diffusion models BibRef

Liu, K.[Kun], Liu, Q.[Qi], Liu, X.C.[Xin-Chen], Li, J.[Jie], Zhang, Y.D.[Yong-Dong], Luo, J.B.[Jie-Bo], He, X.D.[Xiao-Dong], Liu, W.[Wu],
HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation,
CVPR25(24001-24010)
IEEE DOI 2508
Measurement, Accuracy, Large language models, Instruments, Pipelines, Quality assessment, Fuels, Text to video, human-object interaction, evaluation BibRef

Zeng, L.A.[Ling-An], Huang, G.[Guohong], Wei, Y.L.[Yi-Lin], Gu, S.B.[Sheng-Bo], Tang, Y.M.[Yu-Ming], Meng, J.[Jingke], Zheng, W.S.[Wei-Shi],
ChainHOI: Joint-based Kinematic Chain Modeling for Human-Object Interaction Generation,
CVPR25(12358-12369)
IEEE DOI 2508
Codes, Convolution, Biological system modeling, Computational modeling, Semantics, Kinematics, Kinetic theory, explicit joint-level interaction modeling BibRef

Zhang, W.[Wanyue], Dabral, R.[Rishabh], Golyanik, V.[Vladislav], Choutas, V.[Vasileios], Alvarado, E.[Eduardo], Beeler, T.[Thabo], Habermann, M.[Marc], Theobalt, C.[Christian],
BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects,
CVPR25(27694-27705)
IEEE DOI Code:
WWW Link. 2508
Hands, Measurement, Large language models, Grasping, Animation, Generators, Trajectory, motion synthesis, animation, human-object interaction BibRef

Liu, Y.M.[Yu-Meng], Long, X.X.[Xiao-Xiao], Yang, Z.[Zemin], Liu, Y.[Yuan], Habermann, M.[Marc], Theobalt, C.[Christian], Ma, Y.X.[Yue-Xin], Wang, W.P.[Wen-Ping],
EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild,
CVPR25(7037-7047)
IEEE DOI Code:
WWW Link. 2508
Hands, Visualization, Solid modeling, Shape, Computational modeling, Robustness, Image reconstruction, Optimization, Videos, hand-object interaction BibRef

Prakash, A.[Aditya], Lundell, B.[Benjamin], Andreychuk, D.[Dmitry], Forsyth, D.A.[David A.], Gupta, S.[Saurabh], Sawhney, H.[Harpreet],
How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions,
CVPR25(7026-7036)
IEEE DOI 2508
Hands, Training, Solid modeling, Interpolation, Predictive models, Transformers, Cameras, Data models, Trajectory, motion prediction BibRef

Li, J.[Jiaman], Clegg, A.[Alexander], Mottaghi, R.[Roozbeh], Wu, J.J.[Jia-Jun], Puig, X.[Xavier], Liu, C.K.[C. Karen],
Controllable Human-object Interaction Synthesis,
ECCV24(XLI: 54-72).
Springer DOI 2412
BibRef

Dai, S.[Sisi], Li, W.H.[Wen-Hao], Sun, H.W.[Hao-Wen], Huang, H.B.[Hai-Bin], Ma, C.Y.[Chong-Yang], Huang, H.[Hui], Xu, K.[Kai], Hu, R.Z.[Rui-Zhen],
Interfusion: Text-driven Generation of 3d Human-object Interaction,
ECCV24(XLVIII: 18-35).
Springer DOI 2412
BibRef

Zhang, T.Y.[Tian-Yuan], Yu, H.X.[Hong-Xing], Wu, R.[Rundi], Feng, B.Y.[Brandon Y.], Zheng, C.X.[Chang-Xi], Snavely, N.[Noah], Wu, J.J.[Jia-Jun], Freeman, W.T.[William T.],
Physdreamer: Physics-based Interaction with 3d Objects via Video Generation,
ECCV24(II: 388-406).
Springer DOI 2412
BibRef

Li, L.[Lei], Dai, A.[Angela],
GenZI: Zero-Shot 3D Human-Scene Interaction Generation,
CVPR24(20465-20474)
IEEE DOI 2410
Training, Solid modeling, Shape, Semantics, Natural languages, Data models, Human-Scene Interaction, Zero-Shot, Vision-Language Models BibRef

Kulkarni, N.[Nilesh], Rempe, D.[Davis], Genova, K.[Kyle], Kundu, A.[Abhiiit], Johnson, J.[Justin], Fouhey, D.[David], Guibas, L.J.[Leonidas J.],
NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis,
CVPR24(947-957)
IEEE DOI Code:
WWW Link. 2410
Manifolds, Semantics, Pipelines, Diffusion models, Motion capture, Data models, human motion, human object interaction, generative modeling BibRef

Song, W.F.[Wen-Feng], Zhang, X.Y.[Xin-Yu], Li, S.[Shuai], Gao, Y.[Yang], Hao, A.[Aimin], Hau, X.[Xia], Chen, C.L.Z.[Cheng-Li-Zhao], Li, N.[Ning], Qin, H.[Hong],
HOIAnimator: Generating Text-Prompt Human-Object Animations Using Novel Perceptive Diffusion Models,
CVPR24(811-820)
IEEE DOI 2410
Technological innovation, Message passing, Computational modeling, Noise reduction, Linguistics, Animation BibRef

Yang, C.[ChangHee], Kang, C.[ChanHee], Kong, K.[Kyeongbo], Oh, H.[Hanni], Kang, S.J.[Suk-Ju],
Person in Place: Generating Associative Skeleton-Guidance Maps for Human-Object Interaction Image Editing,
CVPR24(8164-8175)
IEEE DOI Code:
WWW Link. 2410
Measurement, Codes, Computational modeling, Probabilistic logic, Skeleton, HOI Image editing, Image editing BibRef

Xie, X.H.[Xiang-Hui], Lenssen, J.E.[Jan Eric], Pons-Moll, G.[Gerard],
InterTrack: Tracking Human Object Interaction Without Object Templates,
3DV25(1427-1439)
IEEE DOI 2512
Training, Solid modeling, Codes, Video tracking, Shape, Autoencoders, Reconstruction algorithms, Optimization, Videos, 4d video tracking BibRef

Xie, X.H.[Xiang-Hui], Bhatnagar, B.L.[Bharat Lal], Lenssen, J.E.[Jan Eric], Pons-Moll, G.[Gerard],
Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation,
CVPR24(10003-10015)
IEEE DOI 2410
Training, Point cloud compression, Accuracy, Procedural generation, Shape, Diffusion models, 3D reconstruction, Conditional Diffusion models BibRef

Bhatnagar, B.L.[Bharat Lal], Xie, X.H.[Xiang-Hui], Petrov, I.A.[Ilya A.], Sminchisescu, C.[Cristian], Theobalt, C.[Christian], Pons-Moll, G.[Gerard],
BEHAVE: Dataset and Method for Tracking Human Object Interactions,
CVPR22(15914-15925)
IEEE DOI 2210
Solid modeling, Codes, Pose estimation, Neural networks, Mixed reality, Predictive models, 3D from multi-view and sensors, Vision+graphics BibRef

Diller, C.[Christian], Dai, A.[Angela],
CG-HOI: Contact-Guided 3D Human-Object Interaction Generation,
CVPR24(19888-19901)
IEEE DOI 2410
Training, Geometry, Solid modeling, Correlation, Dynamics, Diffusion processes BibRef

Zhang, W.[Wanyue], Dabral, R.[Rishabh], Leimkühler, T.[Thomas], Golyanik, V.[Vladislav], Habermann, M.[Marc], Theobalt, C.[Christian],
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors,
3DV24(1392-1402)
IEEE DOI Code:
WWW Link. 2408
Training, Solid modeling, Robustness, Motion capture, Numerical models, character animation, human-object interaction BibRef

Yi, H.W.[Hong-Wei], Thies, J.[Justus], Black, M.J.[Michael J.], Peng, X.B.[Xue Bin], Rempe, D.[Davis],
Generating Human Interaction Motions in Scenes with Text Control,
ECCV24(IV: 246-263).
Springer DOI 2412
BibRef

Ruiz-Ponce, P.[Pablo], Barquero, G.[German], Palmero, C.[Cristina], Escalera, S.[Sergio], García-Rodríguez, J.[José],
in2IN: Leveraging individual Information to Generate Human INteractions,
HUMOGen24(1941-1951)
IEEE DOI 2410
Legged locomotion, Metaverse, Large language models, Dynamics, Diversity reception, text-to-motion, interaction, composition, diffusion BibRef

Mir, A.[Aymen], Puig, X.[Xavier], Kanazawa, A.[Angjoo], Pons-Moll, G.[Gerard],
Generating Continual Human Motion in Diverse 3D Scenes,
3DV24(903-913)
IEEE DOI 2408
Geometry, Legged locomotion, Navigation, Foot, 3d Scenes, Human Motion, Human Scene Interaction BibRef

Li, Q.Z.[Quan-Zhou], Wang, J.B.[Jing-Bo], Loy, C.C.[Chen Change], Dai, B.[Bo],
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations,
WACV24(3023-3032)
IEEE DOI 2404
Video games, Motion estimation, Grasping, Motion pictures, Vectors, Digital humans, Algorithms, 3D computer vision, Algorithms BibRef

Chopin, B.[Baptiste], Tang, H.[Hao], Daoudi, M.[Mohamed],
Bipartite Graph Diffusion Model for Human Interaction Generation,
WACV24(5321-5330)
IEEE DOI Code:
WWW Link. 2404
Codes, Computational modeling, Diversity reception, Benchmark testing, Transformers, Animation, Algorithms, body pose BibRef

Lee, J.[Jiye], Joo, H.[Hanbyul],
Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in Complex 3D Environments,
ICCV23(9629-9640)
IEEE DOI Code:
WWW Link. 2401
BibRef

Xu, S.[Sirui], Li, Z.Y.[Zheng-Yuan], Wang, Y.X.[Yu-Xiong], Gui, L.Y.[Liang-Yan],
InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion,
ICCV23(14882-14894)
IEEE DOI 2401
BibRef

Pi, H.[Huaijin], Peng, S.[Sida], Yang, M.H.[Ming-Hui], Zhou, X.W.[Xiao-Wei], Bao, H.J.[Hu-Jun],
Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models,
ICCV23(15015-15027)
IEEE DOI Code:
WWW Link. 2401
BibRef

Zhao, K.F.[Kai-Feng], Wang, S.F.[Shao-Fei], Zhang, Y.[Yan], Beeler, T.[Thabo], Tang, S.[Siyu],
Compositional Human-Scene Interaction Synthesis with Semantic Control,
ECCV22(VI:311-327).
Springer DOI 2211
BibRef

Wang, X.[Xi], Li, G.[Gen], Kuo, Y.L.[Yen-Ling], Kocabas, M.[Muhammed], Aksan, E.[Emre], Hilliges, O.[Otmar],
Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors,
3DV22(353-362)
IEEE DOI 2408
Geometry, Solid modeling, Task analysis, Commonsense reasoning, Image reconstruction, 3D reconstruction, large language models, Human object interaction BibRef

Wang, J.S.[Jia-Shun], Xu, H.Z.[Hua-Zhe], Xu, J.W.[Jing-Wei], Liu, S.F.[Si-Fei], Wang, X.L.[Xiao-Long],
Synthesizing Long-Term 3D Human Motion and Interaction in 3D Scenes,
CVPR21(9396-9406)
IEEE DOI 2111
Graphics, Geometry, Affordances, Computational modeling, Cognition BibRef

Haidu, A.[Andrei], Zhang, X.Y.[Xiao-Yue], Beetz, M.[Michael],
Knowledge-Enabled Generation of Semantically Annotated Image Sequences of Manipulation Activities from VR Demonstrations,
CVS21(130-143).
Springer DOI 2109
BibRef

Baruah, M., Banerjee, B.,
A Multimodal Predictive Agent Model for Human Interaction Generation,
Precognition20(4402-4410)
IEEE DOI 2008
Predictive models, Data models, Solid modeling, Skeleton, Computational modeling, Visualization BibRef

Chapter on Motion -- Human Motion, Surveillance, Tracking, Surveillance, Activities continues in
Object Recognition Using Human Interaction, Handling .

Last update:Mar 28, 2026 at 17:09:41