Keith Price Bibliography Bibtex Entry (ANCHOR 240300 URL http://dx.doi.org/10.1109/CVPR52734.2025.01246 TYPE CONFERENCE PAGES 13350-13360 YEAR 2025 MONTH NIL BIBSOURCE http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235218 VOLUME NIL JOURNAL CVPR25 AUTHOR Wang, H.Y. and Wang, L. and Zhou, S.P. and Tian, J.Y. and Qin, Z. and Wang, Y.B. and Hua, G. and Tang, W. TITLE Towards Precise Embodied Dialogue Localization via Causality Guided Diffusion)


@inproceedings{bb240300,
        AUTHOR = "Wang, H.Y. and Wang, L. and Zhou, S.P. and Tian, J.Y. and Qin, Z. and Wang, Y.B. and Hua, G. and Tang, W.",
        TITLE = "Towards Precise Embodied Dialogue Localization via Causality Guided
Diffusion",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "13350-13360",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235218"}

@inproceedings{bb240301,
        AUTHOR = "Jiang, B. and Chen, X. and Zhang, C. and Yin, F. and Li, Z.Y. and Yu, G. and Fan, J.Y.",
        TITLE = "Motionchain: Conversational Motion Controllers via Multimodal Prompts",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXVI: 54-74",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235219"}

@inproceedings{bb240302,
        AUTHOR = "Haydarov, K. and Shen, X.Q. and Madasu, A. and Salem, M. and Li, L.J. and Elsayed, G. and Elhoseiny, M.",
        TITLE = "Affective Visual Dialog: A Large-scale Benchmark for Emotional
Reasoning Based on Visually Grounded Conversations",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXXV: 18-36",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235220"}

@inproceedings{bb240303,
        AUTHOR = "Abdessaied, A. and Shi, L. and Bulling, A.",
        TITLE = "Multi-modal Video Dialog State Tracking in the Wild",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LVII: 348-365",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235221"}

@inproceedings{bb240304,
        AUTHOR = "Yoon, H.S. and Yoon, E. and Tee, J.T.J. and Zhang, K. and Heo, Y.J. and Chang, D.S. and Yoo, C.D.",
        TITLE = "BI-MDRG: Bridging Image History in Multimodal Dialogue Response
Generation",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXXI: 378-396",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235222"}

@inproceedings{bb240305,
        AUTHOR = "He, Q.Q. and Zhang, J. and Qian, S.W. and Wang, C.J.",
        TITLE = "Some Can Be Better than All:
Multimodal Star Transformer for Visual Dialog",
        BOOKTITLE = ICIP24,
        YEAR = "2024",
        PAGES = "2022-2026",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235223"}

@inproceedings{bb240306,
        AUTHOR = "Chen, Y. and Sikka, K. and Cogswell, M. and Ji, H. and Divakaran, A.",
        TITLE = "DRESS: Instructing Large Vision-Language Models to Align and
Interact with Humans via Natural Language Feedback",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "14239-14250",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235224"}

@inproceedings{bb240307,
        AUTHOR = "Abdessaied, A. and Shi, L. and Bulling, A.",
        TITLE = "VD-GR: Boosting Visual Dialog with Cascaded Spatial-Temporal
Multi-Modal GRaphs",
        BOOKTITLE = WACV24,
        YEAR = "2024",
        PAGES = "5793-5802",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235225"}

@inproceedings{bb240308,
        AUTHOR = "Han, S.J. and Hessel, J. and Dziri, N. and Choi, Y. and Yu, Y.J.",
        TITLE = "Champagne: Learning Real-world Conversation from Large-Scale Web
Videos",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15452-15463",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235226"}

@inproceedings{bb240309,
        AUTHOR = "Oshima, R. and Shinagawa, S. and Tsunashima, H. and Feng, Q. and Morishima, S.",
        TITLE = "Pointing out Human Answer Mistakes in a Goal-Oriented Visual Dialogue",
        BOOKTITLE = VLAR23,
        YEAR = "2023",
        PAGES = "4665-4670",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235227"}

@inproceedings{bb240310,
        AUTHOR = "Ishii, T. and Miura, J. and Hayashi, K.",
        TITLE = "Enhancing Human-Robot Collaborative Object Search through Human
Behavior Observation and Dialog",
        BOOKTITLE = ACVR23,
        YEAR = "2023",
        PAGES = "1841-1848",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235228"}

@inproceedings{bb240311,
        AUTHOR = "Madasu, A. and Lal, V.",
        TITLE = "Is Multimodal Vision Supervision Beneficial to Language?",
        BOOKTITLE = NFVLR23,
        YEAR = "2023",
        PAGES = "2637-2642",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235229"}

@inproceedings{bb240312,
        AUTHOR = "Ashutosh, K. and Girdhar, R. and Torresani, L. and Grauman, K.",
        TITLE = "HierVL: Learning Hierarchical Video-Language Embeddings",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "23066-23078",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235230"}

@inproceedings{bb240313,
        AUTHOR = "Smith, J.S. and Cascante Bonilla, P. and Arbelle, A. and Kim, D.H. and Panda, R. and Cox, D. and Yang, D. and Kira, Z. and Feris, R.S. and Karlinsky, L.",
        TITLE = "ConStruct-VL: Data-Free Continual Structured VL Concepts Learning*",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "14994-15004",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235231"}

@inproceedings{bb240314,
        AUTHOR = "Chen, Y.X. and Ma, Z.Y. and Zhang, Z.Q. and Qi, Z.A. and Yuan, C.F. and Shan, Y. and Li, B. and Hu, W.M. and Qie, X. and Wu, J.P.",
        TITLE = "ViLEM: Visual-Language Error Modeling for Image-Text Retrieval",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "11018-11027",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235232"}

@inproceedings{bb240315,
        AUTHOR = "Huang, J.J. and Li, Y. and Feng, J.S. and Wu, X.L. and Sun, X.S. and Ji, R.R.",
        TITLE = "Clover: Towards A Unified Video-Language Alignment and Fusion Model",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "14856-14866",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235233"}

@inproceedings{bb240316,
        AUTHOR = "Li, C.H. and Li, Z. and Jing, C.C. and Jia, Y.D. and Wu, Y.W.",
        TITLE = "Exploring the Effect of Primitives for Compositional Generalization
in Vision-and-Language",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "19092-19101",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235234"}

@inproceedings{bb240317,
        AUTHOR = "Yao, H.T. and Zhang, R. and Xu, C.S.",
        TITLE = "Visual-Language Prompt Tuning with Knowledge-Guided Context
Optimization",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "6757-6767",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235235"}

@inproceedings{bb240318,
        AUTHOR = "Kwon, H. and Song, T. and Jeong, S. and Kim, J. and Jang, J. and Sohn, K.H.",
        TITLE = "Probabilistic Prompt Learning for Dense Prediction",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "6768-6777",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235236"}

@inproceedings{bb240319,
        AUTHOR = "Luo, H.C. and Zhai, W. and Zhang, J. and Cao, Y. and Tao, D.C.",
        TITLE = "Leverage Interactive Affinity for Affordance Learning",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "6809-6819",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235237"}

@inproceedings{bb240320,
        AUTHOR = "Bagad, P. and Tapaswi, M. and Snoek, C.G.M.",
        TITLE = "Test of Time: Instilling Video-Language Models with a Sense of Time",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "2503-2516",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235238"}

@inproceedings{bb240321,
        AUTHOR = "Kang, G.C. and Kim, S. and Kim, J.H. and Kwak, D.H. and Zhang, B.T.",
        TITLE = "The Dialog Must Go On: Improving Visual Dialog via Generative
Self-Training",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "6746-6756",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235239"}

@inproceedings{bb240322,
        AUTHOR = "Bannur, S. and Hyland, S. and Liu, Q. and Perez Garcia, F. and Ilse, M. and Castro, D.C. and Boecking, B. and Sharma, H. and Bouzid, K. and Thieme, A. and Schwaighofer, A. and Wetscherek, M. and Lungren, M.P. and Nori, A. and Alvarez Valle, J. and Oktay, O.",
        TITLE = "Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "15016-15027",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235240"}

@inproceedings{bb240323,
        AUTHOR = "Srinivasan, T. and Ren, X. and Thomason, J.",
        TITLE = "Curriculum Learning for Data-Efficient Vision-Language Alignment",
        BOOKTITLE = ODRUM23,
        YEAR = "2023",
        PAGES = "5619-5624",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235241"}

@inproceedings{bb240324,
        AUTHOR = "Ibing, M. and Lim, I. and Kobbelt, L.",
        TITLE = "Localized Latent Updates for Fine-Tuning Vision-Language Models",
        BOOKTITLE = ECV23,
        YEAR = "2023",
        PAGES = "4509-4518",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235242"}

@inproceedings{bb240325,
        AUTHOR = "Zhou, Y.T. and Shimada, N.",
        TITLE = "Vision + Language Applications: A Survey",
        BOOKTITLE = GCV23,
        YEAR = "2023",
        PAGES = "826-842",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235243"}

@inproceedings{bb240326,
        AUTHOR = "Parisot, S. and Yang, Y.X. and McDonagh, S.",
        TITLE = "Learning to Name Classes for Vision and Language Models",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "23477-23486",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235244"}

@inproceedings{bb240327,
        AUTHOR = "Kim, S. and Jo, D. and Lee, D. and Kim, J.",
        TITLE = "MAGVLT: Masked Generative Vision-and-Language Transformer",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "23338-23348",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235245"}

@inproceedings{bb240328,
        AUTHOR = "Ji, Y. and Wang, J.J. and Gong, Y. and Zhang, L. and Zhu, Y. and Wang, H.F. and Zhang, J.X. and Sakai, T. and Yang, Y.",
        TITLE = "MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "23262-23271",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235246"}

@inproceedings{bb240329,
        AUTHOR = "Zhang, X. and Wang, W. and Chen, Z. and Xu, Y.F. and Zhang, J. and Tao, D.C.",
        TITLE = "CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "23272-23281",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235247"}

@inproceedings{bb240330,
        AUTHOR = "Wang, T. and Ge, Y.X. and Zheng, F. and Cheng, R. and Shan, Y. and Qie, X. and Luo, P.",
        TITLE = "Accelerating Vision-Language Pretraining with Free Language Modeling",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "23161-23170",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235248"}

@inproceedings{bb240331,
        AUTHOR = "Doveh, S. and Arbelle, A. and Harary, S. and Schwartz, E. and Herzig, R. and Giryes, R. and Feris, R.S. and Panda, R. and Ullman, S. and Karlinsky, L.",
        TITLE = "Teaching Structured Vision and Language Concepts to Vision and
Language Models",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "2657-2668",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235249"}

@inproceedings{bb240332,
        AUTHOR = "Chino, A. and Teraoka, T.",
        TITLE = "Relevance-aware Question Generation in Non-task-oriented Dialogue
Systems",
        BOOKTITLE = VAMR23,
        YEAR = "2023",
        PAGES = "344-358",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235250"}

@inproceedings{bb240333,
        AUTHOR = "Tang, Z. and Cho, J. and Lei, J. and Bansal, M.",
        TITLE = "PERCEIVER-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention",
        BOOKTITLE = WACV23,
        YEAR = "2023",
        PAGES = "4399-4409",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235251"}

@inproceedings{bb240334,
        AUTHOR = "Tripathi, A. and Mishra, A. and Chakraborty, A.",
        TITLE = "Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing",
        BOOKTITLE = WACV23,
        YEAR = "2023",
        PAGES = "4380-4389",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235252"}

@inproceedings{bb240335,
        AUTHOR = "Byun, J. and Hwang, T. and Fu, J.L. and Moon, T.",
        TITLE = "GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training",
        BOOKTITLE = ECCV22,
        YEAR = "2022",
        PAGES = "XIX:395-412",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235253"}

@inproceedings{bb240336,
        AUTHOR = "Yan, S.P. and Hong, L.Q. and Xu, H. and Han, J.H. and Tuytelaars, T. and Li, Z.G. and He, X.M.",
        TITLE = "Generative Negative Text Replay for Continual Vision-Language
Pretraining",
        BOOKTITLE = ECCV22,
        YEAR = "2022",
        PAGES = "XXXVI:22-38",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235254"}

@inproceedings{bb240337,
        AUTHOR = "Zhang, Y.F. and Jiang, M. and Zhao, Q.",
        TITLE = "New Datasets and Models for Contextual Reasoning in Visual Dialog",
        BOOKTITLE = ECCV22,
        YEAR = "2022",
        PAGES = "XXXVI:434-451",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235255"}

@inproceedings{bb240338,
        AUTHOR = "Pham, H.A. and Le, T.M. and Le, V. and Phuong, T.M. and Tran, T.",
        TITLE = "Video Dialog as Conversation About Objects Living in Space-Time",
        BOOKTITLE = ECCV22,
        YEAR = "2022",
        PAGES = "XXIX:710-726",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235256"}

@inproceedings{bb240339,
        AUTHOR = "Zhang, Z.F. and Jiang, T.L. and Liu, C.P. and Ji, Y.",
        TITLE = "Coupling Attention and Convolution for Heuristic Network in Visual
Dialog",
        BOOKTITLE = ICIP22,
        YEAR = "2022",
        PAGES = "2896-2900",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235257"}

@inproceedings{bb240340,
        AUTHOR = "Zhang, H.Y. and Li, Y.M. and Zhang, Z.F.",
        TITLE = "Video-Grounded Dialogues with Joint Video and Image Training",
        BOOKTITLE = ICIP22,
        YEAR = "2022",
        PAGES = "3903-3907",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235258"}

@inproceedings{bb240341,
        AUTHOR = "Zhang, S.Y. and Jiang, X.Z. and Yang, Z.Q. and Wan, T. and Qin, Z.C.",
        TITLE = "Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog",
        BOOKTITLE = MULA22,
        YEAR = "2022",
        PAGES = "4599-4608",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235259"}

@inproceedings{bb240342,
        AUTHOR = "Zhu, Y. and Weng, Y. and Zhu, F.D. and Liang, X.D. and Ye, Q.X. and Lu, Y.T. and Jiao, J.B.",
        TITLE = "Self-Motivated Communication Agent for Real-World Vision-Dialog
Navigation",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1574-1583",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235260"}

@inproceedings{bb240343,
        AUTHOR = "Engin, D. and Schnitzler, F. and Duong, N.Q.K. and Avrithis, Y.",
        TITLE = "On the hidden treasure of dialog in video question answering",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "2044-2053",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235261"}

@inproceedings{bb240344,
        AUTHOR = "Matsumori, S. and Shingyouchi, K. and Abe, Y. and Fukuchi, Y. and Sugiura, K. and Imai, M.",
        TITLE = "Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "1878-1887",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235262"}

@inproceedings{bb240345,
        AUTHOR = "Tu, T. and Ping, Q. and Thattai, G. and Tur, G. and Natarajan, P.",
        TITLE = "Learning Better Visual Dialog Agents with Pretrained
Visual-Linguistic Representation",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "5618-5627",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235263"}

@inproceedings{bb240346,
        AUTHOR = "Jiang, T.L. and Ji, Y. and Liu, C.P.",
        TITLE = "Integrating Historical States and Co-attention Mechanism for Visual
Dialog",
        BOOKTITLE = ICPR21,
        YEAR = "2021",
        PAGES = "2041-2048",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235264"}

@inproceedings{bb240347,
        AUTHOR = "Nguyen, V.Q. and Suganuma, M. and Okatani, T.",
        TITLE = "Efficient Attention Mechanism for Visual Dialog that Can Handle All the
Interactions Between Multiple Inputs",
        BOOKTITLE = ECCV20,
        YEAR = "2020",
        PAGES = "XXIV:223-240",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235265"}

@inproceedings{bb240348,
        AUTHOR = "Murahari, V. and Batra, D. and Parikh, D. and Das, A.",
        TITLE = "Large-scale Pretraining for Visual Dialog:
A Simple State-of-the-art Baseline",
        BOOKTITLE = ECCV20,
        YEAR = "2020",
        PAGES = "XVIII:336-352",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235266"}

@inproceedings{bb240349,
        AUTHOR = "Zhu, Y. and Wu, Y. and Yang, Y. and Yan, Y.",
        TITLE = "Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents",
        BOOKTITLE = ECCV20,
        YEAR = "2020",
        PAGES = "XXIII:153-169",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235267"}

@inproceedings{bb240350,
        AUTHOR = "Qi, J. and Niu, Y. and Huang, J. and Zhang, H.",
        TITLE = "Two Causal Principles for Improving Visual Dialog",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "10857-10866",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235268"}

@inproceedings{bb240351,
        AUTHOR = "Abbasnejad, E. and Teney, D. and Parvaneh, A. and Shi, J. and van den Hengel, A.J.",
        TITLE = "Counterfactual Vision and Language Learning",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "10041-10051",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235269"}

@inproceedings{bb240352,
        AUTHOR = "Zhu, Y. and Zhu, F. and Zhan, Z. and Lin, B. and Jiao, J. and Chang, X. and Liang, X.",
        TITLE = "Vision-Dialog Navigation by Exploring Cross-Modal Memory",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "10727-10736",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235270"}

@inproceedings{bb240353,
        AUTHOR = "Yang, T. and Zha, Z. and Zhang, H.",
        TITLE = "Making History Matter:
History-Advantage Sequence Training for Visual Dialog",
        BOOKTITLE = ICCV19,
        YEAR = "2019",
        PAGES = "2561-2569",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235271"}

@inproceedings{bb240354,
        AUTHOR = "Guo, D. and Xu, C. and Tao, D.C.",
        TITLE = "Image-Question-Answer Synergistic Network for Visual Dialog",
        BOOKTITLE = CVPR19,
        YEAR = "2019",
        PAGES = "10426-10435",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235272"}

@inproceedings{bb240355,
        AUTHOR = "Zheng, Z.L. and Wang, W.G. and Qi, S.Y. and Zhu, S.C.",
        TITLE = "Reasoning Visual Dialogs With Structural and Partial Observations",
        BOOKTITLE = CVPR19,
        YEAR = "2019",
        PAGES = "6662-6671",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235273"}

@inproceedings{bb240356,
        AUTHOR = "Bani, G. and Belli, D. and Dagan, G. and Geenen, A. and Skliar, A. and Venkatesh, A. and Baumgartner, T. and Bruni, E. and Fernandez, R.",
        TITLE = "Adding Object Detection Skills to Visual Dialogue Agents",
        BOOKTITLE = VL18,
        YEAR = "2018",
        PAGES = "IV:180-187",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235274"}

@inproceedings{bb240357,
        AUTHOR = "Yang, M. and Yang, N.S.R. and Zhang, K. and Tao, J.",
        TITLE = "Self-Talk: Responses to Users' Opinions and Challenges in Human
Computer Dialog",
        BOOKTITLE = ICPR18,
        YEAR = "2018",
        PAGES = "2839-2844",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235275"}

@inproceedings{bb240358,
        AUTHOR = "Jain, U. and Schwing, A. and Lazebnik, S.",
        TITLE = "Two Can Play This Game: Visual Dialog with Discriminative Question
Generation and Answering",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "5754-5763",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235276"}

@inproceedings{bb240359,
        AUTHOR = "Dokania, P.K. and Torr, P.H.S. and Siddharth, N. and Massiceti, D.",
        TITLE = "FLIPDIAL: A Generative Model for Two-Way Visual Dialogue",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "6097-6105",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235277"}

@inproceedings{bb240360,
        AUTHOR = "Wu, Q. and Wang, P. and Shen, C. and Reid, I.D. and van den Hengel, A.J.",
        TITLE = "Are You Talking to Me? Reasoned Visual Dialog Generation Through
Adversarial Learning",
        BOOKTITLE = CVPR18,
        YEAR = "2018",
        PAGES = "6106-6115",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235278"}

@inproceedings{bb240361,
        AUTHOR = "Kottur, S. and Moura, J.M.F. and Parikh, D. and Batra, D. and Rohrbach, M.",
        TITLE = "Visual Coreference Resolution in Visual Dialog Using Neural Module
Networks",
        BOOKTITLE = ECCV18,
        YEAR = "2018",
        PAGES = "XV: 160-178",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235279"}

@inproceedings{bb240362,
        AUTHOR = "Strub, F. and Seurin, M. and Perez, E. and de Vries, H. and Mary, J. and Preux, P. and Courville, A. and Pietquin, O.",
        TITLE = "Visual Reasoning with Multi-hop Feature Modulation",
        BOOKTITLE = ECCV18,
        YEAR = "2018",
        PAGES = "VI: 808-831",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235280"}

@inproceedings{bb240363,
        AUTHOR = "Das, A. and Kottur, S. and Moura, J.M.F. and Lee, S. and Batra, D.",
        TITLE = "Learning Cooperative Visual Dialog Agents with Deep Reinforcement
Learning",
        BOOKTITLE = ICCV17,
        YEAR = "2017",
        PAGES = "2970-2979",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235281"}

@inproceedings{bb240364,
        AUTHOR = "de Vries, H. and Strub, F. and Chandar, S. and Pietquin, O. and Larochelle, H. and Courville, A.",
        TITLE = "GuessWhat?! Visual Object Discovery through Multi-modal Dialogue",
        BOOKTITLE = CVPR17,
        YEAR = "2017",
        PAGES = "4466-4475",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235282"}

@inproceedings{bb240365,
        AUTHOR = "Nam, H. and Ha, J.W. and Kim, J.",
        TITLE = "Dual Attention Networks for Multimodal Reasoning and Matching",
        BOOKTITLE = CVPR17,
        YEAR = "2017",
        PAGES = "2156-2164",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235283"}

@inproceedings{bb240366,
        AUTHOR = "Johnson, J. and Hariharan, B. and van der Maaten, L. and Hoffman, J. and Fei Fei, L. and Zitnick, C.L. and Girshick, R.",
        TITLE = "Inferring and Executing Programs for Visual Reasoning",
        BOOKTITLE = ICCV17,
        YEAR = "2017",
        PAGES = "3008-3017",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235284"}

@inproceedings{bb240367,
        AUTHOR = "Johnson, J. and Hariharan, B. and van der Maaten, L. and Fei Fei, L. and Zitnick, C.L. and Girshick, R.",
        TITLE = "CLEVR: A Diagnostic Dataset for Compositional Language and Elementary
Visual Reasoning",
        BOOKTITLE = CVPR17,
        YEAR = "2017",
        PAGES = "1988-1997",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235285"}

@inproceedings{bb240368,
        AUTHOR = "Das, A. and Kottur, S. and Gupta, K. and Singh, A. and Yadav, D. and Moura, J.M.F. and Parikh, D. and Batra, D.",
        TITLE = "Visual Dialog",
        BOOKTITLE = CVPR17,
        YEAR = "2017",
        PAGES = "1080-1089",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vdi3.html#TT235286"}

@article{bb240369,
        AUTHOR = "Tamaazousti, Y. and Le Borgne, H. and Popescu, A. and Gadeski, E. and Ginsca, A. and Hudelot, C.",
        TITLE = "Vision-language integration using constrained local semantic features",
        JOURNAL = CVIU,
        VOLUME = "163",
        YEAR = "2017",
        NUMBER = "1",
        PAGES = "41-57",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235287"}

@article{bb240370,
        AUTHOR = "Zhu, Y.Q. and Li, X.Y. and Zheng, M. and Yang, J.H. and Wang, Z.H. and Guo, X.Q. and Chai, Z.F. and Yuan, Y.C. and Jiang, S.Q.",
        TITLE = "Focus and Align: Learning Tube Tokens for Video-Language Pre-Training",
        JOURNAL = MultMed,
        VOLUME = "25",
        YEAR = "2023",
        PAGES = "8036-8050",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235288"}

@article{bb240371,
        AUTHOR = "Wu, W.H. and Sun, Z. and Song, Y.X. and Wang, J.D. and Ouyang, W.L.",
        TITLE = "Transferring Vision-Language Models for Visual Recognition:
A Classifier Perspective",
        JOURNAL = IJCV,
        VOLUME = "132",
        YEAR = "2024",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "392-409",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235289"}

@article{bb240372,
        AUTHOR = "Ming, Y.F. and Li, Y.X.",
        TITLE = "How Does Fine-Tuning Impact Out-of-Distribution Detection for
Vision-Language Models?",
        JOURNAL = IJCV,
        VOLUME = "132",
        YEAR = "2024",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "596-609",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235290"}

@article{bb240373,
        AUTHOR = "Zhao, C.R. and Wang, Y. and Jiang, X.Y. and Shen, Y.F. and Song, K. and Li, D.S. and Miao, D.Q.",
        TITLE = "Learning Domain Invariant Prompt for Vision-Language Models",
        JOURNAL = IP,
        VOLUME = "33",
        YEAR = "2024",
        PAGES = "1348-1360",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235291"}

@article{bb240374,
        AUTHOR = "Yang, X.F. and Liu, F. and Lin, G.S.",
        TITLE = "Neural Logic Vision Language Explainer",
        JOURNAL = MultMed,
        VOLUME = "26",
        YEAR = "2024",
        PAGES = "3331-3340",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235292"}

@article{bb240375,
        AUTHOR = "Wang, Y.D. and Yu, Z.O. and Wang, J.D. and Heng, Q. and Chen, H. and Ye, W. and Xie, R. and Xie, X. and Zhang, S.K.",
        TITLE = "Exploring Vision-Language Models for Imbalanced Learning",
        JOURNAL = IJCV,
        VOLUME = "132",
        YEAR = "2024",
        NUMBER = "1",
        MONTH = "January",
        PAGES = "224-237",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235293"}

@article{bb240376,
        AUTHOR = "Zeng, Y. and Zhang, X. and Li, H. and Wang, J.W. and Zhang, J.P. and Zhou, W.",
        TITLE = "X2-VLM: All-in-One Pre-Trained Model for Vision-Language Tasks",
        JOURNAL = PAMI,
        VOLUME = "46",
        YEAR = "2024",
        NUMBER = "5",
        MONTH = "May",
        PAGES = "3156-3168",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235294"}

@article{bb240377,
        AUTHOR = "Kong, D. and Kong, K. and Kang, S.J.",
        TITLE = "Image clustering using generated text centroids",
        JOURNAL = SP:IC,
        VOLUME = "125",
        YEAR = "2024",
        PAGES = "117128",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235295"}

@article{bb240378,
        AUTHOR = "Chen, X.Y. and Yang, J.H. and Chen, S. and Wang, L. and Jiang, M. and Zhao, Q.",
        TITLE = "Every Problem, Every Step, All in Focus: Learning to Solve
Vision-Language Problems With Integrated Attention",
        JOURNAL = PAMI,
        VOLUME = "46",
        YEAR = "2024",
        NUMBER = "7",
        MONTH = "July",
        PAGES = "4720-4735",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235296"}

@article{bb240379,
        AUTHOR = "Menon, S. and Chandratreya, I.P. and Vondrick, C.",
        TITLE = "Task Bias in Contrastive Vision-Language Models",
        JOURNAL = IJCV,
        VOLUME = "132",
        YEAR = "2024",
        NUMBER = "6",
        MONTH = "June",
        PAGES = "2026-2040",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235297"}

@article{bb240380,
        AUTHOR = "Zhang, J.Y. and Huang, J.X. and Jin, S. and Lu, S.J.",
        TITLE = "Vision-Language Models for Vision Tasks: A Survey",
        JOURNAL = PAMI,
        VOLUME = "46",
        YEAR = "2024",
        NUMBER = "8",
        MONTH = "August",
        PAGES = "5625-5644",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235298"}

@article{bb240381,
        AUTHOR = "Dong, M.P. and Li, F. and Li, Z.B. and Liu, X.",
        TITLE = "Cluster prototype earth mover's distance adapters and
alignment-guided prompt learning for vision-language models",
        JOURNAL = PR,
        VOLUME = "156",
        YEAR = "2024",
        PAGES = "110861",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235299"}

@article{bb240382,
        AUTHOR = "Liu, Y. and Pan, Y. and Yin, J.",
        TITLE = "Enhancing Multi-Label Deep Hashing for Image and Audio With Joint
Internal Global Loss Constraints and Large Vision-Language Model",
        JOURNAL = SPLetters,
        VOLUME = "31",
        YEAR = "2024",
        PAGES = "2550-2554",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235300"}

@article{bb240383,
        AUTHOR = "Zhan, C.L. and Zhang, Y.F. and Lin, Y. and Wang, G.A. and Wang, H.W.",
        TITLE = "UniDCP: Unifying Multiple Medical Vision-Language Tasks via Dynamic
Cross-Modal Learnable Prompts",
        JOURNAL = MultMed,
        VOLUME = "26",
        YEAR = "2024",
        PAGES = "9736-9748",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235301"}

@article{bb240384,
        AUTHOR = "Su, K. and Zhang, X.X. and Zhang, S.Y. and Zhu, J. and Zhang, B.",
        TITLE = "To Boost Zero-Shot Generalization for Embodied Reasoning With
Vision-Language Pre-Training",
        JOURNAL = IP,
        VOLUME = "33",
        YEAR = "2024",
        PAGES = "5370-5381",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235302"}

@article{bb240385,
        AUTHOR = "Xuan, S.Y. and Yang, M. and Zhang, S.L.",
        TITLE = "Adapting Vision-Language Models via Learning to Inject Knowledge",
        JOURNAL = IP,
        VOLUME = "33",
        YEAR = "2024",
        PAGES = "5798-5809",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235303"}

@article{bb240386,
        AUTHOR = "Zhou, W. and Zhou, Z.H.",
        TITLE = "Unsupervised Domain Adaption Harnessing Vision-Language Pre-Training",
        JOURNAL = CirSysVideo,
        VOLUME = "34",
        YEAR = "2024",
        NUMBER = "9",
        MONTH = "September",
        PAGES = "8201-8214",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235304"}

@article{bb240387,
        AUTHOR = "Guo, M.H. and Zhang, Y. and Mu, T.J. and Huang, S.X. and Hu, S.M.",
        TITLE = "Tuning Vision-Language Models With Multiple Prototypes Clustering",
        JOURNAL = PAMI,
        VOLUME = "46",
        YEAR = "2024",
        NUMBER = "12",
        MONTH = "December",
        PAGES = "11186-11199",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235305"}

@article{bb240388,
        AUTHOR = "Sun, B. and Wu, Z.C. and Zhang, H. and He, J.",
        TITLE = "VTPL: Visual and text prompt learning for visual-language models",
        JOURNAL = JVCIR,
        VOLUME = "104",
        YEAR = "2024",
        PAGES = "104280",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235306"}

@article{bb240389,
        AUTHOR = "Liu, L.C. and Wang, N.N. and Liu, D. and Yang, X. and Gao, X.B. and Liu, T.L.",
        TITLE = "Towards Specific Domain Prompt Learning via Improved Text Label
Optimization",
        JOURNAL = MultMed,
        VOLUME = "26",
        YEAR = "2024",
        PAGES = "10805-10815",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235307"}

@article{bb240390,
        AUTHOR = "Liu, X. and Wu, J. and Yang, W.F. and Zhou, X. and Zhang, T.Z.",
        TITLE = "Multi-Modal Attribute Prompting for Vision-Language Models",
        JOURNAL = CirSysVideo,
        VOLUME = "34",
        YEAR = "2024",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "11579-11591",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235308"}

@article{bb240391,
        AUTHOR = "Jiang, H.J. and Zhang, J.K. and Huang, R. and Ge, C.J. and Ni, Z. and Song, S. and Huang, G.",
        TITLE = "Cross-modal adapter for vision-language retrieval",
        JOURNAL = PR,
        VOLUME = "159",
        YEAR = "2025",
        PAGES = "111144",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235309"}

@article{bb240392,
        AUTHOR = "Yellinek, N. and Karlinsky, L. and Giryes, R.",
        TITLE = "3VL: Using Trees to Improve Vision-Language Models' Interpretability",
        JOURNAL = IP,
        VOLUME = "34",
        YEAR = "2025",
        PAGES = "495-509",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235310"}

@article{bb240393,
        AUTHOR = "Yang, L.F. and Li, X. and Wang, Y.Z. and Wang, X.L. and Yang, J.",
        TITLE = "Fine-Grained Visual Text Prompting",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "1594-1609",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235311"}

@article{bb240394,
        AUTHOR = "Wang, F. and Han, Z.Y. and Liu, X. and Yin, Y.L. and Gao, X.",
        TITLE = "CTPT: Continual Test-time Prompt Tuning for vision-language models",
        JOURNAL = PR,
        VOLUME = "161",
        YEAR = "2025",
        PAGES = "111300",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235312"}

@article{bb240395,
        AUTHOR = "Liang, N. and Liu, Y.",
        TITLE = "DPO: Discrete Prompt Optimization for Vision-Language Models",
        JOURNAL = SPLetters,
        VOLUME = "32",
        YEAR = "2025",
        PAGES = "671-675",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235313"}

@article{bb240396,
        AUTHOR = "Ondeng, O. and Ouma, H. and Akuon, P.",
        TITLE = "Enriching visual feature representations for vision-language tasks
using spectral transforms",
        JOURNAL = IVC,
        VOLUME = "154",
        YEAR = "2025",
        PAGES = "105390",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235314"}

@article{bb240397,
        AUTHOR = "Xu, C. and Zhu, Y.H. and Shen, H.C. and Chen, B.H. and Liao, Y.X. and Chen, X.X. and Wang, L.M.",
        TITLE = "Progressive Visual Prompt Learning with Contrastive Feature
Re-formation",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "511-526",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235315"}

@article{bb240398,
        AUTHOR = "Long, S. and Zhao, Z. and Yuan, J.K. and Tan, Z.C. and Liu, J.J. and Feng, J.Y. and Wang, S.S. and Wang, J.D.",
        TITLE = "Mutual Prompt Leaning for Vision Language Models",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "1258-1276",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235316"}

@article{bb240399,
        AUTHOR = "Yin, J.H. and Zhang, X.Y. and Wu, L. and Wang, X.J.",
        TITLE = "Context-aware prompt learning for test-time vision recognition with
frozen vision-language model",
        JOURNAL = PR,
        VOLUME = "162",
        YEAR = "2025",
        PAGES = "111359",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235317"}
Last update:Feb 26, 2026 at 10:58:24