Keith Price Bibliography Bibtex Entry (ANCHOR 240600 URL http://dx.doi.org/10.1109/CVPRW67362.2025.00280 TYPE CONFERENCE PAGES 2964-2974 YEAR 2025 MONTH NIL BIBSOURCE http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235517 VOLUME NIL JOURNAL Reasoning25 AUTHOR Lin, W. and Mirza, M.J. and Doveh, S. and Feris, R. and Giryes, R. and Hochreiter, S. and Karlinsky, L. TITLE Comparison Visual Instruction Tuning)


@inproceedings{bb240600,
        AUTHOR = "Lin, W. and Mirza, M.J. and Doveh, S. and Feris, R. and Giryes, R. and Hochreiter, S. and Karlinsky, L.",
        TITLE = "Comparison Visual Instruction Tuning",
        BOOKTITLE = Reasoning25,
        YEAR = "2025",
        PAGES = "2964-2974",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235517"}

@inproceedings{bb240601,
        AUTHOR = "Cascante Bonilla, P. and Shehada, K. and Smith, J.S. and Doveh, S. and Kim, D.H. and Panda, R. and Varol, G. and Oliva, A. and Ordonez, V. and Feris, R.S. and Karlinsky, L.",
        TITLE = "Going Beyond Nouns With Vision & Language Models Using Synthetic
Data",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "20098-20108",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235518"}

@inproceedings{bb240602,
        AUTHOR = "Upadhyay, U. and Karthik, S. and Mancini, M. and Akata, Z.",
        TITLE = "ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "1899-1910",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235519"}

@inproceedings{bb240603,
        AUTHOR = "Bitton Guetta, N. and Bitton, Y. and Hessel, J. and Schmidt, L. and Elovici, Y. and Stanovsky, G. and Schwartz, R.",
        TITLE = "Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "2616-2627",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235520"}

@inproceedings{bb240604,
        AUTHOR = "Hu, Z.Y. and Li, Y.Y. and Lyu, M.R. and Wang, L.W.",
        TITLE = "VL-PET: Vision-and-Language Parameter-Efficient Tuning via
Granularity Control",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "2998-3008",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235521"}

@inproceedings{bb240605,
        AUTHOR = "Slyman, E. and Kahng, M. and Lee, S.",
        TITLE = "VLSlice: Interactive Vision-and-Language Slice Discovery",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15245-15255",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235522"}

@inproceedings{bb240606,
        AUTHOR = "Najibi, M. and Ji, J.W. and Zhou, Y. and Qi, C.R. and Yan, X.C. and Ettinger, S. and Anguelov, D.",
        TITLE = "Unsupervised 3D Perception with 2D Vision-Language Distillation for
Autonomous Driving",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "8568-8578",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235523"}

@inproceedings{bb240607,
        AUTHOR = "Xu, H. and Xie, S. and Huang, P.Y. and Yu, L.C. and Howes, R. and Ghosh, G. and Zettlemoyer, L. and Feichtenhofer, C.",
        TITLE = "CiT: Curation in Training for Effective Vision-Language Data",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15134-15143",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235524"}

@inproceedings{bb240608,
        AUTHOR = "Trager, M. and Perera, P. and Zancato, L. and Achille, A. and Bhatia, P. and Soatto, S.",
        TITLE = "Linear Spaces of Meanings: Compositional Structures in
Vision-Language Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15349-15358",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235525"}

@inproceedings{bb240609,
        AUTHOR = "Chen, Y.S. and Song, Y.Z. and Yeo, C.Y. and Liu, B. and Fu, J.L. and Shuai, H.H.",
        TITLE = "SINC: Self-Supervised In-Context Learning for Vision-Language Tasks",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15384-15396",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235526"}

@inproceedings{bb240610,
        AUTHOR = "Wu, C.E. and Tian, Y. and Yu, H.C. and Wang, H. and Morgado, P. and Hu, Y.H. and Yang, L.J.",
        TITLE = "Why Is Prompt Tuning for Vision-Language Models Robust to Noisy
Labels?",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15442-15451",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235527"}

@inproceedings{bb240611,
        AUTHOR = "Ouali, Y. and Bulat, A. and Matinez, B. and Tzimiropoulos, G.",
        TITLE = "Black Box Few-Shot Adaptation for Vision-Language models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15488-15500",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235528"}

@inproceedings{bb240612,
        AUTHOR = "Kan, B. and Wang, T. and Lu, W.P. and Zhen, X.T. and Guan, W. and Zheng, F.",
        TITLE = "Knowledge-Aware Prompt Tuning for Generalizable Vision-Language
Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15624-15634",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235529"}

@inproceedings{bb240613,
        AUTHOR = "Zhai, J.T. and Zhang, Q. and Wu, T. and Chen, X.Y. and Liu, J.J. and Cheng, M.M.",
        TITLE = "SLAN: Self-Locator Aided Network for Vision-Language Understanding",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "21892-21901",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235530"}

@inproceedings{bb240614,
        AUTHOR = "Long, S. and Zhao, Z. and Yuan, J. and Tan, Z.C. and Liu, J.J. and Zhou, L.P. and Wang, S.S. and Wang, J.D.",
        TITLE = "Task-Oriented Multi-Modal Mutual Learning for Vision-Language Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "21902-21912",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235531"}

@inproceedings{bb240615,
        AUTHOR = "Cho, E. and Kim, J. and Kim, H.W.J.",
        TITLE = "Distribution-Aware Prompt Tuning for Vision-Language Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "21947-21956",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235532"}

@inproceedings{bb240616,
        AUTHOR = "Varma, M. and Delbrouck, J.B. and Hooper, S. and Chaudhari, A. and Langlotz, C.",
        TITLE = "ViLLA: Fine-Grained Vision-Language Representation Learning from
Real-World Data",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "22168-22178",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235533"}

@inproceedings{bb240617,
        AUTHOR = "Zhu, H.G. and Wei, Y.C. and Liang, X.D. and Zhang, C.J. and Zhao, Y.",
        TITLE = "CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "22200-22210",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235534"}

@inproceedings{bb240618,
        AUTHOR = "Hall, M. and Gustafson, L. and Adcock, A. and Misra, I. and Ross, C.",
        TITLE = "Vision-Language Models Performing Zero-Shot Tasks Exhibit Disparities
Between Gender Groups",
        BOOKTITLE = CLVL23,
        YEAR = "2023",
        PAGES = "2770-2777",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235535"}

@inproceedings{bb240619,
        AUTHOR = "Agnolucci, L. and Baldrati, A. and Todino, F. and Becattini, F. and Bertini, M. and del Bimbo, A.",
        TITLE = "ECO: Ensembling Context Optimization for Vision-Language Models",
        BOOKTITLE = CLVL23,
        YEAR = "2023",
        PAGES = "2803-2807",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235536"}

@inproceedings{bb240620,
        AUTHOR = "Palit, V. and Pandey, R. and Arora, A. and Liang, P.P.",
        TITLE = "Towards Vision-Language Mechanistic Interpretability: A Causal
Tracing Tool for BLIP",
        BOOKTITLE = CLVL23,
        YEAR = "2023",
        PAGES = "2848-2853",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235537"}

@inproceedings{bb240621,
        AUTHOR = "Sammani, F. and Deligiannis, N.",
        TITLE = "Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language
Tasks",
        BOOKTITLE = VLAR23,
        YEAR = "2023",
        PAGES = "4636-4641",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235538"}

@inproceedings{bb240622,
        AUTHOR = "Lee, D.J. and Song, S. and Suh, J. and Choi, J. and Lee, S. and Kim, H.W.J.",
        TITLE = "Read-only Prompt Optimization for Vision-Language Few-shot Learning",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "1401-1411",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235539"}

@inproceedings{bb240623,
        AUTHOR = "Li, X. and Fang, Y.H. and Liu, M.H. and Ling, Z. and Tu, Z.W. and Su, H.",
        TITLE = "Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "2492-2503",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235540"}

@inproceedings{bb240624,
        AUTHOR = "Bi, J.Y. and Cheng, D. and Yao, P. and Pang, B. and Zhan, Y.F. and Yang, C.G. and Wang, Y.J. and Sun, H. and Deng, W.W. and Zhang, Q.",
        TITLE = "VL-Match: Enhancing Vision-Language Pretraining with Token-Level and
Instance-Level Matching",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "2584-2593",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235541"}

@inproceedings{bb240625,
        AUTHOR = "Udandarao, V. and Gupta, A. and Albanie, S.",
        TITLE = "SuS-X: Training-Free Name-Only Transfer of Vision-Language Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "2725-2736",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235542"}

@inproceedings{bb240626,
        AUTHOR = "Jiang, C.Y. and Xu, H.Y. and Ye, W. and Ye, Q.H. and Li, C.L. and Yan, M. and Bi, B. and Zhang, S.K. and Huang, F. and Huang, S.F.",
        TITLE = "BUS: Efficient and Effective Vision-language Pre-training with
Bottom-Up Patch Summarization",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "2888-2898",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235543"}

@inproceedings{bb240627,
        AUTHOR = "Shi, C. and Yang, S.",
        TITLE = "LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "2920-2929",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235544"}

@inproceedings{bb240628,
        AUTHOR = "Wang, A.J.P. and Lin, K.Q.H. and Zhang, D.J.H. and Lei, S.W.X. and Shou, M.Z.",
        TITLE = "Too Large; Data Reduction for Vision-Language Pre-Training",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "3124-3134",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235545"}

@inproceedings{bb240629,
        AUTHOR = "Wang, W.H. and Yang, Z. and Xu, B. and Li, J.Z. and Sun, Y.K.",
        TITLE = "ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "3135-3146",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235546"}

@inproceedings{bb240630,
        AUTHOR = "Boecking, B. and Usuyama, N. and Bannur, S. and Castro, D.C. and Schwaighofer, A. and Hyland, S. and Wetscherek, M. and Naumann, T. and Nori, A. and Alvarez Valle, J. and Poon, H. and Oktay, O.",
        TITLE = "Making the Most of Text Semantics to Improve Biomedical Vision-Language
Processing",
        BOOKTITLE = ECCV22,
        YEAR = "2022",
        PAGES = "XXXVI:1-21",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235547"}

@inproceedings{bb240631,
        AUTHOR = "Cui, Q. and Zhou, B. and Guo, Y. and Yin, W.D. and Wu, H. and Yoshie, O. and Chen, Y.",
        TITLE = "Contrastive Vision-Language Pre-training with Limited Resources",
        BOOKTITLE = ECCV22,
        YEAR = "2022",
        PAGES = "XXXVI:236-253",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235548"}

@inproceedings{bb240632,
        AUTHOR = "Hu, X.W. and Gan, Z. and Wang, J.F. and Yang, Z.Y. and Liu, Z.C. and Lu, Y. and Wang, L.J.",
        TITLE = "Scaling Up Vision-Language Pretraining for Image Captioning",
        BOOKTITLE = CVPR22,
        YEAR = "2022",
        PAGES = "17959-17968",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235549"}

@inproceedings{bb240633,
        AUTHOR = "Zhang, P.C. and Li, X.J. and Hu, X.W. and Yang, J.W. and Zhang, L. and Wang, L.J. and Choi, Y.J. and Gao, J.F.",
        TITLE = "VinVL: Revisiting Visual Representations in Vision-Language Models",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "5575-5584",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235550"}

@inproceedings{bb240634,
        AUTHOR = "Li, Z.W. and Stengel Eskin, E. and Zhang, Y.X. and Xie, C. and Tran, Q. and van Durme, B. and Yuille, A.L.",
        TITLE = "Calibrating Concepts and Operations:
Towards Symbolic Reasoning on Real Images",
        BOOKTITLE = ICCV21,
        YEAR = "2021",
        PAGES = "14890-14899",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235551"}

@inproceedings{bb240635,
        AUTHOR = "Yang, X. and Zhang, H.W. and Qi, G.J. and Cai, J.F.",
        TITLE = "Causal Attention for Vision-Language Tasks",
        BOOKTITLE = CVPR21,
        YEAR = "2021",
        PAGES = "9842-9852",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235552"}

@inproceedings{bb240636,
        AUTHOR = "Zheng, W.B. and Yan, L. and Gou, C. and Wang, F.Y.",
        TITLE = "Webly Supervised Knowledge Embedding Model for Visual Reasoning",
        BOOKTITLE = CVPR20,
        YEAR = "2020",
        PAGES = "12442-12451",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235553"}

@inproceedings{bb240637,
        AUTHOR = "Nguyen, D.K. and Okatani, T.",
        TITLE = "Multi-Task Learning of Hierarchical Vision-Language Representation",
        BOOKTITLE = CVPR19,
        YEAR = "2019",
        PAGES = "10484-10493",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235554"}

@inproceedings{bb240638,
        AUTHOR = "Gupta, T. and Shih, K.J. and Singh, S. and Hoiem, D.",
        TITLE = "Aligned Image-Word Representations Improve Inductive Transfer Across
Vision-Language Tasks",
        BOOKTITLE = ICCV17,
        YEAR = "2017",
        PAGES = "4223-4232",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803vlm3.html#TT235555"}

@article{bb240639,
        AUTHOR = "Zhao, Z. and Wang, S. and Gu, J. and Zhu, Y. and Mei, L. and Zhuang, Z.X. and Cui, Z.M. and Wang, Q. and Shen, D.G.",
        TITLE = "ChatCAD+: Toward a Universal and Reliable Interactive CAD Using LLMs",
        JOURNAL = MedImg,
        VOLUME = "43",
        YEAR = "2024",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "3755-3766",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235556"}

@article{bb240640,
        AUTHOR = "Luo, H.N. and Zeng, Y.J. and Yang, L. and Chen, K. and Shen, Z.X. and Lv, F.M.",
        TITLE = "VLAI: Exploration and Exploitation based on Visual-Language Aligned
Information for Robotic Object Goal Navigation",
        JOURNAL = IVC,
        VOLUME = "151",
        YEAR = "2024",
        PAGES = "105259",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235557"}

@article{bb240641,
        AUTHOR = "Mansourian, A. and Oucheikh, R.",
        TITLE = "ChatGeoAI: Enabling Geospatial Analysis for Public through Natural
Language, with Large Language Models",
        JOURNAL = IJGI,
        VOLUME = "13",
        YEAR = "2024",
        NUMBER = "10",
        PAGES = "348",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235558"}

@article{bb240642,
        AUTHOR = "Li, D. and Zhao, Y. and Wang, Z.F. and Jung, C. and Zhang, Z.",
        TITLE = "Large Language Model-Driven Structured Output: A Comprehensive
Benchmark and Spatial Data Generation Framework",
        JOURNAL = IJGI,
        VOLUME = "13",
        YEAR = "2024",
        NUMBER = "11",
        PAGES = "405",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235559"}

@article{bb240643,
        AUTHOR = "Li, Y.X. and Hu, B.T. and Chen, X.Y. and Ma, L. and Xu, Y. and Zhang, M.",
        TITLE = "LMEye: An Interactive Perception Network for Large Language Models",
        JOURNAL = MultMed,
        VOLUME = "26",
        YEAR = "2024",
        PAGES = "10952-10964",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235560"}

@article{bb240644,
        AUTHOR = "Shao, R. and Zhang, Z.Y. and Tao, C. and Zhang, Y.S. and Peng, C.L. and Li, H.F.",
        TITLE = "Homogeneous tokenizer matters: Homogeneous visual tokenizer for
remote sensing image understanding",
        JOURNAL = PandRS,
        VOLUME = "218",
        YEAR = "2024",
        PAGES = "294-310",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235561"}

@article{bb240645,
        AUTHOR = "Wang, Z.H. and Luo, T. and Liu, C. and Liu, W.C. and Goh, R.S.M. and Wong, W.F.",
        TITLE = "Enabling Energy-Efficient Deployment of Large Language Models on
Memristor Crossbar: A Synergy of Large and Small",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "916-933",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235562"}

@article{bb240646,
        AUTHOR = "Zhan, Y. and Xiong, Z. and Yuan, Y.",
        TITLE = "SkyEyeGPT: Unifying remote sensing vision-language tasks via
instruction tuning with large language model",
        JOURNAL = PandRS,
        VOLUME = "221",
        YEAR = "2025",
        PAGES = "64-77",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235563"}

@article{bb240647,
        AUTHOR = "Zhu, Y. and Wen, Z.Y. and Li, X. and Shi, X.F. and Wu, X. and Dong, H. and Chen, J.M.",
        TITLE = "ChatNav: Leveraging LLM to Zero-Shot Semantic Reasoning in Object
Navigation",
        JOURNAL = CirSysVideo,
        VOLUME = "35",
        YEAR = "2025",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "2369-2381",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235564"}

@article{bb240648,
        AUTHOR = "Marasco, E. and Bourlai, T.",
        TITLE = "Enhancing trust in Large Language Models for streamlined
decision-making in military operations",
        JOURNAL = IVC,
        VOLUME = "158",
        YEAR = "2025",
        PAGES = "105489",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235565"}

@article{bb240649,
        AUTHOR = "Qiao, D. and Ao, X. and Liu, Y. and Chen, X.T. and Song, F.Y. and Qin, Z. and Jin, W.Q.",
        TITLE = "Tri-AFLLM: Resource-Efficient Adaptive Asynchronous Accelerated
Federated LLMs",
        JOURNAL = CirSysVideo,
        VOLUME = "35",
        YEAR = "2025",
        NUMBER = "5",
        MONTH = "May",
        PAGES = "4198-4211",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235566"}

@article{bb240650,
        AUTHOR = "Zhang, Y.X. and Liu, C.B. and Liu, Y.Z. and Gao, Y.F. and Lu, Z.Y. and Xie, H.T. and Zhang, Y.D.",
        TITLE = "Leveraging Concise Concepts With Probabilistic Modeling for
Interpretable Visual Recognition",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "3117-3131",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235567"}

@article{bb240651,
        AUTHOR = "Chen, L.F. and Hu, P. and Pan, Z.L. and Liu, Q. and Zhang, S.H. and Liu, Z.",
        TITLE = "Large Language Models Can Achieve Explainable and Training-Free
One-Shot HRRP ATR",
        JOURNAL = SPLetters,
        VOLUME = "32",
        YEAR = "2025",
        PAGES = "3395-3399",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235568"}

@article{bb240652,
        AUTHOR = "Yang, S.Y. and Yu, W.J. and Yang, W.J. and Liu, X.W. and Tan, H.B. and Lan, L. and Xiao, N.",
        TITLE = "WildVideo: Benchmarking LMMs for Understanding Video-Language
Interaction",
        JOURNAL = PAMI,
        VOLUME = "47",
        YEAR = "2025",
        NUMBER = "10",
        MONTH = "October",
        PAGES = "9330-9344",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235569"}

@article{bb240653,
        AUTHOR = "Chen, G. and Jiao, H.Y. and Hou, S.Y. and Liu, Z.Q. and Xie, L. and Wu, S. and Wu, H.Y. and Guan, X.F. and Gui, Z.P.",
        TITLE = "GeoJSEval: An Automated Evaluation Framework for Large Language
Models on JavaScript-Based Geospatial Computation and Visualization
Code Generation",
        JOURNAL = IJGI,
        VOLUME = "14",
        YEAR = "2025",
        NUMBER = "10",
        PAGES = "382",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235570"}

@article{bb240654,
        AUTHOR = "Zhang, H.J. and Dong, L. and Liu, Y. and Huang, Y.F. and Wang, Y.L. and Wang, L.M. and Qiao, Y.",
        TITLE = "LvBench: A Benchmark for Long-form Video Understanding with Versatile
Multi-modal Question Answering",
        JOURNAL = IJCV,
        VOLUME = "133",
        YEAR = "2025",
        NUMBER = "11",
        MONTH = "November",
        PAGES = "7726-7747",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235571"}

@inproceedings{bb240655,
        AUTHOR = "Li, K.C. and Wang, Y. and He, Y. and Li, Y.Z. and Wang, Y. and Liu, Y. and Wang, Z. and Xu, J. and Chen, G. and Lou, P. and Wang, L.M. and Qiao, Y.",
        TITLE = "MVBench: A Comprehensive Multi-modal Video Understanding Benchmark",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "22195-22206",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235572"}

@article{bb240656,
        AUTHOR = "Wang, X.R. and Zhang, H. and Li, B. and Liang, K.M. and Sun, H. and He, Z.J. and Ma, Z.Y. and Guo, J.",
        TITLE = "Detailed Object Description With Controllable Dimensions",
        JOURNAL = MultMed,
        VOLUME = "27",
        YEAR = "2025",
        PAGES = "8474-8485",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235573"}

@article{bb240657,
        AUTHOR = "Shi, X.Y. and Chen, S.F. and Zhang, G. and Wei, W. and Li, Y.L. and Fan, Z.X. and Liu, J.J.",
        TITLE = "Jailbreak Attack with Multimodal Virtual Scenario Hypnosis for
Vision-Language Models",
        JOURNAL = PR,
        VOLUME = "172",
        YEAR = "2026",
        PAGES = "112391",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235574"}

@article{bb240658,
        AUTHOR = "Peng, Z.R. and Liu, X.M. and Yang, G. and Liu, J. and Peng, X.P. and Long, Y.",
        TITLE = "The uncertainty advantage: Enhancing large language models'
reliability through chain of uncertainty reasoning",
        JOURNAL = PRL,
        VOLUME = "200",
        YEAR = "2026",
        PAGES = "30-36",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235575"}

@article{bb240659,
        AUTHOR = "Li, Y.X. and Liu, Z.Y. and Hu, B. and Wang, W. and Ding, Y.X. and Cao, X.C. and Zhang, M.",
        TITLE = "Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and
Sharing in LLMs",
        JOURNAL = IP,
        VOLUME = "35",
        YEAR = "2026",
        PAGES = "858-871",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235576"}

@article{bb240660,
        AUTHOR = "Shi, Y.Q. and Yang, R. and Yin, C.S. and Lu, Y.W. and Huang, B. and Tao, Y. and Zhong, Y.H.",
        TITLE = "Two-Stage Fine-Tuning of Large Vision-Language Models with
Hierarchical Prompting for Few-Shot Object Detection in Remote
Sensing Images",
        JOURNAL = RS,
        VOLUME = "18",
        YEAR = "2026",
        NUMBER = "2",
        PAGES = "266",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235577"}

@article{bb240661,
        AUTHOR = "Li, Q.Y. and Ma, S. and Luo, J.W. and Yu, Y. and Zhou, Y. and Wang, F.X. and Lu, X.D. and Wang, X.X. and He, X. and Chen, Y.S. and Yang, X.",
        TITLE = "Co-Training Vision-Language Models for Remote Sensing Multi-Task
Learning",
        JOURNAL = RS,
        VOLUME = "18",
        YEAR = "2026",
        NUMBER = "2",
        PAGES = "222",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235578"}

@article{bb240662,
        AUTHOR = "Zhang, D. and Li, Z.Z. and Zhang, M.L. and Zhang, J.X. and Liu, Z.Y. and Yao, Y.X. and Xu, H.T. and Zheng, J.H. and Chen, X. and Zhang, Y.Y. and Yin, F. and Dong, J.H. and Guo, Z.J. and Song, L. and Liu, C.L.",
        TITLE = "From System 1 to System 2: A Survey of Reasoning Large Language
Models",
        JOURNAL = PAMI,
        VOLUME = "48",
        YEAR = "2026",
        NUMBER = "3",
        MONTH = "March",
        PAGES = "3335-3354",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235579"}

@article{bb240663,
        AUTHOR = "Musacchio, E. and Siciliani, L. and Basile, P. and Semeraro, G.",
        TITLE = "Extending Large Language Models to multimodality for non-English
languages",
        JOURNAL = CVIU,
        VOLUME = "264",
        YEAR = "2026",
        PAGES = "104618",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235580"}

@article{bb240664,
        AUTHOR = "Wang, X. and Pan, Z. and Chen, H. and Zhu, W.W.",
        TITLE = "DiViCo: Disentangled Visual Token Compression for Efficient Large
Vision-Language Model",
        JOURNAL = CirSysVideo,
        VOLUME = "36",
        YEAR = "2026",
        NUMBER = "2",
        MONTH = "February",
        PAGES = "1392-1405",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235581"}

@article{bb240665,
        AUTHOR = "Liu, Z.Y. and Sun, Z.Y. and Zang, Y.H. and Li, W. and Zhang, P. and Dong, X.Y. and Xiong, Y.J. and Lin, D. and Wang, J.Q.",
        TITLE = "RAR: Retrieving and Ranking Augmented MLLMs for Visual Recognition",
        JOURNAL = IP,
        VOLUME = "35",
        YEAR = "2026",
        PAGES = "388-401",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235582"}

@inproceedings{bb240666,
        AUTHOR = "Liu, Z.X. and Jiang, G.K. and Khajavi, S.",
        TITLE = "LLaVA-SCo: Teach Vision Language Models to Self-Correct",
        BOOKTITLE = WiCV25,
        YEAR = "2025",
        PAGES = "3406-3415",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235583"}

@inproceedings{bb240667,
        AUTHOR = "Khattak, M.U. and Naeem, M.F. and Hassan, J. and Naseer, M. and Tombari, F. and Khan, F.S. and Khan, S.",
        TITLE = "How Good is my Video-LMM? Complex Video Reasoning and Robustness
Evaluation Suite for Video-LMMs",
        BOOKTITLE = WhatNext25,
        YEAR = "2025",
        PAGES = "3642-3651",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235584"}

@inproceedings{bb240668,
        AUTHOR = "Pham, C. and Phan, H. and Doermann, D. and Tian, Y.J.",
        TITLE = "PLVM: A Tuning-Free Approach for Personalized Large Vision-Language
Model",
        BOOKTITLE = WhatNext25,
        YEAR = "2025",
        PAGES = "3632-3641",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235585"}

@inproceedings{bb240669,
        AUTHOR = "Xie, H.C. and Ma, R. and Zhu, J.G. and Mai, Z. and Abd Almageed, W. and Abraham, Z.",
        TITLE = "Efficiently Mitigating Video Content Misalignment on Large Vision
Model with Time-Series Data Alignment",
        BOOKTITLE = LargeVM25,
        YEAR = "2025",
        PAGES = "3292-3298",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235586"}

@inproceedings{bb240670,
        AUTHOR = "Li, Y.F. and Bao, W.T. and Ye, B.T. and Tan, Z. and Chen, T.L. and Liu, H. and Kong, Y.",
        TITLE = "Window Token Concatenation for Efficient Visual Large Language Models",
        BOOKTITLE = LargeVM25,
        YEAR = "2025",
        PAGES = "3178-3188",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235587"}

@inproceedings{bb240671,
        AUTHOR = "Huang, Y.Q. and Qi, H. and Chen, Z. and Zhang, H.P. and Yu, H.C. and Zhao, Z.",
        TITLE = "Autonomous Multimodal Reasoning via Implicit Chain-of-Vision",
        BOOKTITLE = Reasoning25,
        YEAR = "2025",
        PAGES = "2954-2963",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235588"}

@inproceedings{bb240672,
        AUTHOR = "Mushtaq, E. and Fabian, Z. and Bakman, Y.F. and Ramakrishna, A. and Soltanolkotabi, M. and Avestimehr, S.",
        TITLE = "HARMONY: Hidden Activation Representations and Model Output-Aware
Uncertainty Estimation for Vision-Language Models",
        BOOKTITLE = TrustworthyOpen25,
        YEAR = "2025",
        PAGES = "1654-1659",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235589"}

@inproceedings{bb240673,
        AUTHOR = "Wang, Z. and Lo, F.P.W. and Chen, Q. and Zhang, Y.Q. and Lin, C. and Chen, X. and Yu, Z.H. and Thompson, A.J. and Yeatman, E.M. and Lo, B.P.L.",
        TITLE = "An LLM-Enabled Multi-Agent Autonomous Mechatronics Design Framework",
        BOOKTITLE = MultiEmbodied25,
        YEAR = "2025",
        PAGES = "4205-4215",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235590"}

@inproceedings{bb240674,
        AUTHOR = "Chen, J.H. and Yang, Z.Q. and Xu, H.Y.G. and Zhang, D.D. and Mylonas, G.",
        TITLE = "Multi-Agent Systems for Robotic Autonomy with LLMs",
        BOOKTITLE = MultiEmbodied25,
        YEAR = "2025",
        PAGES = "4194-4204",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235591"}

@inproceedings{bb240675,
        AUTHOR = "Singh, K. and Singh, S. and Khanna, M.",
        TITLE = "Trishul: Towards Region Identification and Screen Hierarchy
Understanding for Large VLM Based GUI Agents",
        BOOKTITLE = "MULA25",
        YEAR = "2025",
        PAGES = "170-179",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235592"}

@inproceedings{bb240676,
        AUTHOR = "Ardakani, M. and Malekar, J. and Zand, R.",
        TITLE = "LLMPi: Optimizing LLMs for High-Throughput on Raspberry Pi",
        BOOKTITLE = EDGE25,
        YEAR = "2025",
        PAGES = "6369-6378",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235593"}

@inproceedings{bb240677,
        AUTHOR = "Villa, A. and Alcazar, J.L. and Soto, A. and Ghanem, B.",
        TITLE = "Behind the Magic, MERLIM: Multi-Modal Evaluation Benchmark for Large
Image-Language Models",
        BOOKTITLE = "AIBench25",
        YEAR = "2025",
        PAGES = "492-502",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235594"}

@inproceedings{bb240678,
        AUTHOR = "Mei, G.F. and Lin, W. and Riz, L. and Wu, Y.J. and Poiesi, F. and Wang, Y.M.",
        TITLE = "PerLA: Perceptive 3D language assistant",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14369-14379",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235595"}

@inproceedings{bb240679,
        AUTHOR = "Han, Y.D. and Guo, Q. and Pan, L.Y. and Liu, L. and Guan, Y. and Yang, M.",
        TITLE = "DynFocus: Dynamic Cooperative Network Empowers LLMs with Video
Understanding",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "8512-8522",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235596"}

@inproceedings{bb240680,
        AUTHOR = "Liu, Y. and Liang, Z.Y. and Wang, Y.Z. and Wu, X.F. and Tang, F.L. and He, M. and Li, J. and Liu, Z. and Yang, H. and Lim, S. and Zhao, B.",
        TITLE = "Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering
Incorrectly",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9087-9097",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235597"}

@inproceedings{bb240681,
        AUTHOR = "Wang, Z.T. and Hu, S.M. and Zhao, S.Y. and Lin, X.W. and Juefei Xu, F. and Li, Z. and Han, L. and Subramanyam, H. and Chen, L. and Chen, J. and Jiang, N. and Lyu, L. and Ma, S.Q. and Metaxas, D.N. and Jain, A.",
        TITLE = "MLLM-as-a-Judge for Image Safety without Human Labeling",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14657-14666",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235598"}

@inproceedings{bb240682,
        AUTHOR = "Zhu, M. and Tian, Y.Z. and Chen, H. and Zhou, C. and Guo, Q. and Liu, Y. and Yang, M. and Shen, C.H.",
        TITLE = "SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by
Imitating Human Annotator Trajectories",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3686-3696",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235599"}

@inproceedings{bb240683,
        AUTHOR = "Zhu, L. and Chen, T.R. and Xu, Q.X. and Liu, X. and Ji, D. and Wu, H.Y. and Soh, D.W. and Liu, J.",
        TITLE = "POPEN: Preference-Based Optimization and Ensemble for LVLM-Based
Reasoning Segmentation",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "30231-30240",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235600"}

@inproceedings{bb240684,
        AUTHOR = "Niu, J. and Li, Y.F. and Miao, Z.Y. and Ge, C.J. and Zhou, Y.H. and He, Q.H. and Dong, X.Y. and Duan, H.D. and Ding, S. and Qian, R. and Zhang, P. and Zang, Y.H. and Cao, Y.H. and He, C.H. and Wang, J.Q.",
        TITLE = "OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video
Understanding?",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "18902-18913",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235601"}

@inproceedings{bb240685,
        AUTHOR = "Xue, X.Y. and Lu, Z. and Huang, D. and Wang, Z.D. and Ouyang, W.L. and Bai, L.",
        TITLE = "ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously
Designing Collaborative AI Systems",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24614-24624",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235602"}

@inproceedings{bb240686,
        AUTHOR = "Zhao, Z. and Huo, Y.Q. and Yue, T.T. and Guo, L.T. and Lu, H.Y. and Wang, B.N. and Chen, W.P. and Liu, J.",
        TITLE = "Efficient Motion-Aware Video MLLM",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24159-24168",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235603"}

@inproceedings{bb240687,
        AUTHOR = "Wu, R.H. and Su, W. and Liao, J.",
        TITLE = "Chat2SVG: Vector Graphics Generation with Large Language Models and
Image Diffusion Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "23690-23700",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235604"}

@inproceedings{bb240688,
        AUTHOR = "Yang, S. and Chen, Y. and Tian, Z. and Wang, C.Y. and Li, J.Y. and Yu, B. and Jia, J.Y.",
        TITLE = "VisionZip: Longer is Better but Not Necessary in Vision Language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19792-19802",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235605"}

@inproceedings{bb240689,
        AUTHOR = "Xie, J.Y. and Yang, J.T. and Luo, Z. and Cao, Y. and Gao, Q. and Zhang, M.Y. and Hu, W.P.",
        TITLE = "AdaDARE-y: Balancing Stability and Plasticity in Multi-modal LLMs
through Efficient Adaptation",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "19758-19768",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235606"}

@inproceedings{bb240690,
        AUTHOR = "Tao, K. and Qin, C. and You, H.X. and Sui, Y. and Wang, H.",
        TITLE = "DyCoke: Dynamic Compression of Tokens for Fast Video Large Language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "18992-19001",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235607"}

@inproceedings{bb240691,
        AUTHOR = "Tao, C.X. and Su, S.Q. and Zhu, X.Z. and Zhang, C.Y. and Chen, Z. and Liu, J. and Wang, W.H. and Lu, L.W. and Huang, G. and Qiao, Y. and Dai, J.F.",
        TITLE = "HoVLE: Unleashing the Power of Monolithic Vision-Language Models with
Holistic Vision-Language Embedding",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "14559-14569",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235608"}

@inproceedings{bb240692,
        AUTHOR = "Yin, H. and Si, G.Z. and Wang, Z.",
        TITLE = "Lifting the Veil on Visual Information Flow in MLLMs: Unlocking
Pathways to Faster Inference",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9382-9391",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235609"}

@inproceedings{bb240693,
        AUTHOR = "Yang, L.R. and Shen, D. and Cai, C.X. and Chen, K.B. and Yang, F. and Gao, T.T. and Zhang, D. and Li, X.",
        TITLE = "Libra-Merging: Importance-Redundancy and Pruning-Merging Trade-Off
for Acceleration Plug-In in Large Vision-Language Model",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9402-9412",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235610"}

@inproceedings{bb240694,
        AUTHOR = "Liang, Y. and Wang, Z.W. and Xu, X.W. and Zhou, J. and Lu, J.W.",
        TITLE = "EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language
Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "9445-9454",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235611"}

@inproceedings{bb240695,
        AUTHOR = "Heo, M. and Chen, M.H. and Huang, D.A. and Liu, S. and Radhakrishnan, S. and Kim, S.J. and Wang, Y.C.A.F. and Hachiuma, R.",
        TITLE = "Omni-RGPT: Unifying Image and Video Region-level Understanding via
Token Marks",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "3919-3930",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235612"}

@inproceedings{bb240696,
        AUTHOR = "Ouali, Y. and Bulat, A. and Xenos, A. and Zaganidis, A. and Metaxas, I.M. and Martinez, B. and Tzimiropoulos, G.",
        TITLE = "VladVA: Discriminative Fine-tuning of LVLMs",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4101-4111",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235613"}

@inproceedings{bb240697,
        AUTHOR = "Schnaus, D. and Araslanov, N. and Cremers, D.",
        TITLE = "It's a (Blind) Match! Towards Vision-Language Correspondence without
Parallel Data",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24983-24992",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235614"}

@inproceedings{bb240698,
        AUTHOR = "Zhao, Y.Q. and Yin, Y.Y. and Li, L. and Lin, M. and Huang, V.S.J. and Chen, S.W. and Chen, W.P. and Yin, B. and Zhou, Z. and Zhang, W.T.",
        TITLE = "Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual
Knowledge",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "24950-24959",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235615"}

@inproceedings{bb240699,
        AUTHOR = "Ye, X. and Gan, Y. and Huang, X. and Ge, Y.X. and Tang, Y.S.",
        TITLE = "VoCo-LLaMA: Towards Vision Compression with Large Language Models",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "29836-29846",
        BIBSOURCE = "http://www.visionbib.com/bibliography/applicat803llm4.html#TT235616"}
Last update:Feb 26, 2026 at 10:58:24