Keith Price Bibliography Bibtex Entry (ANCHOR 158900 URL http://dx.doi.org/10.1109/CVPR52734.2025.01875 TYPE CONFERENCE PAGES 20135-20145 YEAR 2025 MONTH NIL BIBSOURCE http://www.visionbib.com/bibliography/pattern651vit2.html#TT154768 VOLUME NIL JOURNAL CVPR25 AUTHOR Zhou, Y. and Xu, Q.S. and Cui, J. and Zhou, J. and Zhang, J. and Hong, R.C. and Zhang, H.W. TITLE CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction)


@inproceedings{bb158900,
        AUTHOR = "Zhou, Y. and Xu, Q.S. and Cui, J. and Zhou, J. and Zhang, J. and Hong, R.C. and Zhang, H.W.",
        TITLE = "CARE Transformer: Mobile-Friendly Linear Visual Transformer via
Decoupled Dual Interaction",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "20135-20145",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154768"}

@inproceedings{bb158901,
        AUTHOR = "Yu, H. and Jiang, T. and Jia, S. and Yan, S.N. and Liu, S.N. and Qian, H.L. and Li, G.H. and Dong, S.T. and Yuan, C.",
        TITLE = "ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized
by Trainable Commuting Angle Matrices",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "4508-4517",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154769"}

@inproceedings{bb158902,
        AUTHOR = "Chen, G.L. and Fu, T.W. and Chen, H.W. and Teng, W.B. and Xiao, H.Y. and Zhao, Y.J.",
        TITLE = "RDD: Robust Feature Detector and Descriptor using Deformable
Transformer",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "6394-6403",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154770"}

@inproceedings{bb158903,
        AUTHOR = "Pardyl, A. and Kurzejamski, G. and Olszewski, J. and Trzcinski, T. and Zielinski, B.",
        TITLE = "Beyond Grids: Exploring Elastic Input Sampling for Vision
Transformers",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "8536-8545",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154771"}

@inproceedings{bb158904,
        AUTHOR = "Zhong, Y. and Zhou, Y.",
        TITLE = "Rethinking Low-Rank Adaptation in Vision:
Exploring Head-Level Responsiveness across Diverse Tasks",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "7787-7796",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154772"}

@inproceedings{bb158905,
        AUTHOR = "Pipoli, V. and Bolelli, F. and Sarto, S. and Cornia, M. and Baraldi, L. and Grana, C. and Cucchiara, R. and Ficarra, E.",
        TITLE = "Semantically Conditioned Prompts for Visual Recognition Under Missing
Modality Scenarios",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "4968-4977",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154773"}

@inproceedings{bb158906,
        AUTHOR = "Go, J. and Ryu, J.B.",
        TITLE = "Channel Propagation Networks for Refreshable Vision Transformer",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "1353-1362",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154774"}

@inproceedings{bb158907,
        AUTHOR = "Nauen, T.C. and Palacio, S. and Raue, F. and Dengel, A.",
        TITLE = "Which Transformer to Favor: A Comparative Analysis of Efficiency in
Vision Transformers",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "6955-6966",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154775"}

@inproceedings{bb158908,
        AUTHOR = "Tai, Y.S. and Wu, A.Y.A.",
        TITLE = "AMP-ViT: Optimizing Vision Transformer Efficiency with Adaptive
Mixed-Precision Post-Training Quantization",
        BOOKTITLE = WACV25,
        YEAR = "2025",
        PAGES = "6828-6837",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154776"}

@inproceedings{bb158909,
        AUTHOR = "Chen, P.Q. and Yu, L. and Wan, Y. and Zhang, Y.J. and Wang, J. and Zhong, L.H. and Chen, J.D. and Yang, M.",
        TITLE = "Ecomatcher: Efficient Clustering Oriented Matcher for Detector-free
Image Matching",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LXVIII: 344-360",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154777"}

@inproceedings{bb158910,
        AUTHOR = "Wang, H.Q. and Zhang, T. and Salzmann, M.",
        TITLE = "Sinder: Repairing the Singular Defects of Dinov2",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "VII: 20-35",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154778"}

@inproceedings{bb158911,
        AUTHOR = "Suri, S. and Walmer, M. and Gupta, K. and Shrivastava, A.",
        TITLE = "Lift: A Surprisingly Simple Lightweight Feature Transform for Dense Vit
Descriptors",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "VII: 110-128",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154779"}

@inproceedings{bb158912,
        AUTHOR = "Pan, Z.Z. and Liu, J. and He, H.Y. and Cai, J.F. and Zhuang, B.",
        TITLE = "Stitched VITS are Flexible Vision Backbones",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XLI: 258-274",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154780"}

@inproceedings{bb158913,
        AUTHOR = "Kim, D.H. and Heo, B. and Han, D.Y.",
        TITLE = "Densenets Reloaded: Paradigm Shift Beyond Resnets and VITS",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "III: 395-415",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154781"}

@inproceedings{bb158914,
        AUTHOR = "Zhang, C. and Cheng, J. and Li, Q.X.",
        TITLE = "An Optimal Control View of Lora and Binary Controller Design for Vision
Transformers",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "LIII: 144-160",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154782"}

@inproceedings{bb158915,
        AUTHOR = "Zhang, T. and Bai, J. and Lu, Z. and Lian, D.Z. and Wang, G. and Wang, X.C. and Xia, S.T.",
        TITLE = "Parameter-efficient and Memory-efficient Tuning for Vision Transformer:
A Disentangled Approach",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XLV: 346-363",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154783"}

@inproceedings{bb158916,
        AUTHOR = "Wang, H.Y. and Tang, H. and Jiang, L. and Shi, S.S. and Naeem, M.F. and Li, H.S. and Schiele, B. and Wang, L.W.",
        TITLE = "Git: Towards Generalist Vision Transformer Through Universal Language
Interface",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXIX: 55-73",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154784"}

@inproceedings{bb158917,
        AUTHOR = "Wu, Z.G.Y. and Chen, J.X. and Zhong, H. and Huang, D. and Wang, Y.H.",
        TITLE = "Adalog: Post-training Quantization for Vision Transformers with
Adaptive Logarithm Quantizer",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XXVII: 411-427",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154785"}

@inproceedings{bb158918,
        AUTHOR = "Xiao, H. and Zheng, W.Z. and Zuo, S.C. and Gao, P. and Zhou, J. and Lu, J.W.",
        TITLE = "Spatialformer: Towards Generalizable Vision Transformers with Explicit
Spatial Understanding",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XIII: 37-54",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154786"}

@inproceedings{bb158919,
        AUTHOR = "Heo, B. and Park, S. and Han, D.Y. and Yun, S.",
        TITLE = "Rotary Position Embedding for Vision Transformer",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "X: 289-305",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154787"}

@inproceedings{bb158920,
        AUTHOR = "Bellitto, G. and Sortino, R. and Spadaro, P. and Palazzo, S. and Salanitri, F.P. and Fiameni, G. and Gavves, E. and Spampinato, C.",
        TITLE = "Vito: Vision Transformer Optimization Via Knowledge Distillation On
Decoders",
        BOOKTITLE = ICIP24,
        YEAR = "2024",
        PAGES = "493-499",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154788"}

@inproceedings{bb158921,
        AUTHOR = "Gani, H. and Saadi, N. and Hussein, N. and Nandakumar, K.",
        TITLE = "Multi-Attribute Vision Transformers are Efficient and Robust Learners",
        BOOKTITLE = ICIP24,
        YEAR = "2024",
        PAGES = "766-772",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154789"}

@inproceedings{bb158922,
        AUTHOR = "Cho, J.H. and Krahenbuhl, P.",
        TITLE = "Language-Conditioned Detection Transformer",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "16593-16603",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154790"}

@inproceedings{bb158923,
        AUTHOR = "Lin, S. and Lyu, P. and Liu, D.R. and Tang, T. and Liang, X.D. and Song, A. and Chang, X.J.",
        TITLE = "MLP Can Be a Good Transformer Learner",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "19489-19498",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154791"}

@inproceedings{bb158924,
        AUTHOR = "Weng, H.H. and Huang, D.Q. and Qiao, Y. and Hu, Z. and Lin, C.Y. and Zhang, T. and Chen, C.L.P.",
        TITLE = "Desigen: A Pipeline for Controllable Design Template Generation",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "12721-12732",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154792"}

@inproceedings{bb158925,
        AUTHOR = "Park, S. and Byun, H.R.",
        TITLE = "Fair-VPT: Fair Visual Prompt Tuning for Image Classification",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "12268-12278",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154793"}

@inproceedings{bb158926,
        AUTHOR = "Xu, H.Y. and Xiang, L. and Ye, H.Y. and Yao, D. and Chu, P.Z. and Li, B.C.",
        TITLE = "Permutation Equivariance of Transformers and its Applications",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "5987-5996",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154794"}

@inproceedings{bb158927,
        AUTHOR = "Zhang, Y.Y. and Ding, X.H. and Gong, K.X. and Ge, Y.X. and Shan, Y. and Yue, X.Y.",
        TITLE = "Multimodal Pathway: Improve Transformers with Irrelevant Data from
Other Modalities",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "6108-6117",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154795"}

@inproceedings{bb158928,
        AUTHOR = "Kobayashi, T.",
        TITLE = "Mean-Shift Feature Transformer",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "6047-6056",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154796"}

@inproceedings{bb158929,
        AUTHOR = "Shi, X.Y. and Hao, Z.C. and Yu, Z.F.",
        TITLE = "SpikingResformer: Bridging ResNet and Vision Transformer in Spiking
Neural Networks",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "5610-5619",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154797"}

@inproceedings{bb158930,
        AUTHOR = "Ye, H.C. and Yu, C. and Ye, P. and Xia, R. and Tang, Y.S. and Lu, J.W. and Chen, T. and Zhang, B.",
        TITLE = "Once for Both: Single Stage of Importance and Sparsity Search for
Vision Transformer Compression",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "5578-5588",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154798"}

@inproceedings{bb158931,
        AUTHOR = "Zhang, J. and Herrmann, C. and Hur, J. and Chen, E. and Jampani, V. and Sun, D.Q. and Yang, M.H.",
        TITLE = "Telling Left from Right: Identifying Geometry-Aware Semantic
Correspondence",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "3076-3085",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154799"}

@inproceedings{bb158932,
        AUTHOR = "Huang, N.C. and Chang, C.C. and Lin, W.C. and Taka, E. and Marculescu, D. and Wu, K.C.A.",
        TITLE = "ELSA: Exploiting Layer-wise N:M Sparsity for Vision Transformer
Acceleration",
        BOOKTITLE = ECV24,
        YEAR = "2024",
        PAGES = "8006-8015",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154800"}

@inproceedings{bb158933,
        AUTHOR = "Devulapally, A. and Khan, M.F.F. and Advani, S. and Narayanan, V.",
        TITLE = "Multi-Modal Fusion of Event and RGB for Monocular Depth Estimation
Using a Unified Transformer-based Architecture",
        BOOKTITLE = MULA24,
        YEAR = "2024",
        PAGES = "2081-2089",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154801"}

@inproceedings{bb158934,
        AUTHOR = "Yang, Z.D. and Li, Z. and Zeng, A.L. and Li, Z.X. and Yuan, C. and Li, Y.",
        TITLE = "ViTKD: Feature-based Knowledge Distillation for Vision Transformers",
        BOOKTITLE = PBDL24,
        YEAR = "2024",
        PAGES = "1379-1388",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154802"}

@inproceedings{bb158935,
        AUTHOR = "Mehri, F. and Baghshah, M.S. and Pilehvar, M.T.",
        TITLE = "LibraGrad: Balancing Gradient Flow for Universally Better Vision
Transformer Attributions",
        BOOKTITLE = CVPR25,
        YEAR = "2025",
        PAGES = "67-78",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154803"}

@inproceedings{bb158936,
        AUTHOR = "Mehri, F. and Fayyaz, M. and Baghshah, M.S. and Pilehvar, M.T.",
        TITLE = "SkipPLUS: Skip the First Few Layers to Better Explain Vision
Transformers",
        BOOKTITLE = FaDE-TCV24,
        YEAR = "2024",
        PAGES = "204-215",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154804"}

@inproceedings{bb158937,
        AUTHOR = "Jain, S. and Dutta, T.",
        TITLE = "Towards Understanding and Improving Adversarial Robustness of Vision
Transformers",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "24736-24745",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154805"}

@inproceedings{bb158938,
        AUTHOR = "Yang, S. and Bai, J. and Gao, K. and Yang, Y. and Li, Y.M. and Xia, S.T.",
        TITLE = "Not All Prompts Are Secure: A Switchable Backdoor Attack Against
Pre-trained Vision Transfomers",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "24431-24441",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154806"}

@inproceedings{bb158939,
        AUTHOR = "Steitz, J.M.O. and Roth, S.",
        TITLE = "Adapters Strike Back",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "23449-23459",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154807"}

@inproceedings{bb158940,
        AUTHOR = "Rangwani, H. and Mondal, P. and Mondal, P. and Mishra, M. and Asokan, A.R. and Babu, R.V.",
        TITLE = "DeiT-LT: Distillation Strikes Back for Vision Transformer Training on
Long-Tailed Datasets",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "23396-23406",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154808"}

@inproceedings{bb158941,
        AUTHOR = "Liu, J.Y. and Teshome, W. and Ghimire, S. and Sznaier, M. and Camps, O.",
        TITLE = "Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers*",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "23009-23018",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154809"}

@inproceedings{bb158942,
        AUTHOR = "Kim, M. and Seo, P.H. and Schmid, C. and Cho, M.",
        TITLE = "Learning Correlation Structures for Vision Transformers",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "18941-18951",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154810"}

@inproceedings{bb158943,
        AUTHOR = "Shi, D.",
        TITLE = "TransNeXt: Robust Foveal Visual Perception for Vision Transformers",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "17773-17783",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154811"}

@inproceedings{bb158944,
        AUTHOR = "Agiza, A. and Neseem, M. and Reda, S.",
        TITLE = "MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task
Learning",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "16196-16205",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154812"}

@inproceedings{bb158945,
        AUTHOR = "Dong, W. and Zhang, X. and Chen, B. and Yan, D.W. and Lin, Z.J. and Yan, Q.S. and Wang, P. and Yang, Y.",
        TITLE = "Low-Rank Rescaled Vision Transformer Fine-Tuning:
A Residual Design Approach",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "16101-16110",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154813"}

@inproceedings{bb158946,
        AUTHOR = "Wu, J. and Kang, W.T. and Tang, H. and Hong, Y. and Yan, Y.",
        TITLE = "On the Faithfulness of Vision Transformer Explanations",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "10936-10945",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154814"}

@inproceedings{bb158947,
        AUTHOR = "Navaneet, K.L. and Koohpayegani, S.A. and Sleiman, E. and Pirsiavash, H.",
        TITLE = "SlowFormer: Adversarial Attack on Compute and Energy Consumption of
Efficient Vision Transformers",
        BOOKTITLE = CVPR24,
        YEAR = "2024",
        PAGES = "24786-24797",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154815"}

@inproceedings{bb158948,
        AUTHOR = "Koyun, O.C. and Toreyin, B.U.",
        TITLE = "HaLViT: Half of the Weights are Enough",
        BOOKTITLE = LargeVM24,
        YEAR = "2024",
        PAGES = "3669-3678",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154816"}

@inproceedings{bb158949,
        AUTHOR = "Bafghi, R.A. and Harilal, N. and Monteleoni, C. and Raissi, M.",
        TITLE = "Parameter Efficient Fine-tuning of Self-supervised ViTs without
Catastrophic Forgetting",
        BOOKTITLE = LargeVM24,
        YEAR = "2024",
        PAGES = "3679-3684",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154817"}

@inproceedings{bb158950,
        AUTHOR = "Raissi, M. and Monteleoni, C. and Harilal, N. and Bafghi, R.A.",
        TITLE = "Parameter Efficient Fine-tuning of Self-supervised ViTs without
Catastrophic Forgetting",
        BOOKTITLE = LargeVM24,
        YEAR = "2024",
        PAGES = "7864-7869",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154817"}

@inproceedings{bb158951,
        AUTHOR = "Edalati, A. and Hameed, M.G.A. and Mosleh, A.",
        TITLE = "Generalized Kronecker-based Adapters for Parameter-efficient
Fine-tuning of Vision Transformers",
        BOOKTITLE = CRV23,
        YEAR = "2023",
        PAGES = "97-104",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154818"}

@inproceedings{bb158952,
        AUTHOR = "Marouf, I.E. and Tartaglione, E. and Lathuiliere, S.",
        TITLE = "Mini but Mighty: Finetuning ViTs with Mini Adapters",
        BOOKTITLE = WACV24,
        YEAR = "2024",
        PAGES = "1721-1730",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154819"}

@inproceedings{bb158953,
        AUTHOR = "Kim, G. and Kim, J. and Lee, J.S.",
        TITLE = "Exploring Adversarial Robustness of Vision Transformers in the
Spectral Perspective",
        BOOKTITLE = WACV24,
        YEAR = "2024",
        PAGES = "3964-3973",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154820"}

@inproceedings{bb158954,
        AUTHOR = "Han, Q. and Zhang, G.J. and Huang, J.X. and Gao, P. and Wei, Z. and Lu, S.J.",
        TITLE = "Efficient MAE towards Large-Scale Vision Transformers",
        BOOKTITLE = WACV24,
        YEAR = "2024",
        PAGES = "595-604",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154821"}

@inproceedings{bb158955,
        AUTHOR = "Park, J.W. and Kahatapitiya, K. and Kim, D.H. and Sudalairaj, S. and Fan, Q.F. and Ryoo, M.S.",
        TITLE = "Grafting Vision Transformers",
        BOOKTITLE = WACV24,
        YEAR = "2024",
        PAGES = "1134-1143",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154822"}

@inproceedings{bb158956,
        AUTHOR = "Shimizu, S. and Tamaki, T.",
        TITLE = "Joint learning of images and videos with a single Vision Transformer",
        BOOKTITLE = MVA23,
        YEAR = "2023",
        PAGES = "1-6",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154823"}

@inproceedings{bb158957,
        AUTHOR = "Chen, M.Z. and Lin, M. and Lin, Z.H. and Zhang, Y.X. and Chao, F. and Ji, R.R.",
        TITLE = "SMMix: Self-Motivated Image Mixing for Vision Transformers",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "17214-17224",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154824"}

@inproceedings{bb158958,
        AUTHOR = "Kim, D. and Angelova, A. and Kuo, W.C.",
        TITLE = "Contrastive Feature Masking Open-Vocabulary Vision Transformer",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "15556-15566",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154825"}

@inproceedings{bb158959,
        AUTHOR = "Li, Z.K. and Gu, Q.Y.",
        TITLE = "I-ViT: Integer-only Quantization for Efficient Vision Transformer
Inference",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "17019-17029",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154826"}

@inproceedings{bb158960,
        AUTHOR = "Frumkin, N. and Gope, D. and Marculescu, D.",
        TITLE = "Jumping through Local Minima: Quantization in the Loss Landscape of
Vision Transformers",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "16932-16942",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154827"}

@inproceedings{bb158961,
        AUTHOR = "Li, Z.K. and Xiao, J.R. and Yang, L.W. and Gu, Q.Y.",
        TITLE = "RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "17181-17190",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154828"}

@inproceedings{bb158962,
        AUTHOR = "Wang, X. and Chu, X.J. and Han, C. and Zhang, X.Y.",
        TITLE = "SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs
and Transformers",
        BOOKTITLE = NIVT23,
        YEAR = "2023",
        PAGES = "731-741",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154829"}

@inproceedings{bb158963,
        AUTHOR = "Chen, Y.H. and Weng, Y.C. and Kao, C.H. and Chien, C. and Chiu, W.C. and Peng, W.H.",
        TITLE = "TransTIC: Transferring Transformer-based Image Compression from Human
Perception to Machine Perception",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "23240-23250",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154830"}

@inproceedings{bb158964,
        AUTHOR = "Li, Y.Y. and Hu, J. and Wen, Y. and Evangelidis, G. and Salahi, K. and Wang, Y.Z. and Tulyakov, S. and Ren, J.",
        TITLE = "Rethinking Vision Transformers for MobileNet Size and Speed",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "16843-16854",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154831"}

@inproceedings{bb158965,
        AUTHOR = "Nurgazin, M. and Tu, N.A.",
        TITLE = "A Comparative Study of Vision Transformer Encoders and Few-shot
Learning for Medical Image Classification",
        BOOKTITLE = CVAMD23,
        YEAR = "2023",
        PAGES = "2505-2513",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154832"}

@inproceedings{bb158966,
        AUTHOR = "Vasu, P.K.A. and Gabriel, J. and Zhu, J. and Tuzel, O. and Ranjan, A.",
        TITLE = "FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5762-5772",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154833"}

@inproceedings{bb158967,
        AUTHOR = "Tang, C. and Zhang, L.L. and Jiang, H.Q. and Xu, J.H. and Cao, T. and Zhang, Q. and Yang, Y.Q. and Wang, Z. and Yang, M.",
        TITLE = "ElasticViT: Conflict-aware Supernet Training for Deploying Fast
Vision Transformer on Diverse Mobile Devices",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5806-5817",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154834"}

@inproceedings{bb158968,
        AUTHOR = "Lin, W.F. and Wu, Z.H. and Chen, J.Y. and Huang, J. and Jin, L.W.",
        TITLE = "Scale-Aware Modulation Meet Transformer",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5992-6003",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154835"}

@inproceedings{bb158969,
        AUTHOR = "He, Y.F. and Lou, Z.Y. and Zhang, L. and Liu, J. and Wu, W.J. and Zhou, H. and Zhuang, B.",
        TITLE = "BiViT: Extremely Compressed Binary Vision Transformers",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5628-5640",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154836"}

@inproceedings{bb158970,
        AUTHOR = "Dutson, M. and Li, Y. and Gupta, M.",
        TITLE = "Eventful Transformers:
Leveraging Temporal Redundancy in Vision Transformers",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "16865-16877",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154837"}

@inproceedings{bb158971,
        AUTHOR = "Wang, Z.Q. and Fang, Y.T. and Cao, J.H. and Zhang, Q. and Wang, Z.R. and Xu, R.",
        TITLE = "Masked Spiking Transformer",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "1761-1771",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154838"}

@inproceedings{bb158972,
        AUTHOR = "Peebles, W. and Xie, S.",
        TITLE = "Scalable Diffusion Models with Transformers",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "4172-4182",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154839"}

@inproceedings{bb158973,
        AUTHOR = "Mentzer, F. and Agustson, E. and Tschannen, M.",
        TITLE = "M2T: Masking Transformers Twice for Faster Decoding",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5317-5326",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154840"}

@inproceedings{bb158974,
        AUTHOR = "Yu, R.Y. and Wang, Z.N. and Wang, Y.H. and Li, K. and Liu, C. and Duan, H.Y. and Ji, X.Y. and Chen, J.",
        TITLE = "LaPE: Layer-adaptive Position Embedding for Vision Transformers with
Independent Layer Normalization",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5863-5873",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154841"}

@inproceedings{bb158975,
        AUTHOR = "Roy, A. and Verma, V.K. and Voonna, S. and Ghosh, K. and Ghosh, S. and Das, A.",
        TITLE = "Exemplar-Free Continual Transformer with Convolutions",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5874-5884",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154842"}

@inproceedings{bb158976,
        AUTHOR = "Xu, Y.X. and Li, C. and Li, D. and Sheng, X. and Jiang, F. and Tian, L. and Sirasao, A.",
        TITLE = "FDViT: Improve the Hierarchical Architecture of Vision Transformer",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5927-5937",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154843"}

@inproceedings{bb158977,
        AUTHOR = "Chen, Y.J. and Liu, H.M. and Yin, H.R. and Fan, B.",
        TITLE = "Building Vision Transformers with Hierarchy Aware Feature Aggregation",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "5885-5895",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154844"}

@inproceedings{bb158978,
        AUTHOR = "Quetu, V. and Milovanovic, M. and Tartaglione, E.",
        TITLE = "Sparse Double Descent in Vision Transformers: Real or Phantom Threat?",
        BOOKTITLE = CIAP23,
        YEAR = "2023",
        PAGES = "II:490-502",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154845"}

@inproceedings{bb158979,
        AUTHOR = "Ak, K.E. and Lee, G.G. and Xu, Y. and Shen, M.W.",
        TITLE = "Leveraging Efficient Training and Feature Fusion in Transformers for
Multimodal Classification",
        BOOKTITLE = ICIP23,
        YEAR = "2023",
        PAGES = "1420-1424",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154846"}

@inproceedings{bb158980,
        AUTHOR = "Sajjadi, M.S.M. and Mahendran, A. and Kipf, T. and Pot, E. and Duckworth, D. and Lucic, M. and Greff, K.",
        TITLE = "RUST: Latent Neural Scene Representations from Unposed Imagery",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "17297-17306",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154847"}

@inproceedings{bb158981,
        AUTHOR = "Bowman, B. and Achille, A. and Zancato, L. and Trager, M. and Perera, P. and Paolini, G. and Soatto, S.",
        TITLE = "À-la-carte Prompt Tuning (APT):
Combining Distinct Data Via Composable Prompting",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "14984-14993",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154848"}

@inproceedings{bb158982,
        AUTHOR = "Gartner, E. and Metz, L. and Andriluka, M. and Freeman, C.D. and Sminchisescu, C.",
        TITLE = "Transformer-Based Learned Optimization",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "11970-11979",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154849"}

@inproceedings{bb158983,
        AUTHOR = "Li, J.C. and Hassani, A. and Walton, S. and Shi, H.",
        TITLE = "ConvMLP: Hierarchical Convolutional MLPs for Vision",
        BOOKTITLE = WFM23,
        YEAR = "2023",
        PAGES = "6307-6316",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154850"}

@inproceedings{bb158984,
        AUTHOR = "Walmer, M. and Suri, S. and Gupta, K. and Shrivastava, A.",
        TITLE = "Teaching Matters:
Investigating the Role of Supervision in Vision Transformers",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "7486-7496",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154851"}

@inproceedings{bb158985,
        AUTHOR = "Wang, S.G. and Xie, T. and Cheng, J. and Zhang, X.C. and Liu, H.J.",
        TITLE = "MDL-NAS: A Joint Multi-domain Learning Framework for Vision
Transformer",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "20094-20104",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154852"}

@inproceedings{bb158986,
        AUTHOR = "Ren, S. and Wei, F.Y. and Zhang, Z. and Hu, H.",
        TITLE = "TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "3687-3697",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154853"}

@inproceedings{bb158987,
        AUTHOR = "He, J.F. and Gao, Y. and Zhang, T.Z. and Zhang, Z. and Wu, F.",
        TITLE = "D2Former: Jointly Learning Hierarchical Detectors and Contextual
Descriptors via Agent-Based Transformers",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "2904-2914",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154854"}

@inproceedings{bb158988,
        AUTHOR = "Chen, X.Y. and Liu, Z.J. and Tang, H.T. and Yi, L. and Zhao, H. and Han, S.",
        TITLE = "SparseViT: Revisiting Activation Sparsity for Efficient
High-Resolution Vision Transformer",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "2061-2070",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154855"}

@inproceedings{bb158989,
        AUTHOR = "Lin, Y.B. and Bertasius, G.",
        TITLE = "Siamese Vision Transformers are Scalable Audio-Visual Learners",
        BOOKTITLE = ECCV24,
        YEAR = "2024",
        PAGES = "XIV: 303-321",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154856"}

@inproceedings{bb158990,
        AUTHOR = "Lin, Y.B. and Sung, Y.L. and Lei, J. and Bansal, M. and Bertasius, G.",
        TITLE = "Vision Transformers are Parameter-Efficient Audio-Visual Learners",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "2299-2309",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154857"}

@inproceedings{bb158991,
        AUTHOR = "Das, R. and Dukler, Y. and Ravichandran, A. and Swaminathan, A.",
        TITLE = "Learning Expressive Prompting With Residuals for Vision Transformers",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "3366-3377",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154858"}

@inproceedings{bb158992,
        AUTHOR = "Zheng, M.X. and Lou, Q. and Jiang, L.",
        TITLE = "TrojViT: Trojan Insertion in Vision Transformers",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "4025-4034",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154859"}

@inproceedings{bb158993,
        AUTHOR = "Li, Y.X. and Xu, C.",
        TITLE = "Trade-off between Robustness and Accuracy of Vision Transformers",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "7558-7568",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154860"}

@inproceedings{bb158994,
        AUTHOR = "Tarasiou, M. and Chavez, E. and Zafeiriou, S.",
        TITLE = "ViTs for SITS: Vision Transformers for Satellite Image Time Series",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "10418-10428",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154861"}

@inproceedings{bb158995,
        AUTHOR = "Yu, Z.Z. and Wu, S. and Fu, Y.G. and Zhang, S. and Lin, Y.Y.C.",
        TITLE = "Hint-Aug: Drawing Hints from Foundation Vision Transformers towards
Boosted Few-shot Parameter-Efficient Tuning",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "11102-11112",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154862"}

@inproceedings{bb158996,
        AUTHOR = "Hou, J. and Dai, X.L. and He, Z.J. and Dai, A. and Nießner, M.",
        TITLE = "Mask3D: Pretraining 2D Vision Transformers by Learning Masked 3D
Priors",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "13510-13519",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154863"}

@inproceedings{bb158997,
        AUTHOR = "Xu, Z.Z. and Liu, R.K. and Yang, S. and Chai, Z.H. and Yuan, C.",
        TITLE = "Learning Imbalanced Data with Vision Transformers",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "15793-15803",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154864"}

@inproceedings{bb158998,
        AUTHOR = "Yang, H. and Yin, H.X. and Shen, M. and Molchanov, P. and Li, H. and Kautz, J.",
        TITLE = "Global Vision Transformer Pruning with Hessian-Aware Saliency",
        BOOKTITLE = CVPR23,
        YEAR = "2023",
        PAGES = "18547-18557",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154865"}

@inproceedings{bb158999,
        AUTHOR = "Nakamura, R. and Kataoka, H. and Takashima, S. and Noriega, E.J.M. and Yokota, R. and Inoue, N.",
        TITLE = "Pre-training Vision Transformers with Very Limited Synthesized Images",
        BOOKTITLE = ICCV23,
        YEAR = "2023",
        PAGES = "20303-20312",
        BIBSOURCE = "http://www.visionbib.com/bibliography/pattern651vit2.html#TT154866"}
Last update:Jun 13, 2026 at 20:41:05