8.6.4.2 Vision Transformers for Semantic Segmentation

Chapter Contents (Back)
Semantic Segmentation. Vision Transformer. Transformer.
See also Vision Transformers, ViT.

Jin, Y.[Youngsaeng], Han, D.[David], Ko, H.S.[Han-Seok],
TrSeg: Transformer for semantic segmentation,
PRL(148), 2021, pp. 29-35.
Elsevier DOI 2107
Semantic segmentation, Scene understanding, Transformer, Multi-scale contextual information BibRef

Wang, L.[Libo], Li, R.[Rui], Zhang, C.[Ce], Fang, S.H.[Sheng-Hui], Duan, C.X.[Chen-Xi], Meng, X.L.[Xiao-Liang], Atkinson, P.M.[Peter M.],
UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery,
PandRS(190), 2022, pp. 196-214.
Elsevier DOI 2208
Award, U.V. Helava, ISPRS. Semantic Segmentation, Remote Sensing, Vision Transformer, Fully Transformer Network, Global-local Context, Urban Scene BibRef

Li, Z.K.[Ze-Kun], Liu, Y.F.[Yu-Fan], Li, B.[Bing], Feng, B.L.[Bai-Lan], Wu, K.[Kebin], Peng, C.W.[Cheng-Wei], Hu, W.M.[Wei-Ming],
SDTP: Semantic-Aware Decoupled Transformer Pyramid for Dense Image Prediction,
CirSysVideo(32), No. 9, September 2022, pp. 6160-6173.
IEEE DOI 2209
Transformers, Semantics, Task analysis, Detectors, Image segmentation, Head, Convolution, Transformer, dense prediction, multi-level interaction BibRef

Mou, C.[Chong], Zhang, J.[Jian],
TransCL: Transformer Makes Strong and Flexible Compressive Learning,
PAMI(45), No. 4, April 2023, pp. 5236-5251.
IEEE DOI 2303
Task analysis, Transformers, Image reconstruction, Image coding, Compressed sensing, Sensors, Cameras, Compressed sensing, semantic segmentation BibRef

Lin, X.[Xiao], Sun, S.Z.[Shu-Zhou], Huang, W.[Wei], Sheng, B.[Bin], Li, P.[Ping], Feng, D.D.[David Dagan],
EAPT: Efficient Attention Pyramid Transformer for Image Processing,
MultMed(25), 2023, pp. 50-61.
IEEE DOI 2301
Transformers, Encoding, Task analysis, Semantics, Feature extraction, Costs, Convolutional neural networks, Transformer, semantic segmentation BibRef

Yu, L.[Lu], Xiang, W.[Wei], Fang, J.[Juan], Chen, Y.P.P.[Yi-Ping Phoebe], Chi, L.[Lianhua],
eX-ViT: A Novel explainable vision transformer for weakly supervised semantic segmentation,
PR(142), 2023, pp. 109666.
Elsevier DOI 2307
Explainable, Attention map, Transformer, Weakly supervised BibRef

Quan, Y.[Yu], Zhang, D.[Dong], Zhang, L.Y.[Li-Yan], Tang, J.H.[Jin-Hui],
Centralized Feature Pyramid for Object Detection,
IP(32), 2023, pp. 4341-4354.
IEEE DOI 2308
Feature extraction, Visualization, Object detection, Regulation, Transformers, Task analysis, Detectors, Feature pyramid, long-range dependencies BibRef

Jin, Z.C.[Zhen-Chao], Yu, D.D.[Dong-Dong], Yuan, Z.H.[Ze-Huan], Yu, L.Q.[Le-Quan],
MCIBI++: Soft Mining Contextual Information Beyond Image for Semantic Segmentation,
PAMI(45), No. 5, May 2023, pp. 5988-6005.
IEEE DOI 2304
Image segmentation, Semantics, Memory modules, Task analysis, Iterative methods, Benchmark testing, Transformers, video semantic segmentation BibRef

Jin, Z.C.[Zhen-Chao], Gong, T.[Tao], Yu, D.D.[Dong-Dong], Chu, Q.[Qi], Wang, J.[Jian], Wang, C.H.[Chang-Hu], Shao, J.[Jie],
Mining Contextual Information Beyond Image for Semantic Segmentation,
ICCV21(7211-7221)
IEEE DOI 2203
Training, Image segmentation, Lips, Semantics, Memory modules, Data aggregation, Segmentation, grouping and shape, BibRef

Zhang, J.M.[Jia-Ming], Liu, H.[Huayao], Yang, K.L.[Kai-Lun], Hu, X.X.[Xin-Xin], Liu, R.P.[Rui-Ping], Stiefelhagen, R.[Rainer],
CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation With Transformers,
ITS(24), No. 12, December 2023, pp. 14679-14694.
IEEE DOI Code:
WWW Link. 2312
BibRef

Wang, D.L.[Duo-Lin], Chen, Y.[Yadang], Naz, B.[Bushra], Sun, L.[Le], Li, B.Z.[Bao-Zhu],
Spatial-Aware Transformer (SAT): Enhancing Global Modeling in Transformer Segmentation for Remote Sensing Images,
RS(15), No. 14, 2023, pp. 3607.
DOI Link 2307
BibRef

Yuan, Z.[Zheng], Wang, J.H.[Jun-Hua], Lv, Y.X.[Yu-Xin], Wang, D.[Ding], Fang, Y.[Yi],
Laformer: Vision Transformer for Panoramic Image Semantic Segmentation,
SPLetters(30), 2023, pp. 1792-1796.
IEEE DOI 2312
BibRef

Zhang, B.[Bowen], Liu, L.Y.[Li-Yang], Phan, M.H.[Minh Hieu], Tian, Z.[Zhi], Shen, C.H.[Chun-Hua], Liu, Y.F.[Yi-Fan],
SegViT v2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers,
IJCV(132), No. 4, April 2024, pp. 1126-1147.
Springer DOI 2404
BibRef

Ding, H.J.[Hao-Jie], Wang, B.[Bin], Kang, G.L.[Guo-Liang], Li, W.J.[Wei-Jia], He, C.H.[Cong-Hui], Zhao, Y.[Yao], Wei, Y.C.[Yun-Chao],
DropQueries: A Simple Way to Discover Comprehensive Segment Representations,
MultMed(26), 2024, pp. 3481-3490.
IEEE DOI 2402
Training, Semantic segmentation, Decoding, Transformers, Buildings, Benchmark testing, Task analysis, Semantic segmentation BibRef

Deng, J.H.[Jin-Hong], Zhang, X.Y.[Xiao-Yue], Li, W.[Wen], Duan, L.X.[Li-Xin], Xu, D.[Dong],
Cross-Domain Detection Transformer Based on Spatial-Aware and Semantic-Aware Token Alignment,
MultMed(26), 2024, pp. 5234-5245.
IEEE DOI 2404
Transformers, Training, Object detection, Feature extraction, Task analysis, Semantics, Decoding, Detection transformer, object detection BibRef

Hong, W.X.[Wei-Xiang], Ren, W.[Wang], Lao, J.W.[Jiang-Wei], Xie, L.[Lele], Zhong, L.H.[Li-Heng], Wang, J.[Jian], Chen, J.D.[Jing-Dong], Liu, H.H.[Hong-Hai], Chu, W.[Wei],
Training Object Detectors from Scratch: An Empirical Study in the Era of Vision Transformer,
IJCV(132), No. 8, August 2024, pp. 2929-2942.
Springer DOI 2408
BibRef
Earlier: A1, A3, A2, A6, A7, A8, Only: CVPR22(4652-4661)
IEEE DOI 2210
Training, Visualization, Semantics, Detectors, Object detection, Transformers, Recognition: detection, categorization, retrieval, Deep learning architectures and techniques BibRef

Cao, H.[Hu], Chen, G.[Guang], Zhao, H.S.[Heng-Shuang], Jiang, D.S.[Dong-Sheng], Zhang, X.P.[Xiao-Peng], Tian, Q.[Qi], Knoll, A.[Alois],
SDPT: Semantic-Aware Dimension-Pooling Transformer for Image Segmentation,
ITS(25), No. 11, November 2024, pp. 15934-15946.
IEEE DOI Code:
WWW Link. 2411
Transformers, Image segmentation, Decoding, Task analysis, Semantics, Image edge detection, Computational efficiency, scene understanding BibRef

Zeng, W.[Wang], Jin, S.[Sheng], Xu, L.[Lumin], Liu, W.T.[Wen-Tao], Qian, C.[Chen], Ouyang, W.L.[Wan-Li], Luo, P.[Ping], Wang, X.G.[Xiao-Gang],
TCFormer: Visual Recognition via Token Clustering Transformer,
PAMI(46), No. 12, December 2024, pp. 9521-9535.
IEEE DOI 2411
BibRef
Earlier: A1, A2, A4, A5, A7, A6, A8, Only:
Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer,
CVPR22(11091-11101)
IEEE DOI 2210
Transformers, Semantics, Task analysis, Semantic segmentation, Shape, Object detection, Image classification, Vision transformer. Visualization, Pose estimation, Semantics, Pose estimation and tracking, Deep learning architectures and techniques BibRef

Li, Z.H.[Zi-Han], Li, Y.X.[Yun-Xiang], Li, Q.D.[Qing-De], Wang, P.[Puyang], Guo, D.[Dazhou], Lu, L.[Le], Jin, D.[Dakai], Zhang, Y.[You], Hong, Q.Q.[Qing-Qi],
LViT: Language Meets Vision Transformer in Medical Image Segmentation,
MedImg(43), No. 1, January 2024, pp. 96-107.
IEEE DOI Code:
WWW Link. 2401
BibRef

Ma, X.Y.[Xin-Yu], Lv, P.Y.[Peng-Yuan], Gong, X.Q.[Xun-Qiang],
SSOD-QCTR: Semi-Supervised Query Consistent Transformer for Optical Remote Sensing Image Object Detection,
RS(16), No. 23, 2024, pp. 4556.
DOI Link 2501
BibRef

Chen, S.[Siyu], Han, T.[Ting], Zhang, C.S.[Chang-She], Su, J.[Jinhe], Wang, R.S.[Rui-Sheng], Chen, Y.P.[Yi-Ping], Wang, Z.Y.[Zong-Yue], Cai, G.R.[Guo-Rong],
HSPFormer: Hierarchical Spatial Perception Transformer for Semantic Segmentation,
ITS(26), No. 4, April 2025, pp. 4975-4987.
IEEE DOI Code:
WWW Link. 2504
Transformers, Semantic segmentation, Feature extraction, Depth measurement, Semantics, Accuracy, multi modilaty BibRef

Li, Y.[Yang], Jiao, L.C.[Li-Cheng], Liu, X.[Xu], Liu, F.[Fang], Li, L.L.[Ling-Ling], Chen, P.[Puhua],
LGSNet: Local-Global Semantics Learning Object Detection,
MultMed(27), 2025, pp. 2281-2292.
IEEE DOI 2505
Semantics, Correlation, Computational modeling, Transformers, Spatial resolution, Costs, Object detection, Vectors, Visualization, feature normalization and computation cost BibRef

Liu, Y.Z.[Yong-Zhi], Yan, T.X.[Tong-Xin],
Vision transformer enhanced with convolutional attention and graph convolution for semantic segmentation,
IVC(161), 2025, pp. 105633.
Elsevier DOI 2509
Semantic segmentation, Self-attention mechanism, Convolutional attention, Graph convolution BibRef

Zhou, Y.F.[Yan-Feng], Li, L.R.[Ling-Rui], Lu, L.[Le], Xu, M.F.[Min-Feng],
nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation and Calling for a Unified Evaluation Benchmark,
CVPR25(20852-20862)
IEEE DOI Code:
WWW Link. 2508
Convolutional codes, Solid modeling, Biological system modeling, Semantic segmentation, Artificial neural networks, NNUNET BibRef

Arica, S.[Shahaf], Rubin, O.[Or], Gershov, S.[Sapir], Laufer, S.[Shlomi],
CuVLER: Enhanced Unsupervised Object Discoveries through Exhaustive Self-Supervised Transformers,
CVPR24(23105-23114)
IEEE DOI Code:
WWW Link. 2410
Image segmentation, Codes, Accuracy, Transformers, Robustness, Unsupervised Object Discovery, Segmentation BibRef

Yu, H.W.[Hyun-Woo], Cho, Y.[Yubin], Kang, B.[Beoungwoo], Moon, S.[Seunghun], Kong, K.[Kyeongbo], Kang, S.J.[Suk-Ju],
Embedding-free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation,
ECCV24(XLII: 92-110).
Springer DOI 2412
BibRef

Zhang, D.Y.[Ding-Yuan], Liang, D.K.[Ding-Kang], Tan, Z.C.[Zi-Chang], Ye, X.Q.[Xiao-Qing], Zhang, C.[Cheng], Wang, J.D.[Jing-Dong], Bai, X.[Xiang],
Make Your Vit-based Multi-view 3d Detectors Faster via Token Compression,
ECCV24(XLVII: 56-72).
Springer DOI 2412
BibRef

Rojas-Gomez, R.A.[Renan A.], Lim, T.Y.F.[Teck-Yi-Fan], Do, M.N.[Minh N.], Yeh, R.A.[Raymond A.],
Making Vision Transformers Truly Shift-Equivariant,
CVPR24(5568-5577)
IEEE DOI Code:
WWW Link. 2410
Adaptation models, Semantic segmentation, Merging, Transformers, Tokenization, Encoding, shift invariance, shift equivariance, vision transformers BibRef

Wang, S.[Shuo], Li, J.[Jing], Zhao, Z.[Zibo], Lian, D.Z.[Dong-Ze], Huang, B.B.[Bin-Bin], Wang, X.M.[Xiao-Mei], Li, Z.X.[Zheng-Xin], Gao, S.H.[Sheng-Hua],
TSP-Transformer: Task-Specific Prompts Boosted Transformer for Holistic Scene Understanding,
WACV24(914-923)
IEEE DOI 2404
Representation learning, Fuses, Semantic segmentation, Estimation, Transformers, Decoding, Algorithms, Image recognition and understanding BibRef

Kang, B.[Beoungwoo], Moon, S.[Seunghun], Cho, Y.[Yubin], Yu, H.W.[Hyun-Woo], Kang, S.J.[Suk-Ju],
MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation,
WACV24(433-442)
IEEE DOI 2404
Semantic segmentation, Transformers, Decoding, Computational efficiency, Data mining, Algorithms, Biomedical / healthcare / medicine BibRef

Koohpayegani, S.A.[Soroush Abbasi], Pirsiavash, H.[Hamed],
SimA: Simple Softmax-free Attention for Vision Transformers,
WACV24(2595-2605)
IEEE DOI Code:
WWW Link. 2404
Performance evaluation, Visualization, Image segmentation, Image resolution, Image edge detection, Switches, Image recognition and understanding BibRef

Kluska, P.[Piotr], Castelló, A.[Adrián], Scheidegger, F.[Florian], Malossi, A.C.I.[A. Cristiano I.], Quintana-Ortí, E.S.[Enrique S.],
QAttn: Efficient GPU Kernels for mixed-precision Vision Transformers,
LargeVM24(3648-3657)
IEEE DOI Code:
WWW Link. 2410
Image segmentation, Quantization (signal), Computational modeling, Graphics processing units, Prototypes, instance segmentation BibRef

Jain, J.[Jitesh], Singh, A.[Anukriti], Orlov, N.[Nikita], Huang, Z.L.[Zi-Long], Li, J.C.[Jia-Chen], Walton, S.[Steven], Shi, H.[Humphrey],
SeMask: Semantically Masked Transformers for Semantic Segmentation,
NIVT23(752-761)
IEEE DOI Code:
WWW Link. 2401
BibRef

Wang, K.[Kaihong], Kim, D.H.[Dong-Hyun], Feris, R.S.[Rogerio S.], Betke, M.[Margrit],
CDAC: Cross-domain Attention Consistency in Transformer for Domain Adaptive Semantic Segmentation,
ICCV23(11485-11495)
IEEE DOI Code:
WWW Link. 2401
BibRef

Tang, Q.[Quan], Zhang, B.[Bowen], Liu, J.J.[Jia-Jun], Liu, F.G.[Fa-Gui], Liu, Y.F.[Yi-Fan],
Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation,
ICCV23(777-786)
IEEE DOI Code:
WWW Link. 2401
BibRef

Shi, H.[Hengcan], Hayat, M.[Munawar], Cai, J.F.[Jian-Fei],
Transformer Scale Gate for Semantic Segmentation,
CVPR23(3051-3060)
IEEE DOI 2309
BibRef

Mo, S.T.[Shen-Tong], Sun, Z.[Zhun], Li, C.[Chao],
Multi-level Contrastive Learning for Self-Supervised Vision Transformers,
WACV23(2777-2786)
IEEE DOI 2302
Training, Representation learning, Head, Semantic segmentation, Self-supervised learning, visual reasoning BibRef

Marin, D.[Dmitrii], Chang, J.H.R.[Jen-Hao Rick], Ranjan, A.[Anurag], Prabhu, A.[Anish], Rastegari, M.[Mohammad], Tuzel, O.[Oncel],
Token Pooling in Vision Transformers for Image Classification,
WACV23(12-21)
IEEE DOI 2302
Filtering, Semantic segmentation, Pose estimation, Transformers, Encoding, Convolutional neural networks, and algorithms (including transfer) BibRef

Chen, J.N.[Jie-Neng], Sun, S.Y.[Shu-Yang], He, J.[Ju], Torr, P.H.S.[Philip H.S.], Yuille, A.L.[Alan L.], Bai, S.[Song],
TransMix: Attend to Mix for Vision Transformers,
CVPR22(12125-12134)
IEEE DOI 2210
Training, Image segmentation, Codes, Semantics, Object detection, Benchmark testing, Transformers, Representation learning BibRef

Liu, H.[Hao], Jiang, X.H.[Xing-Hua], Li, X.[Xin], Bao, Z.M.[Zhi-Min], Jiang, D.Q.[De-Qiang], Ren, B.[Bo],
NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition,
CVPR22(12063-12072)
IEEE DOI 2210
Visualization, Image segmentation, Semantics, Redundancy, Object detection, Deep learning architectures and techniques BibRef

Guo, J.Y.[Jian-Yuan], Tang, Y.H.[Ye-Hui], Han, K.[Kai], Chen, X.H.[Xing-Hao], Wu, H.[Han], Xu, C.[Chao], Xu, C.[Chang], Wang, Y.H.[Yun-He],
Hire-MLP: Vision MLP via Hierarchical Rearrangement,
CVPR22(816-826)
IEEE DOI 2210
Representation learning, Image segmentation, Semantics, Object detection, Transformers, Representation learning BibRef

Lee, Y.[Youngwan], Kim, J.[Jonghee], Willette, J.[Jeffrey], Hwang, S.J.[Sung Ju],
MPViT: Multi-Path Vision Transformer for Dense Prediction,
CVPR22(7277-7286)
IEEE DOI 2210
Image segmentation, Semantics, Object detection, Transformers, Feature extraction, Recognition: detection, Representation learning BibRef

Li, W.[Wei], Li, Z.X.[Zhi-Xin],
Causal-SETR: A SEgmentation TRansformer Variant Based on Causal Intervention,
ACCV22(VII:414-430).
Springer DOI 2307
BibRef

Lin, F.J.[Fang-Jian], Wu, S.T.[Si-Tong], Ma, Y.Z.[Yi-Zhe], Tian, S.W.[Sheng-Wei],
Full-scale Selective Transformer for Semantic Segmentation,
ACCV22(VII:310-326).
Springer DOI 2307
BibRef

Rossetti, S.[Simone], Zappia, D.[Damiano], Sanzari, M.[Marta], Schaerf, M.[Marco], Pirri, F.[Fiora],
Max Pooling with Vision Transformers Reconciles Class and Shape in Weakly Supervised Semantic Segmentation,
ECCV22(XXX:446-463).
Springer DOI 2211
BibRef

Themyr, L.[Loic], Rambour, C.[Clément], Thome, N.[Nicolas], Collins, T.[Toby], Hostettler, A.[Alexandre],
Full Contextual Attention for Multi-resolution Transformers in Semantic Segmentation,
WACV23(3223-3232)
IEEE DOI 2302
Training, Visualization, Solid modeling, Image resolution, Semantic segmentation, Transformers BibRef

Shi, B.[Bowen], Jiang, D.S.[Dong-Sheng], Zhang, X.P.[Xiao-Peng], Li, H.[Han], Dai, W.R.[Wen-Rui], Zou, J.[Junni], Xiong, H.K.[Hong-Kai], Tian, Q.[Qi],
A Transformer-Based Decoder for Semantic Segmentation with Multi-level Context Mining,
ECCV22(XXVIII:624-639).
Springer DOI 2211
BibRef

Brempong, E.A.[Emmanuel Asiedu], Kornblith, S.[Simon], Chen, T.[Ting], Parmar, N.[Niki], Minderer, M.[Matthias], Norouzi, M.[Mohammad],
Denoising Pretraining for Semantic Segmentation,
L3D-IVU22(4174-4185)
IEEE DOI 2210
Training, Image segmentation, Noise reduction, Semantics, Supervised learning, Transformers, Probabilistic logic BibRef

Gu, J.Q.[Jia-Qi], Kwon, H.[Hyoukjun], Wang, D.L.[Di-Lin], Ye, W.[Wei], Li, M.[Meng], Chen, Y.H.[Yu-Hsin], Lai, L.Z.[Liang-Zhen], Chandra, V.[Vikas], Pan, D.Z.[David Z.],
Multi-Scale High-Resolution Vision Transformer for Semantic Segmentation,
CVPR22(12084-12093)
IEEE DOI 2210
Representation learning, Architecture, Semantics, Redundancy, Object detection, grouping and shape analysis BibRef

Liu, Y.Y.[Yao-Yao], Schiele, B.[Bernt], Vedaldi, A.[Andrea], Rupprecht, C.[Christian],
Continual Detection Transformer for Incremental Object Detection,
CVPR23(23799-23808)
IEEE DOI 2309
BibRef

Zhang, Y.F.[Yi-Fan], Pang, B.[Bo], Lu, C.W.[Ce-Wu],
Semantic Segmentation by Early Region Proxy,
CVPR22(1248-1258)
IEEE DOI 2210
Image segmentation, Shape, Computational modeling, Semantics, Layout, Predictive models, Transformers, Segmentation, grouping and shape analysis BibRef

Ke, T.W.[Tsung-Wei], Hwang, J.J.[Jyh-Jing], Guo, Y.H.[Yun-Hui], Wang, X.D.[Xu-Dong], Yu, S.X.[Stella X.],
Unsupervised Hierarchical Semantic Segmentation with Multiview Cosegmentation and Clustering Transformers,
CVPR22(2561-2571)
IEEE DOI 2210
Representation learning, Image segmentation, Visualization, Semantics, Benchmark testing, Transformers, Segmentation, Self- semi- meta- unsupervised learning BibRef

Bhattacharjee, D.[Deblina], Zhang, T.[Tong], Süsstrunk, S.[Sabine], Salzmann, M.[Mathieu],
MuIT: An End-to-End Multitask Learning Transformer,
CVPR22(12021-12031)
IEEE DOI 2210
Heart, Image segmentation, Computational modeling, Image edge detection, Semantics, Estimation, Predictive models, Scene analysis and understanding BibRef

Scheibenreif, L.[Linus], Hanna, J.[Joëlle], Mommert, M.[Michael], Borth, D.[Damian],
Self-supervised Vision Transformers for Land-cover Segmentation and Classification,
EarthVision22(1421-1430)
IEEE DOI 2210
Training, Earth, Image segmentation, Computational modeling, Conferences, Transformers BibRef

Strudel, R.[Robin], Garcia, R.[Ricardo], Laptev, I.[Ivan], Schmid, C.[Cordelia],
Segmenter: Transformer for Semantic Segmentation,
ICCV21(7242-7252)
IEEE DOI 2203
Image segmentation, Image coding, Semantics, Transformers, Encoding, Decoding, Segmentation, grouping and shape, Visual reasoning and logical representation BibRef

Zhao, H.S.[Heng-Shuang], Jiang, L.[Li], Jia, J.Y.[Jia-Ya], Torr, P.H.S.[Philip H.S.], Koltun, V.[Vladlen],
Point Transformer,
ICCV21(16239-16248)
IEEE DOI 2203
Point cloud compression, Measurement, Image segmentation, Semantics, Object detection, Transformer cores, Recognition and classification BibRef

Caron, M.[Mathilde], Houlsby, N.[Neil], Schmid, C.[Cordelia],
Location-Aware Self-Supervised Transformers for Semantic Segmentation,
WACV24(116-126)
IEEE DOI 2404
Location awareness, Visualization, Semantic segmentation, Neural networks, Estimation, Self-supervised learning, Algorithms, Image recognition and understanding BibRef

Caron, M.[Mathilde], Touvron, H.[Hugo], Misra, I.[Ishan], Jegou, H.[Hervé], Mairal, J.[Julien], Bojanowski, P.[Piotr], Joulin, A.[Armand],
Emerging Properties in Self-Supervised Vision Transformers,
ICCV21(9630-9640)
IEEE DOI 2203
Training, Image segmentation, Semantics, Layout, Image retrieval, Representation learning, Transfer/Low-shot/Semi/Unsupervised Learning BibRef

Wang, W.[Wenhai], Xie, E.[Enze], Li, X.[Xiang], Fan, D.P.[Deng-Ping], Song, K.[Kaitao], Liang, D.[Ding], Lu, T.[Tong], Luo, P.[Ping], Shao, L.[Ling],
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions,
ICCV21(548-558)
IEEE DOI 2203
Image resolution, Costs, Semantics, Object detection, Transformers, Feature extraction, Recognition and classification, grouping and shape BibRef

Zhang, Z.X.[Zi-Xiao], Lu, X.Q.[Xiao-Qiang], Cao, G.J.[Guo-Jin], Yang, Y.T.[Yu-Ting], Jiao, L.C.[Li-Cheng], Liu, F.[Fang],
ViT-YOLO: Transformer-Based YOLO for Object Detection,
VisDrone21(2799-2808)
IEEE DOI 2112
Semantics, Detectors, Object detection, Feature extraction, Robustness BibRef

Chapter on 2-D Region Segmentation Techniques, Snakes, Active Contours continues in
Boundary Detection for Semantic Segmentation, Border Analysis .

Last update:May 24, 2026 at 14:46:09