20.6.1 Cross-Modal Indexing, Cross-Modal Retrieval

Chapter Contents (Back)
Multi-Modal Retrieval. Cross-Modal Retrieval.
See also Multi-Modal Learning.
See also Cross-Modal Hashing Image Retrieval.

Costa Pereira, J., Coviello, E.[Emanuele], Doyle, G., Rasiwasia, N., Lanckriet, G.R.G.[Gert R.G.], Levy, R., Vasconcelos, N.M.,
On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval,
PAMI(36), No. 3, March 2014, pp. 521-535.
IEEE DOI 1403
image matching. E.g. use image to search for text. Correlation matching. Semantic matching. Semantic correlation matching. BibRef

Costa Pereira, J.[Jose], Vasconcelos, N.M.[Nuno M.],
Cross-modal domain adaptation for text-based regularization of image semantics in image retrieval systems,
CVIU(124), No. 1, 2014, pp. 123-135.
Elsevier DOI 1406
Content-based image retrieval BibRef

Zhai, X.H.[Xiao-Hua], Peng, Y.X.[Yu-Xin], Xiao, J.G.[Jian-Guo],
Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization,
CirSysVideo(24), No. 6, June 2014, pp. 965-978.
IEEE DOI 1407
Correlation BibRef

Peng, Y.X.[Yu-Xin], Qi, J.W.[Jin-Wei],
Quintuple-Media Joint Correlation Learning With Deep Compression and Regularization,
CirSysVideo(30), No. 8, August 2020, pp. 2709-2722.
IEEE DOI 2008
Media, Correlation, Semantics, Solid modeling, Data models, Image coding, Cross-media retrieval, network regularization BibRef

Peng, Y., Zhai, X., Zhao, Y., Huang, X.,
Semi-Supervised Cross-Media Feature Learning With Unified Patch Graph Regularization,
CirSysVideo(26), No. 3, March 2016, pp. 583-596.
IEEE DOI 1603
Correlation BibRef

Bellini, P.[Pierfrancesco], Cenni, D.[Daniele], Nesi, P.[Paolo],
Optimization of information retrieval for cross media contents in a best practice network,
MultInfoRetr(3), No. 3, September 2014, pp. 147-159.
Springer DOI 1408
BibRef

Kang, C., Xiang, S., Liao, S., Xu, C., Pan, C.,
Learning Consistent Feature Representation for Cross-Modal Multimedia Retrieval,
MultMed(17), No. 3, March 2015, pp. 370-381.
IEEE DOI 1502
Algorithm design and analysis BibRef

He, Y., Xiang, S., Kang, C., Wang, J., Pan, C.,
Cross-Modal Retrieval via Deep and Bidirectional Representation Learning,
MultMed(18), No. 7, July 2016, pp. 1363-1377.
IEEE DOI 1608
backpropagation BibRef

Zhang, S., Wang, X., Lin, Y., Tian, Q.,
Cross Indexing With Grouplets,
MultMed(17), No. 11, November 2015, pp. 1969-1979.
IEEE DOI 1511
Feature extraction BibRef

Chu, L., Zhang, Y., Li, G., Wang, S., Zhang, W., Huang, Q.,
Effective Multimodality Fusion Framework for Cross-Media Topic Detection,
CirSysVideo(26), No. 3, March 2016, pp. 556-569.
IEEE DOI 1603
Complexity theory BibRef

Jiang, B.[Bin], Yang, J.C.[Jia-Chen], Lv, Z.H.[Zhi-Han], Tian, K.[Kun], Meng, Q.G.[Qing-Gang], Yan, Y.[Yan],
Internet cross-media retrieval based on deep learning,
JVCIR(48), No. 1, 2017, pp. 356-366.
Elsevier DOI 1708
Cross-media, retrieval BibRef

Hu, Y., Zheng, L., Yang, Y., Huang, Y.,
Twitter100k: A Real-World Dataset for Weakly Supervised Cross-Media Retrieval,
MultMed(20), No. 4, April 2018, pp. 927-938.
IEEE DOI 1804
Electronic publishing, Encyclopedias, Internet, Optical character recognition software, Training, Visualization, weakly supervised method BibRef

Verma, Y.[Yashaswi], Jha, A.[Abhishek], Jawahar, C.V.,
Cross-specificity: modelling data semantics for cross-modal matching and retrieval,
MultInfoRetr(8), No. 2, June 2018, pp. 139-146.
Springer DOI 1805
BibRef

Dorfer, M.[Matthias], Schlüter, J.[Jan], Vall, A.[Andreu], Korzeniowski, F.[Filip], Widmer, G.[Gerhard],
End-to-end cross-modality retrieval with CCA projections and pairwise ranking loss,
MultInfoRetr(8), No. 2, June 2018, pp. 117-128.
Springer DOI 1805
BibRef

Wang, L.[Li], Zhu, L.[Lei], Dong, X.[Xiao], Liu, L.[Li], Sun, J.D.[Jian-De], Zhang, H.X.[Hua-Xiang],
Joint Feature Selection and Graph Regularization for Modality-Dependent Cross-Modal Retrieval,
JVCIR(54), 2018, pp. 213-222.
Elsevier DOI 1806
Cross-modal retrieval, Feature selection, Subspace learning, Graph regularization BibRef

Vukotic, V., Raymond, C., Gravier, G.,
A Crossmodal Approach to Multimodal Fusion in Video Hyperlinking,
MultMedMag(25), No. 2, April 2018, pp. 11-23.
IEEE DOI 1808
Task analysis, Neural networks, Visualization, Streaming media, Hypertext systems, Training, multimedia BibRef

Zhang, M.J.[Mei-Jia], Zhang, H.X.[Hua-Xiang], Li, J.Z.[Jun-Zheng], Wang, L.[Li], Fang, Y.X.[Yi-Xian], Sun, J.D.[Jian-De],
Supervised graph regularization based cross media retrieval with intra and inter-class correlation,
JVCIR(58), 2019, pp. 1-11.
Elsevier DOI 1901
Cross media retrieval, Subspace learning, Supervised graph regularization BibRef

Dutta, T.[Titir], Biswas, S.[Soma],
Cross-modal retrieval in challenging scenarios using attributes,
PRL(125), 2019, pp. 618-624.
Elsevier DOI 1909
Cross-modal retrieval, Attributes, Unseen query, Low-resolution data BibRef

Liu, H.P.[Hua-Ping], Wang, F.[Feng], Zhang, X.Y.[Xin-Yu], Sun, F.C.[Fu-Chun],
Weakly-paired deep dictionary learning for cross-modal retrieval,
PRL(130), 2020, pp. 199-206.
Elsevier DOI 2002
Deep dictionary learning, Cross-modal retrieval, Weak pairing BibRef

Zhang, H.[Hong], Wang, T.[Ting], Dai, G.[Gang],
Semi-supervised cross-modal common representation learning with vector-valued manifold regularization,
PRL(130), 2020, pp. 335-344.
Elsevier DOI 2002
Cross-media retrieval, Vector-valued RKHS, Manifold regularization, Semi-supervised, Kernel method BibRef

Chaudhuri, U.[Ushasi], Banerjee, B.[Biplab], Bhattacharya, A.[Avik], Datcu, M.[Mihai],
CMIR-NET: A deep learning based model for cross-modal retrieval in remote sensing,
PRL(131), 2020, pp. 456-462.
Elsevier DOI 2004
Remote sensing, Cross-modal retrieval, Deep learning, Panchromatic, Multispectral, Audio samples BibRef

Chi, J.Z.[Jing-Ze], Peng, Y.X.[Yu-Xin],
Zero-Shot Cross-Media Embedding Learning With Dual Adversarial Distribution Network,
CirSysVideo(30), No. 4, April 2020, pp. 1173-1187.
IEEE DOI 2004
Semantics, Media, Correlation, Training, Dogs, Measurement, Cross-media retrieval, zero-shot learning, maximum mean discrepancy BibRef

Peng, Y., Chi, J.,
Unsupervised Cross-Media Retrieval Using Domain Adaptation With Scene Graph,
CirSysVideo(30), No. 11, November 2020, pp. 4368-4379.
IEEE DOI 2011
Media, Correlation, Visualization, Genomics, Bioinformatics, Training data, Training, Cross-media retrieval, domain adaptation, scene graph BibRef

Zhu, L.[Lei], Song, J.Y.[Jia-Yu], Zhu, X.F.[Xiao-Feng], Zhang, C.Y.[Cheng-Yuan], Zhang, S.C.[Shi-Chao], Yuan, X.P.[Xin-Pan],
Adversarial Learning-Based Semantic Correlation Representation for Cross-Modal Retrieval,
MultMedMag(27), No. 4, October 2020, pp. 79-90.
IEEE DOI 2012
Correlation, Semantics, Computer science, Internet, Streaming media BibRef

Zhu, L.[Lei], Zhang, C.Y.[Cheng-Yuan], Song, J.Y.[Jia-Yu], Zhang, S.C.[Shi-Chao], Tian, C.W.[Chun-Wei], Zhu, X.H.[Xing-Hui],
Deep Multigraph Hierarchical Enhanced Semantic Representation for Cross-Modal Retrieval,
MultMedMag(29), No. 3, July 2022, pp. 17-26.
IEEE DOI 2209
Semantics, Adversarial machine learning, Correlation, Visualization, Generators, Generative adversarial networks, Computer science BibRef

Chaudhuri, U.[Ushasi], Banerjee, B.[Biplab], Bhattacharya, A.[Avik], Datcu, M.[Mihai],
CrossATNet: A novel cross-attention based framework for sketch-based image retrieval,
IVC(104), 2020, pp. 104003.
Elsevier DOI 2012
Neural networks, Sketch-based image retrieval, Cross-modal retrieval, Deep-learning, Cross-attention network, Cross-triplets BibRef

Zhang, Y., Zhou, W., Wang, M., Tian, Q., Li, H.,
Deep Relation Embedding for Cross-Modal Retrieval,
IP(30), 2021, pp. 617-627.
IEEE DOI 2012
Semantics, Feature extraction, Visualization, Computational modeling, Task analysis, Training, Optimization, relation BibRef

Zhang, L.[Lei], Chen, L.T.[Lei-Ting], Ou, W.H.[Wei-Hua], Zhou, C.[Chuan],
Semi-supervised cross-modal representation learning with GAN-based Asymmetric Transfer Network,
JVCIR(73), 2020, pp. 102899.
Elsevier DOI 2012
Cross-modal retrieval, Modality gap, Generative adversarial network BibRef

Matsubara, T.[Takashi],
Target-Oriented Deformation of Visual-Semantic Embedding Space,
IEICE(E104-D), No. 1, January 2021, pp. 24-33.
WWW Link. 2101
BibRef

Wu, Y., Wang, S., Song, G., Huang, Q.,
Augmented Adversarial Training for Cross-Modal Retrieval,
MultMed(23), 2021, pp. 559-571.
IEEE DOI 2102
image representation, image retrieval, neural nets, text analysis, adversarial training process, adversa-rial training BibRef

Qi, M., Qin, J., Yang, Y., Wang, Y., Luo, J.,
Semantics-Aware Spatial-Temporal Binaries for Cross-Modal Video Retrieval,
IP(30), 2021, pp. 2989-3004.
IEEE DOI 2102
Semantics, Binary codes, Feature extraction, Visualization, Task analysis, Natural languages, Stochastic processes, natural language BibRef

Wu, J.L.[Jian-Long], Xie, X.X.[Xing-Xu], Nie, L.Q.[Li-Qiang], Lin, Z.C.[Zhou-Chen], Zha, H.B.[Hong-Bin],
Reconstruction regularized low-rank subspace learning for cross-modal retrieval,
PR(113), 2021, pp. 107813.
Elsevier DOI 2103
Cross-modal retrieval, Low-rank subspace learning, Reconstruction regularization BibRef

Shu, X.[Xin], Zhao, G.Y.[Guo-Ying],
Scalable multi-label canonical correlation analysis for cross-modal retrieval,
PR(115), 2021, pp. 107905.
Elsevier DOI 2104
Canonical correlation analysis, Semantic transformation, Cross-modal retrieval, Singular value decomposition BibRef

Song, G.[Ge], Tan, X.Y.[Xiao-Yang],
Real-world Cross-modal Retrieval via Sequential Learning,
MultMed(23), 2021, pp. 1708-1721.
IEEE DOI 2106
BibRef
Earlier:
Sequential Learning for Cross-Modal Retrieval,
CroMoL19(4531-4539)
IEEE DOI 2004
Plugs, Task analysis, Data models, Learning systems, Brain modeling, Adaptation models, Technological innovation, meta learning. information retrieval, learning (artificial intelligence), multimodal data, meta learning BibRef

Chen, W.[Wei], Liu, Y.[Yu], Bakker, E.M.[Erwin M.], Lew, M.S.[Michael S.],
Integrating information theory and adversarial learning for cross-modal retrieval,
PR(117), 2021, pp. 107983.
Elsevier DOI 2106
Cross-modal retrieval, Shannon information theory, Adversarial learning, Modality uncertainty, Data imbalance BibRef

Huang, Z.Y.[Zhen-Yu], Zhou, J.T.Y.[Joey Tian-Yi], Zhu, H.Y.[Hong-Yuan], Zhang, C.Q.[Chang-Qing], Lv, J.C.[Jian-Cheng], Peng, X.[Xi],
Deep Spectral Representation Learning from Multi-View Data,
IP(30), 2021, pp. 5352-5362.
IEEE DOI 2106
Deep learning, Laplace equations, Neural networks, Collaboration, Data models, Task analysis, cross-modal retrieval BibRef

Wen, X.[Xin], Han, Z.Z.[Zhi-Zhong], Liu, Y.S.[Yu-Shen],
CMPD: Using Cross Memory Network With Pair Discrimination for Image-Text Retrieval,
CirSysVideo(31), No. 6, June 2021, pp. 2427-2437.
IEEE DOI 2106
Semantics, Task analysis, Training, Generators, Optimization, Marine vehicles, Retrieval, cross-modal retrieval, adversarial learning BibRef

Liu, J.H.[Jun-Hao], Yang, M.[Min], Li, C.M.[Cheng-Ming], Xu, R.F.[Rui-Feng],
Improving Cross-Modal Image-Text Retrieval With Teacher-Student Learning,
CirSysVideo(31), No. 8, August 2021, pp. 3242-3253.
IEEE DOI 2108
Semantics, Task analysis, Data models, Neural networks, Correlation, Binary codes, Feature extraction, teacher-student learning BibRef

Zhang, L.[Li], Wu, X.Q.[Xiang-Qian],
Multi-task framework based on feature separation and reconstruction for cross-modal retrieval,
PR(122), 2022, pp. 108217.
Elsevier DOI 2112
Cross-modal retrieval, Feature separation, Image reconstruction, Text reconstruction BibRef

Liu, F.[Fangcen], Gao, C.Q.[Chen-Qiang], Sun, Y.Q.[Yong-Qing], Zhao, Y.[Yue], Yang, F.[Feng], Qin, A.[Anyong], Meng, D.Y.[De-Yu],
Infrared and Visible Cross-Modal Image Retrieval Through Shared Features,
CirSysVideo(31), No. 11, November 2021, pp. 4485-4496.
IEEE DOI 2112
Image retrieval, Feature extraction, Task analysis, Imaging, Semantics, Image color analysis, Cameras, maximum mean discrepancy BibRef

Wang, C.Y.[Chao-Yi], Li, L.[Liang], Yan, C.G.[Cheng-Gang], Wang, Z.[Zhan], Sun, Y.Q.[Yao-Qi], Zhang, J.Y.[Ji-Yong],
Cross-modal semantic correlation learning by Bi-CNN network,
IET-IPR(15), No. 14, 2021, pp. 3674-3684.
DOI Link 2112
BibRef

Chakraborty, B.[Bela], Wang, P.[Peng], Wang, L.[Lei],
Inter-Modality Fusion Based Attention for Zero-Shot Cross-Modal Retrieval,
ICIP21(2648-2652)
IEEE DOI 2201
Training, Heating systems, Image processing, Semantics, Pipelines, MIMICs, Zero-shot Learning, Inter-Modality Fusion, Cross-modal Retrieval BibRef

Shin, A.[Andrew], Ishii, M.[Masato], Narihira, T.[Takuya],
Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision,
IJCV(130), No. 2, February 2022, pp. 435-454.
Springer DOI 2202
BibRef

Ji, Z.[Zhong], Wang, H.R.[Hao-Ran], Han, J.G.[Jun-Gong], Pang, Y.W.[Yan-Wei],
SMAN: Stacked Multimodal Attention Network for Cross-Modal Image-Text Retrieval,
Cyber(52), No. 2, February 2022, pp. 1086-1097.
IEEE DOI 2202
Visualization, Semantics, Feature extraction, Correlation, Task analysis, Extraterrestrial measurements, Deep learning, vision and language BibRef

Ma, J.J.[Jing-Jing], Shi, D.[Duanpeng], Tang, X.[Xu], Zhang, X.R.[Xiang-Rong], Jiao, L.C.[Li-Cheng],
Dual Modality Collaborative Learning for Cross-Source Remote Sensing Retrieval,
RS(14), No. 6, 2022, pp. xx-yy.
DOI Link 2204
BibRef

Huang, Y.[Yan], Wang, J.D.[Jing-Dong], Wang, L.[Liang],
Few-Shot Image and Sentence Matching via Aligned Cross-Modal Memory,
PAMI(44), No. 6, June 2022, pp. 2968-2983.
IEEE DOI 2205
BibRef
Earlier: A1, A3, Only:
ACMM: Aligned Cross-Modal Memory for Few-Shot Image and Sentence Matching,
ICCV19(5773-5782)
IEEE DOI 2004
Adaptation models, Task analysis, Pattern matching, Logic gates, Visualization, Image color analysis, Data models, similarity gated fusion. image matching, learning (artificial intelligence), storage management, few-shot content, sentence matching tasks, Micromechanical devices BibRef

Xu, X.[Xing], Lin, K.Y.[Kai-Yi], Yang, Y.[Yang], Hanjalic, A.[Alan], Shen, H.T.[Heng Tao],
Joint Feature Synthesis and Embedding: Adversarial Cross-Modal Retrieval Revisited,
PAMI(44), No. 6, June 2022, pp. 3030-3047.
IEEE DOI 2205
Art, Generative adversarial networks, Training, Correlation, Visualization, Standards, Cross-modal retrieval, knowledge transfer BibRef

Hamroun, M.[Mohamed], Tamine, K.[Karim], Crespin, B.[Benoît],
Multimodal Video Indexing (MVI): A New Method Based on Machine Learning and Semi-Automatic Annotation on Large Video Collections,
IJIG(22), No. 2, April 2022, pp. 2250022.
DOI Link 2205
BibRef

Parida, K.K.[Kranti Kumar], Sharma, G.[Gaurav],
Discriminative semantic transitive consistency for cross-modal learning,
CVIU(219), 2022, pp. 103404.
Elsevier DOI 2205
Cross-modal retrieval, Distributional matching BibRef

Song, X.[Xue], Chen, J.J.[Jing-Jing], Wu, Z.X.[Zu-Xuan], Jiang, Y.G.[Yu-Gang],
Spatial-Temporal Graphs for Cross-Modal Text2Video Retrieval,
MultMed(24), 2022, pp. 2914-2923.
IEEE DOI 2206
Visualization, Semantics, Bit error rate, Encoding, Task analysis, Feature extraction, Microphones, Cross-modal retrieval, cross-modal learning BibRef

Ma, X.H.[Xin-Hong], Yang, X.S.[Xiao-Shan], Gao, J.Y.[Jun-Yu], Xu, C.S.[Chang-Sheng],
The Model May Fit You: User-Generalized Cross-Modal Retrieval,
MultMed(24), 2022, pp. 2998-3012.
IEEE DOI 2206
Data models, Task analysis, Adaptation models, Training, Benchmark testing, Pediatrics, Bridges, cross-modal retrieval, meta-learning BibRef

Shan, W.[Wei], Huang, D.[Dan], Wang, J.T.[Jiang-Tao], Zou, F.[Feng], Li, S.[Suwen],
Self-Attention based fine-grained cross-media hybrid network,
PR(130), 2022, pp. 108748.
Elsevier DOI 2206
Fine-Grained, Cross-Media, Retrieval, Attention BibRef

Qian, S.S.[Sheng-Sheng], Xue, D.Z.[Di-Zhan], Fang, Q.[Quan], Xu, C.S.[Chang-Sheng],
Adaptive Label-Aware Graph Convolutional Networks for Cross-Modal Retrieval,
MultMed(24), 2022, pp. 3520-3532.
IEEE DOI 2207
Correlation, Semantics, Task analysis, Adaptation models, Adaptive systems, Birds, Oceans, Cross-modal retrieval, Graph convolutional networks BibRef

Wang, Y.[Yunbo], Peng, Y.X.[Yu-Xin],
MARS: Learning Modality-Agnostic Representation for Scalable Cross-Media Retrieval,
CirSysVideo(32), No. 7, July 2022, pp. 4765-4777.
IEEE DOI 2207
Semantics, Correlation, Training, Cats, Automobiles, Transforms, Media, Multi-modality learning, cross-media retrieval, similarity retrieval BibRef

Liu, G.H.[Guang-Hai], Li, Z.Y.[Zuo-Yong], Yang, J.Y.[Jing-Yu], Zhang, D.[David],
Exploiting sublimated deep features for image retrieval,
PR(147), 2024, pp. 110076.
Elsevier DOI 2312
Image retrieval, Deep feature, Orientation-selective mechanism, Sublimated deep feature histogram, Gain whitening learning BibRef

Liu, G.H.[Guang-Hai], Li, Z.Y.[Zuo-Yong], Zhang, D.[David],
Exploiting Hu invariant moments and deep features for image retrieval,
PR(173), 2026, pp. 112801.
Elsevier DOI 2601
Image retrieval, Hu invariant moments, Shape feature, Complementary whitening, Generalized deep shape features histogram BibRef

Liu, Z.[Zhi], Zhao, F.Y.[Fang-Yuan], Zhang, M.M.[Meng-Meng],
An Efficient Multimodal Aggregation Network for Video-Text Retrieval,
IEICE(E105-D), No. 10, October 2022, pp. 1825-1828.
WWW Link. 2210
BibRef

Guo, D.J.[Dong-Jin], Su, X.M.[Xiao-Ming], Lian, Y.[Yahong], Liu, L.M.[Li-Min], Wang, H.B.[Hai-Bo],
Two-stage partial image-text clustering (TPIT-C),
IET-CV(16), No. 8, 2022, pp. 694-708.
DOI Link 2210
BibRef

Jin, M.[Ming], Zhang, H.X.[Hua-Xiang], Zhu, L.[Lei], Sun, J.D.[Jian-De], Liu, L.[Li],
Video Sampled Frame Category Aggregation and Consistent Representation for Cross-Modal Retrieval,
CirSysVideo(33), No. 2, February 2023, pp. 909-919.
IEEE DOI 2302
Feature extraction, Semantics, Training, Convolution, Dogs, Network architecture, Video and text cross-modal retrieval, video internal frame aggregation loss module BibRef

Liao, L.[Lei], Yang, M.[Meng], Zhang, B.[Bob],
Deep Supervised Dual Cycle Adversarial Network for Cross-Modal Retrieval,
CirSysVideo(33), No. 2, February 2023, pp. 920-934.
IEEE DOI 2302
Semantics, Generative adversarial networks, Feature extraction, Task analysis, Media, Deep learning, Neural networks, deep supervised learning BibRef

Gong, Y.[Yan], Cosma, G.[Georgina],
Improving visual-semantic embeddings by learning semantically-enhanced hard negatives for cross-modal information retrieval,
PR(137), 2023, pp. 109272.
Elsevier DOI 2302
Visual semantic embedding network, Cross-modal, Information retrieval, Hard negatives BibRef

Li, W.H.[Wen-Hui], Wang, Y.[Yan], Su, Y.T.[Yu-Ting], Li, X.Y.[Xuan-Ya], Liu, A.A.[An-An], Zhang, Y.D.[Yong-Dong],
Multi-Scale Fine-Grained Alignments for Image and Sentence Matching,
MultMed(25), 2023, pp. 543-556.
IEEE DOI 2302
Semantics, Visualization, Dogs, Mouth, Task analysis, Feature extraction, Bridges, Bi-directional aggregations, multi-scale alignments BibRef

Hu, P.[Peng], Huang, Z.Y.[Zhen-Yu], Peng, D.Z.[De-Zhong], Wang, X.[Xu], Peng, X.[Xi],
Cross-Modal Retrieval With Partially Mismatched Pairs,
PAMI(45), No. 8, August 2023, pp. 9595-9610.
IEEE DOI 2307
Semantics, Force, Cognition, Visualization, Upper bound, Stability analysis, Robustness, mismatched pairs BibRef

Liu, Y.X.[Ya-Xin], Wu, J.L.[Jian-Long], Qu, L.[Leigang], Gan, T.[Tian], Yin, J.H.[Jian-Hua], Nie, L.Q.[Li-Qiang],
Self-Supervised Correlation Learning for Cross-Modal Retrieval,
MultMed(25), 2023, pp. 2851-2863.
IEEE DOI 2307
Correlation, Semantics, Mutual information, Kernel, Unsupervised learning, Supervised learning, mutual information estimation BibRef

Sun, C.[Chunpu], Zhang, H.X.[Hua-Xiang], Liu, L.[Li], Liu, D.M.[Dong-Mei], Wang, L.[Lin],
Multi-Label Adversarial Fine-Grained Cross-Modal Retrieval,
SP:IC(117), 2023, pp. 117018.
Elsevier DOI 2308
Common representation, Transformer, Adversarial learning, Cross-modal retrieval BibRef

Guo, S.T.[Sheng-Tang], Zhang, H.X.[Hua-Xiang], Liu, L.[Li], Liu, D.M.[Dong-Mei], Lu, X.[Xu], Li, L.J.[Liu-Jian],
Hypergraph clustering based multi-label cross-modal retrieval,
JVCIR(103), 2024, pp. 104258.
Elsevier DOI 2409
Cross-modal retrieval, Hypergraph, Clustering, Alignment BibRef

Song, D.[Dan], Ling, Y.T.[Yu-Ting], Li, T.[Tianbao], Wang, T.[Teng], Li, X.Y.[Xuan-Ya],
Hierarchical deep semantic alignment for cross-domain 3D model retrieval,
JVCIR(95), 2023, pp. 103895.
Elsevier DOI 2309
3D model retrieval, Unsupervised domain adaptation, Representation learning BibRef

Li, T.B.[Tian-Bao], Liu, A.A.[An-An], Song, D.[Dan], Li, W.H.[Wen-Hui], Li, X.Y.[Xuan-Ya], Su, Y.T.[Yu-Ting],
Focus on Hard Samples: Hierarchical Unbiased Constraints for Cross-Domain 3D Model Retrieval,
CirSysVideo(33), No. 11, November 2023, pp. 7036-7049.
IEEE DOI 2311
BibRef

Dong, X.[Xiao], Zhan, X.L.[Xun-Lin], Wei, Y.C.[Yun-Chao], Wei, X.Y.[Xiao-Yong], Wang, Y.W.[Yao-Wei], Lu, M.L.[Min-Long], Cao, X.C.[Xiao-Chun], Liang, X.D.[Xiao-Dan],
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-Level Product Retrieval,
PAMI(45), No. 11, November 2023, pp. 13117-13133.
IEEE DOI 2310
BibRef

Zhan, X.L.[Xun-Lin], Wu, Y.X.[Yang-Xin], Dong, X.[Xiao], Wei, Y.C.[Yun-Chao], Lu, M.L.[Min-Long], Zhang, Y.C.[Yi-Chi], Xu, H.[Hang], Liang, X.D.[Xiao-Dan],
Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining,
ICCV21(11762-11771)
IEEE DOI 2203
Industries, Measurement, Codes, Transformers, Solids, Electronic commerce, Image and video retrieval, Vision + language BibRef

Zhang, X.[Xiong], Li, W.P.[Wei-Peng], Wang, X.[Xu], Wang, L.[Luyao], Zheng, F.Z.[Fu-Zhong], Wang, L.[Long], Zhang, H.[Haisu],
A Fusion Encoder with Multi-Task Guidance for Cross-Modal Text-Image Retrieval in Remote Sensing,
RS(15), No. 18, 2023, pp. 4637.
DOI Link 2310
BibRef

Xu, L.X.[Ling-Xin], Wang, L.[Luyao], Zhang, J.Z.[Jin-Zhi], Ha, D.[Da], Zhang, H.[Haisu],
A Review of Cross-Modal Image-Text Retrieval in Remote Sensing,
RS(17), No. 24, 2025, pp. 3995.
DOI Link 2512
BibRef

Ye, Z.S.[Ze-Sheng], Yao, L.[Lina], Zhang, Y.[Yu], Gustin, S.[Sylvia],
Self-supervised cross-modal visual retrieval from brain activities,
PR(145), 2024, pp. 109915.
Elsevier DOI 2311
Visual stimuli recovery, Cross-modal retrieval, Self-supervised learning, Brain-Computer Interface BibRef

Chen, Z.J.[Zheng-Jie], Zhang, Y.[Yu], Mi, S.[Siya],
Assisting Multimodal Named Entity Recognition by cross-modal auxiliary tasks,
PRL(175), 2023, pp. 52-58.
Elsevier DOI 2311
Multimodal named entity recognition, Multi-task learning, Cross-modal learning BibRef

Li, Z.X.[Zheng-Xin], Zhao, W.Z.[Wen-Zhe], Du, X.Y.[Xuan-Yi], Zhou, G.Y.[Guang-Yao], Zhang, S.L.[Song-Lin],
Cross-Modal Retrieval and Semantic Refinement for Remote Sensing Image Captioning,
RS(16), No. 1, 2024, pp. xx-yy.
DOI Link 2401
BibRef

Xu, R.Q.[Rui-Qing], Mayer, W.[Wolfgang], Chu, H.L.[Hai-Long], Zhang, Y.[Yitao], Zhang, H.Y.[Hong-Yu], Wang, Y.L.[Yu-Long], Liu, Y.[Youfa], Feng, Z.[Zaiwen],
Automatic semantic modeling of structured data sources with cross-modal retrieval,
PRL(177), 2024, pp. 7-14.
Elsevier DOI 2401
Semantic model, Ontology, Cross-modal retrieval, Attention mechanism, Graph representation learning BibRef

Okamura, D.[Daiki], Harakawa, R.[Ryosuke], Iwahashi, M.[Masahiro],
LCNME: Label Correction Using Network Prediction Based on Memorization Effects for Cross-Modal Retrieval With Noisy Labels,
CirSysVideo(34), No. 1, January 2024, pp. 590-602.
IEEE DOI 2401
BibRef

Zhang, L.[Lei], Chen, L.[Leiting], Zhou, C.[Chuan], Li, X.[Xin], Yang, F.[Fan], Yi, Z.[Zhang],
Weighted Graph-Structured Semantics Constraint Network for Cross-Modal Retrieval,
MultMed(26), 2024, pp. 1551-1564.
IEEE DOI 2402
Semantics, Training, Feature extraction, Representation learning, Data models, Correlation, Games, Cross-modal retrieval, graph neural network BibRef

Wang, Y.B.[Ya-Bing], Wang, S.H.[Shu-Hui], Luo, H.[Hao], Dong, J.F.[Jian-Feng], Wang, F.[Fan], Han, M.[Meng], Wang, X.[Xun], Wang, M.[Meng],
Dual-View Curricular Optimal Transport for Cross-Lingual Cross-Modal Retrieval,
IP(33), 2024, pp. 1522-1533.
IEEE DOI 2403
Visualization, Noise measurement, Estimation, Costs, Transportation, Training, Task analysis, Cross-modal retrieval, machine translation BibRef

Zhang, H.[Han], Li, Y.D.[Yi-Ding], Li, X.L.[Xue-Long],
Constrained Bipartite Graph Learning for Imbalanced Multi-Modal Retrieval,
MultMed(26), 2024, pp. 4502-4514.
IEEE DOI 2403
Correlation, Bipartite graph, Semantics, Task analysis, Optimization, Visualization, Annotations, Constrained bipartite graph, query graph BibRef

Wang, Z.[Zheng], Xu, X.[Xing], Wei, J.[Jiwei], Xie, N.[Ning], Yang, Y.[Yang], Shen, H.T.[Heng Tao],
Semantics Disentangling for Cross-Modal Retrieval,
IP(33), 2024, pp. 2226-2237.
IEEE DOI 2404
Semantics, Correlation, Feature extraction, Representation learning, Interference, Task analysis, Shape, subspace learning BibRef

Ma, X.R.[Xin-Ran], Yang, M.X.[Mou-Xing], Li, Y.F.[Yun-Fan], Hu, P.[Peng], Lv, J.C.[Jian-Cheng], Peng, X.[Xi],
Cross-Modal Retrieval With Noisy Correspondence via Consistency Refining and Mining,
IP(33), 2024, pp. 2587-2598.
IEEE DOI Code:
WWW Link. 2404
Noise measurement, Refining, Self-supervised learning, Task analysis, Robustness, Data mining, Annotations, graph matching BibRef

Feng, Y.L.[Yang-Lin], Zhu, H.Y.[Hong-Yuan], Peng, D.Z.[De-Zhong], Peng, X.[Xi], Hu, P.[Peng],
RONO: Robust Discriminative Learning with Noisy Labels for 2D-3D Cross-Modal Retrieval,
CVPR23(11610-11619)
IEEE DOI 2309
BibRef

Hu, P.[Peng], Peng, X.[Xi], Zhu, H.Y.[Hong-Yuan], Zhen, L.L.[Liang-Li], Lin, J.[Jie],
Learning Cross-Modal Retrieval with Noisy Labels,
CVPR21(5399-5409)
IEEE DOI 2111
Costs, Annotations, Interference, Noise measurement, Labeling BibRef

Ji, Z.[Zhong], Lin, Z.G.[Zhi-Gang], Wang, H.R.[Hao-Ran], Pang, Y.W.[Yan-Wei], Li, X.L.[Xue-Long],
Multi-task hierarchical convolutional network for visual-semantic cross-modal retrieval,
PR(151), 2024, pp. 110398.
Elsevier DOI 2404
Vision and language, Cross-modal retrieval, Multi-task learning, Metric learning BibRef

Ji, Z.[Zhong], Li, Z.H.[Zhi-Hao], Zhang, Y.[Yan], Pang, Y.W.[Yan-Wei], Li, X.L.[Xue-Long],
Visual Semantic Contextualization Network for Multi-Query Image Retrieval,
MultMed(27), 2025, pp. 7067-7080.
IEEE DOI 2510
Semantics, Visualization, Image retrieval, Transformers, Steel, Flowering plants, Vectors, Data mining, Training, transformer BibRef

Pang, S.M.[Shan-Min], Zeng, Y.Y.[Yue-Yang], Zhao, J.W.[Jia-Wei], Xue, J.R.[Jian-Ru],
A Mutually Textual and Visual Refinement Network for Image-Text Matching,
MultMed(26), 2024, pp. 7555-7566.
IEEE DOI 2405
Semantics, Visualization, Vectors, Cameras, Image segmentation, Feature extraction, Image coding, Cross-modal retrieval, semantic alignment enhancement BibRef

Yang, D.K.[Ding-Kang], Kuang, H.P.[Hao-Peng], Yang, K.[Kun], Li, M.C.[Ming-Cheng], Zhang, L.H.[Li-Hua],
Towards Asynchronous Multimodal Signal Interaction and Fusion via Tailored Transformers,
SPLetters(31), 2024, pp. 1550-1554.
IEEE DOI 2406
Transformers, Matrix decomposition, Kernel, Complexity theory, Benchmark testing, Visualization, Feature extraction, sentiment analysis BibRef

Hou, Y.L.[Yi-Lin], Zhong, X.J.[Xian-Jing], Cao, H.[Hui], Zhu, Z.[Zheng], Zhou, Y.F.[Yun-Feng], Zhang, J.[Jie],
A shared-private sentiment analysis approach based on cross-modal information interaction,
PRL(183), 2024, pp. 140-146.
Elsevier DOI 2406
Sentiment analysis, Multimodal data, Improved transformer, Self-attention mechanism, Multi-head attention BibRef

Chen, S.W.[Shao-Wei], Liu, S.[Shuaipeng], Liu, J.[Jie],
Type-Specific Modality Alignment for Multi-Modal Information Extraction,
SPLetters(31), 2024, pp. 1525-1529.
IEEE DOI 2406
Visualization, Semantics, Task analysis, Information retrieval, Training, Measurement, Image coding, global modality integration BibRef

Zheng, Z.Q.[Zi-Qiang], Ren, H.[Hao], Wu, Y.[Yang], Zhang, W.C.[Wei-Chuan], Lu, H.[Hong], Yang, Y.[Yang], Shen, H.T.[Heng Tao],
Fully Unsupervised Domain-Agnostic Image Retrieval,
CirSysVideo(34), No. 6, June 2024, pp. 5077-5090.
IEEE DOI 2406
Image retrieval, Task analysis, Training, Feature extraction, Annotations, Visualization, Data models, domain adaptation BibRef

Zhang, J.Z.[Jin-Zhi], Wang, L.[Luyao], Zheng, F.Z.[Fu-Zhong], Wang, X.[Xu], Zhang, H.[Haisu],
An Enhanced Feature Extraction Framework for Cross-Modal Image-Text Retrieval,
RS(16), No. 12, 2024, pp. 2201.
DOI Link 2406
BibRef

Cheng, Q.R.[Qing-Rong], Tan, Z.S.[Zhen-Shan], Wen, K.Y.[Ke-Yu], Chen, C.[Cheng], Gu, X.D.[Xiao-Dong],
Semantic Pre-Alignment and Ranking Learning With Unified Framework for Cross-Modal Retrieval,
CirSysVideo(34), No. 7, July 2024, pp. 6503-6516.
IEEE DOI 2407
Semantics, Visualization, Optimization, Feature extraction, Uniform resource locators, Task analysis, Correlation, Retrieval, average precision BibRef

Xue, P.[Peng], Niu, S.[Sijie],
A novel active contour model based on features for image segmentation,
PR(155), 2024, pp. 110673.
Elsevier DOI Code:
WWW Link. 2408
Active contour model, Energy functional, Feature energy function, Complex natural image BibRef

Yan, J.[Jiexi], Deng, C.[Cheng], Huang, H.[Heng], Liu, W.[Wei],
Causality-Invariant Interactive Mining for Cross-Modal Similarity Learning,
PAMI(46), No. 9, September 2024, pp. 6216-6230.
IEEE DOI 2408
Data mining, Correlation, Semantics, Task analysis, Extraterrestrial measurements, Training, Image retrieval, similarity learning BibRef

Wu, W.J.[Wei-Jia], Zhao, Y.Z.[Yu-Zhong], Li, Z.[Zhuang], Li, J.H.[Jia-Hong], Zhou, H.[Hong], Shou, M.Z.[Mike Zheng], Bai, X.[Xiang],
A large cross-modal video retrieval dataset with reading comprehension,
PR(157), 2025, pp. 110818.
Elsevier DOI 2409
Cross-modal, Retrieval, Text reading, Contrastive learning BibRef

Yuan, Z.[Zhe], Wu, D.[Dan], Zhou, L.[Liang],
Achieving the Optimum Rate for Cross-Modal Source Coding,
MultMed(26), 2024, pp. 9722-9735.
IEEE DOI 2410
Semantics, Source coding, Haptic interfaces, Reliability, Streams, Redundancy, Decoding, Cross-modal, source coding, semantic relevance, video and haptic coding BibRef

Chen, R.[Ruihan], Tan, J.P.[Jun-Peng], Yang, Z.J.[Zhi-Jing], Yang, X.J.[Xiao-Jun], Dai, Q.Y.[Qing-Yun], Cheng, Y.Q.[Yong-Qiang], Lin, L.[Liang],
DPHANet: Discriminative Parallel and Hierarchical Attention Network for Natural Language Video Localization,
MultMed(26), 2024, pp. 9575-9590.
IEEE DOI 2410
Location awareness, Semantics, TV, Natural languages, Correlation, Glass, Cross-modal retrieval, video understanding BibRef

Zheng, A.[Aihua], Yuan, F.[Fan], Zhang, H.C.[Hai-Chuan], Wang, J.X.[Jia-Xiang], Tang, C.[Chao], Li, C.L.[Cheng-Long],
Public-Private Attributes-Based Variational Adversarial Network for Audio-Visual Cross-Modal Matching,
CirSysVideo(34), No. 9, September 2024, pp. 8698-8709.
IEEE DOI 2410
Visualization, Semantics, Feature extraction, Face recognition, Adversarial machine learning, Task analysis, Decoding, metric learning BibRef

Li, D.[Dongyue], Du, S.L.[Song-Lin],
ContextMatcher: Detector-Free Feature Matching With Cross-Modality Context,
CirSysVideo(34), No. 9, September 2024, pp. 7922-7934.
IEEE DOI 2410
Feature extraction, Transformers, Visualization, Task analysis, Detectors, Correlation, Reliability, Local feature matching, neighborhood consensus BibRef

Zhang, F.[Fan], Zhou, H.[Hang], Hua, X.S.[Xian-Sheng], Chen, C.[Chong], Luo, X.[Xiao],
HOPE: A Hierarchical Perspective for Semi-Supervised 2D-3D Cross-Modal Retrieval,
PAMI(46), No. 12, December 2024, pp. 8976-8993.
IEEE DOI 2411
Semantics, Neural networks, Optimization, Semisupervised learning, Feature extraction, Solid modeling, 3D multimedia, semi-supervised learning BibRef

Zhu, Y.[Ye], Wu, Y.[Yu], Sebe, N.[Nicu], Yan, Y.[Yan],
Vision + X: A Survey on Multimodal Learning in the Light of Data,
PAMI(46), No. 12, December 2024, pp. 9102-9122.
IEEE DOI 2411
Visualization, Task analysis, Music, Feature extraction, Surveys, Representation learning, Multimodal representation learning BibRef

Li, Z.[Zheng], Guo, C.[Caili], Wang, X.[Xin], Zhang, H.[Hao], Hu, L.[Lin],
Multi-View Visual Semantic Embedding for Cross-Modal Image-Text Retrieval,
PR(159), 2025, pp. 111088.
Elsevier DOI Code:
WWW Link. 2412
Image-text retrieval, Cross-modal retrieval, Visual semantic embedding, Multi-view learning BibRef

Jin, M.[Ming], Hu, W.B.[Wen-Bo], Zhu, L.[Lei], Wang, X.[Xiang], Hong, R.C.[Ri-Chang],
Based on Spatial and Temporal Implicit Semantic Relational Inference for Cross-Modal Retrieval,
CirSysVideo(34), No. 11, November 2024, pp. 11286-11298.
IEEE DOI 2412
Semantics, Data models, Feature extraction, Visualization, Task analysis, Computational modeling, Training, semantic alignment BibRef

Croitoru, I.[Ioana], Bogolin, S.V.[Simion-Vlad], Leordeanu, M.[Marius], Jin, H.L.[Hai-Lin], Zisserman, A.[Andrew], Liu, Y.[Yang], Albanie, S.[Samuel],
TeachText: CrossModal text-video retrieval through generalized distillation,
AI(338), 2025, pp. 104235.
Elsevier DOI Code:
WWW Link. 2501
BibRef
Earlier: A1, A2, A3, A4, A5, A7, A6:
TeachText: CrossModal Generalized Distillation for Text-Video Retrieval,

ICCV21(11563-11573)
IEEE DOI 2203
Text-video retrieval, Distillation, Text embeddings, Video experts. Visualization, Codes, Computational modeling, Noise reduction, Benchmark testing, Vision + language BibRef

a Wang, T.S.[Tian-Shi], Li, F.L.[Feng-Ling], Zhu, L.[Lei], Li, J.J.[Jing-Jing], Zhang, Z.[Zheng], Shen, H.T.[Heng Tao],
Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions,
PIEEE(112), No. 11, November 2024, pp. 1716-1754.
IEEE DOI Code:
WWW Link. 2502
Cross modal retrieval, Semantics, Taxonomy, Computer science, Systematic literature review, Training, Statistical analysis, methodological taxonomy BibRef

Luo, J.Y.[Jun-Yu], Zhao, Y.S.[Yu-Sheng], Luo, X.[Xiao], Xiao, Z.P.[Zhi-Ping], Ju, W.[Wei], Shen, L.[Li], Tao, D.C.[Da-Cheng], Zhang, M.[Ming],
Cross-Domain Diffusion With Progressive Alignment for Efficient Adaptive Retrieval,
IP(34), 2025, pp. 1820-1834.
IEEE DOI 2504
Noise, Codes, Adaptation models, Noise level, Data mining, Training, Semantics, Noise robustness, Adversarial machine learning, unsupervised domain adaptation BibRef

Zhang, H.W.[Huai-Wen], Yang, Y.[Yang], Qi, F.[Fan], Qian, S.S.[Sheng-Sheng], Xu, C.S.[Chang-Sheng],
Active Supervised Cross-Modal Retrieval,
PAMI(47), No. 6, June 2025, pp. 5112-5126.
IEEE DOI 2505
Cross modal retrieval, Active learning, Uncertainty, Semantics, Labeling, Training, Costs, Predictive models, Annotations, active learning BibRef

Dang, Z.H.[Zhuo-Hang], Luo, M.[Minnan], Wang, J.H.[Ji-Hong], Jia, C.Y.[Cheng-You], Han, H.C.[Hao-Chen], Wan, H.[Herun], Dai, G.[Guang], Chang, X.J.[Xiao-Jun], Wang, J.D.[Jing-Dong],
Disentangled Noisy Correspondence Learning,
IP(34), 2025, pp. 2602-2615.
IEEE DOI 2505
Noise measurement, Training, Noise, Feature extraction, Data mining, Noise robustness, Accuracy, Cross modal retrieval, Training data, information bottleneck BibRef

Si, L.[Lijia], Guo, C.[Caili], Li, Z.[Zheng], Yang, Y.[Yang],
A unified framework of data augmentation using large language models for text-based cross-modal retrieval,
PR(167), 2025, pp. 111755.
Elsevier DOI Code:
WWW Link. 2506
Data augmentation, Large language models, Text-based cross-modal retrieval, Supervised training BibRef

Jin, M.[Ming], Hu, W.B.[Wen-Bo], Hong, R.C.[Ri-Chang], Zhu, L.[Lei],
Revealing Security Flaws in Cross-Modal Retrieval Models Through Video Poisoning,
CirSysVideo(35), No. 6, June 2025, pp. 6184-6194.
IEEE DOI 2506
Cross modal retrieval, Security, Data models, Accuracy, Visualization, Toxicology, Computational modeling, poisoning module BibRef

Li, Y.[Ying], Deng, S.[Shuaiyu], Guan, C.M.[Chun-Ming], Gao, J.[Jiaquan],
Complementary two-branch Transformer for multi-label image retrieval,
PR(168), 2025, pp. 111806.
Elsevier DOI 2506
Image retrieval, Multi-label, Pattern image, Transformer encoder BibRef

Zheng, C.Y.[Cheng-Yu], Li, X.[Xiu], Liang, X.Y.[Xin-Yue], Huang, L.[Lei], Du, S.[Shan], Nie, J.[Jie], Dong, J.Y.[Jun-Yu],
Cross-Modal Progressive Perspective Matching Network for Remote Sensing Image-Text Retrieval,
MultMed(27), 2025, pp. 3966-3978.
IEEE DOI 2507
Feature extraction, Semantics, Cross modal retrieval, Remote sensing, Data models, Transformers, Sensors, Data mining, cross-modal retrieval BibRef

Pu, R.[Ruitao], Qin, Y.[Yang], Peng, D.Z.[De-Zhong], Song, X.M.[Xiao-Min], Zheng, H.M.[Hui-Ming],
Deep Reversible Consistency Learning for Cross-Modal Retrieval,
MultMed(27), 2025, pp. 4095-4106.
IEEE DOI 2507
Semantics, Training, Cross modal retrieval, Data models, Representation learning, Kernel, Correlation, Feature extraction, representation learning BibRef

Xu, Y.[Yang], Feng, Y.F.[Yi-Fan], Zhong, X.[Xiaopin], Gao, Y.[Yue], Wu, Z.Z.[Zong-Ze],
Hypergraph-Based Remaining Prototype Alignment for Open-Set Cross-Domain Image Retrieval,
MultMed(27), 2025, pp. 4627-4642.
IEEE DOI 2509
Training, Image retrieval, Testing, Prototypes, Correlation, Noise, Cross modal retrieval, Semantics, Hands, open-set learning BibRef

Jiang, C.[Chunmao], Wang, Y.P.[Yong-Peng], Xiong, B.P.[Bao-Ping],
Dual similarity enhanced hybrid orthogonal fusion for multimodal named entity recognition,
PR(169), 2026, pp. 111940.
Elsevier DOI 2509
Multimodal named entity recognition, Hybrid feature, Dual similarity, Orthogonal fusion BibRef

Wang, Z.[Zhaokai], Zhu, X.Z.[Xi-Zhou], Yang, X.[Xue], Luo, G.[Gen], Li, H.[Hao], Tian, C.Y.[Chang-Yao], Dou, W.H.[Wen-Han], Ge, J.Q.[Jun-Qi], Lu, L.W.[Le-Wei], Qiao, Y.[Yu], Dai, J.F.[Ji-Feng],
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding,
PAMI(47), No. 11, November 2025, pp. 10142-10159.
IEEE DOI 2510
Computational modeling, Image resolution, Visual perception, Visualization, Computational efficiency, Feature extraction, multimodal understanding BibRef

Jin, M.[Ming], Zhu, L.[Lei], Hong, R.C.[Ri-Chang],
BiSeR-LMA: A Bidirectional Semantic Reasoning and Large Model Enhancement Approach for Text-Video Cross-Modal Retrieval,
CirSysVideo(35), No. 11, November 2025, pp. 11655-11666.
IEEE DOI 2511
Semantics, Cognition, Streaming media, Data models, Cross modal retrieval, Data augmentation, Feature extraction, bidirectional semantic reasoning BibRef

Jin, M.[Ming], Zhang, H.X.[Hua-Xiang], Zhu, L.[Lei], Sun, J.[Jiande], Liu, L.[Li],
Video and text semantic center alignment for text-video cross-modal retrieval,
SP:IC(140), 2026, pp. 117413.
Elsevier DOI 2512
Cross-modal retrieval, Semantic center alignment, Local key information, Temporal information BibRef

Li, F.L.[Feng-Ling], Wang, Z.Q.[Ze-Qun], Wang, T.S.[Tian-Shi], Zhu, L.[Lei], Chang, X.J.[Xiao-Jun],
Generative Augmentation Hashing for Few-Shot Cross-Modal Retrieval,
CirSysVideo(35), No. 12, December 2025, pp. 12861-12873.
IEEE DOI Code:
WWW Link. 2512
Semantics, Perturbation methods, Cross modal retrieval, Codes, Training, Data augmentation, Noise, Metalearning, Filtering, perturbation enhancement BibRef

Gu, L.C.[Ling-Chen], Shen, X.J.[Xiao-Juan], Sun, J.[Jiande], Liu, Y.[Yan], Li, J.[Jing], Li, Z.H.[Zhi-Hui], Cheung, S.C.S.[Sen-Ching S.], Wan, W.B.[Wen-Bo],
Dual Prototypes-Based Personalized Federated Adversarial Cross-Modal Hashing,
CirSysVideo(35), No. 12, December 2025, pp. 12846-12860.
IEEE DOI 2512
Prototypes, Federated learning, Training, Codes, Cross modal retrieval, Computational modeling, adversarial learning BibRef

Ma, Q.[Qing], Jiang, Y.[Yue], Bai, C.[Cong],
Boundary mutual information hashing for cross-modal retrieval,
PR(172), 2026, pp. 112658.
Elsevier DOI 2601
Hashing, Two-stage adversial learning, Multi-angle similarity preservation, Mutual information, ADMM BibRef

Wei, Y.H.[Yu-Hong], An, J.F.[Jun-Feng],
Flexible Dual Multi-Modal Hashing for Incomplete Multi-Modal Retrieval,
IJIG(26), No. 3, May 2026, pp. 2650021.
DOI Link 2602
BibRef

Debnath, A., Rao, K.S.[K. Sreenivasa], Das, P.P.[Partha P.],
Multi-Similarity Checking-Based Spoken Content Video Retrieval Using Enhanced Mayfly Optimization-Based Weighted Feature Selection,
IJIG(26), No. 3, May 2026, pp. 2650017.
DOI Link 2602
BibRef

Tang, L.[Lihan], Wang, L.[Liejun], Wang, G.[Gang], Sun, M.Y.[Meng-Yuan], Yan, F.[Feng],
Feature Fusion Mamba Hashing via Decoupling for Cross-Modal Retrieval,
SPLetters(33), 2026, pp. 609-613.
IEEE DOI 2602
Semantics, Feature extraction, Codes, Accuracy, Text to image, Computer architecture, Standards, Web sites, Training, Mamba BibRef

Tan, W.T.[Wen-Tao], Li, F.L.[Feng-Ling], Zhu, L.[Lei], Guan, W.[Weili], Li, J.J.[Jing-Jing], Cheng, Z.Y.[Zhi-Yong], Shen, H.T.[Heng Tao],
Dynamic Bit-Wise Semantic Transformer Hashing for Multi-Modal Retrieval,
PAMI(48), No. 3, March 2026, pp. 2954-2969.
IEEE DOI 2602
Semantics, Codes, Noise measurement, Correlation, Robustness, Transformers, Prototypes, Data models, Noise, Contrastive learning, open-set generalization BibRef

Li, H.F.[Hua-Feng], Zhao, J.[Jialong], Zhang, Y.F.[Ya-Fei], Wen, J.[Jie],
Bidirectional Cross-Modal Collaborative Alignment via Semantic-Guided Visual Embeddings for Partially Relevant Video Retrieval,
IP(35), 2026, pp. 1423-1435.
IEEE DOI Code:
WWW Link. 2602
Semantics, Visualization, Videos, Feature extraction, Libraries, Collaboration, Optimization, Bridges, Vectors, Robustness, weak semantic correspondence BibRef

Jin, M.[Ming], Hong, R.C.[Ri-Chang],
MDA-MAA: A Collaborative Augmentation Approach for Generalizing Cross-Domain Retrieval,
IP(35), 2026, pp. 1595-1606.
IEEE DOI 2602
Data models, Videos, Semantics, Data augmentation, Adaptation models, Accuracy, Training data, Hands, Prototypes, Overfitting, Cross-domain, multimodal diffusion augmentation BibRef

Gizdov, A.[Andrey], Ullman, S.[Shimon], Harari, D.[Daniel],
Seeing more with less: human-like representations in vision models,
CVPR25(4408-4417)
IEEE DOI 2508
Performance evaluation, Visualization, Adaptation models, Image resolution, Pain, Image representation, Transformers, foveation BibRef

Liu, Y.K.[Yi-Kun], Zhang, Y.J.[Ya-Jie], Cai, J.Y.[Jia-Yin], Jiang, X.L.[Xiao-Long], Hu, Y.[Yao], Yao, J.C.[Jiang-Chao], Wang, Y.F.[Yan-Feng], Xie, W.[Weidi],
LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant,
CVPR25(4015-4025)
IEEE DOI Code:
WWW Link. 2508
Training, Extrapolation, Contrastive learning, Information retrieval, Tuning BibRef

Chen, W.[Wei], Li, L.[Lin], Yang, Y.Q.[Yong-Qi], Wen, B.[Bin], Yang, F.[Fan], Gao, T.T.[Ting-Ting], Wu, Y.[Yu], Chen, L.[Long],
CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation,
CVPR25(8073-8082)
IEEE DOI 2508
Measurement, Visualization, Large language models, Data integrity, Semantics, Training data, Focusing, Coherence, Data models, MLLM BibRef

Kim, S.[Sungyeon], Zhu, X.L.[Xin-Liang], Lin, X.F.[Xiao-Fan], Bastan, M.[Muhammet], Gray, D.[Douglas], Kwak, S.[Suha],
GENIUS: A Generative Framework for Universal Multimodal Search,
CVPR25(19659-19669)
IEEE DOI 2508
Quantization (signal), Databases, Semantics, Benchmark testing, Information retrieval, Encoding, generative retrieval, universal multimodal retrieval BibRef

Duan, S.Y.[Si-Yuan], Sun, Y.[Yuan], Peng, D.Z.[De-Zhong], Liu, Z.[Zheng], Song, X.M.[Xiao-Min], Hu, P.[Peng],
Fuzzy Multimodal Learning for Trusted Cross-modal Retrieval,
CVPR25(20747-20756)
IEEE DOI Code:
WWW Link. 2508
Measurement, Learning systems, Uncertainty, Merging, Refining, Benchmark testing, Reliability, Optimization, Cross modal retrieval BibRef

Hur, C.[Chan], Hong, J.H.[Jeong-Hun], Lee, D.H.[Dong-Hun], Kang, D.[Dabin], Myeong, S.[Semin], Park, S.H.[Sang-Hyo], Park, H.[Hyeyoung],
Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions,
CVPR25(24077-24086)
IEEE DOI 2508
Training, Filtering, Semantics, Benchmark testing, Generators, Prompt engineering, Text to video, text-video retrieval, multimodal retrieval BibRef

Zha, Q.X.[Quan-Xing], Liu, X.[Xin], Peng, S.J.[Shu-Juan], Cheung, Y.M.[Yiu-Ming], Xu, X.[Xing], Wang, N.N.[Nan-Nan],
ReCon: Enhancing True Correspondence Discrimination through Relation Consistency for Robust Noisy Correspondence Learning,
CVPR25(29680-29689)
IEEE DOI Code:
WWW Link. 2508
Degradation, Filters, Codes, Training data, Benchmark testing, Robustness, Noise measurement, noisy correspondence learning, cross-modal retrieval BibRef

Cui, Y.H.[Yu-Hao], Zu, X.X.[Xin-Xing], Zhang, W.H.[Wen-Hua], Zhao, Z.Z.[Zhong-Zhou], Gao, J.Y.[Jin-Yang],
Incorporating Dense Knowledge Alignment into Unified Multimodal Representation Models,
CVPR25(29733-29743)
IEEE DOI 2508
Training, Large language models, Contrastive learning, Knowledge representation, Cross modal retrieval, Videos, multimodal representation BibRef

Lin, Z.R.[Zeng-Rong], Wang, Z.[Zheng], Qian, T.W.[Tian-Wen], Mu, P.[Pan], Chan, S.[Sixian], Bai, C.[Cong],
NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval,
CVPR25(9263-9273)
IEEE DOI Code:
WWW Link. 2508
Training, Bridges, Visualization, Accuracy, Codes, Semantics, Benchmark testing, Cross modal retrieval, cross-modal retrieval, representation learning BibRef

Zhang, X.[Xin], Zhang, Y.Z.[Yan-Zhao], Xie, W.[Wen], Li, M.X.[Ming-Xin], Dai, Z.Q.[Zi-Qi], Long, D.K.[Ding-Kun], Xie, P.J.[Peng-Jun], Zhang, M.[Meishan], Li, W.J.[Wen-Jie], Zhang, M.[Min],
Bridging Modalities: Improving Universal Multimodal Retrieval by Multimodal Large Language Models,
CVPR25(9274-9285)
IEEE DOI 2508
Training, Visualization, Analytical models, Computational modeling, Large language models, Soft sensors, Training data, Synthetic data BibRef

Zhao, S.[Shijia], Xia, Q.M.[Qi-Ming], Guo, X.[Xusheng], Zou, P.[Pufan], Zheng, M.[Maoji], Wu, H.[Hai], Wen, C.[Chenglu], Wang, C.[Cheng],
SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts,
CVPR25(29374-29384)
IEEE DOI Code:
WWW Link. 2508
Training, Solid modeling, Accuracy, Shape, Semantics, Detectors, Object detection, Boosting, cross-modal BibRef

Wei, C.[Cong], Chen, Y.[Yang], Chen, H.N.[Hao-Nan], Hu, H.X.[He-Xiang], Zhang, G.[Ge], Fu, J.[Jie], Ritter, A.[Alan], Chen, W.[Wenhu],
UNIIR: Training and Benchmarking Universal Multimodal Information Retrievers,
ECCV24(LXXXVII: 387-404).
Springer DOI 2412
BibRef

Chen, S.J.[Si-Jin], Chen, X.[Xin], Zhang, C.[Chi], Li, M.S.[Ming-Sheng], Yu, G.[Gang], Fei, H.[Hao], Zhu, H.Y.[Hong-Yuan], Fan, J.Y.[Jia-Yuan], Chen, T.[Tao],
LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning,
CVPR24(26418-26428)
IEEE DOI 2410
Point cloud compression, Training, Visualization, Solid modeling, Computational modeling, Cognition, Multi-modal learning, vision and language BibRef

Xu, H.R.[Hao-Ran], Peng, P.X.[Pei-Xi], Tan, G.[Guang], Li, Y.[Yuan], Xu, X.H.[Xin-Hai], Tian, Y.H.[Yong-Hong],
DMR: Decomposed Multi-Modality Representations for Frames and Events Fusion in Visual Reinforcement Learning,
CVPR24(26498-26508)
IEEE DOI 2410
Visualization, Noise, Reinforcement learning, Vision sensors, Feature extraction, Data mining, Multi-Modality, DVS, Representation Learning BibRef

You, C.Y.[Chen-Yu], Mint, Y.F.[Yi-Fei], Dai, W.C.[Wei-Cheng], Sekhon, J.S.[Jasjeet S.], Staib, L.[Lawrence], Duncan, J.S.[James S.],
Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations,
CVPR24(26140-26150)
IEEE DOI 2410
Visualization, Annotations, Computational modeling, Refining, Training data, Contrastive learning, Benchmark testing, BibRef

Zhang, Z.H.[Zhi-Hao], Cao, S.C.[Sheng-Cao], Wang, Y.X.[Yu-Xiong],
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding,
CVPR24(21413-21423)
IEEE DOI Code:
WWW Link. 2410
Representation learning, Visualization, Solid modeling, Accuracy, Shape, 3D vision, multi-modal learning, 3D shape classification BibRef

Zhao, Z.[Zihua], Chen, M.X.[Meng-Xi], Dai, T.J.[Tian-Jie], Yao, J.C.[Jiang-Chao], Han, B.[Bo], Zhang, Y.[Ya], Wang, Y.F.[Yan-Feng],
Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning,
CVPR24(27371-27380)
IEEE DOI Code:
WWW Link. 2410
Accuracy, Filtering, Source coding, Benchmark testing, Robustness, Multi-modal learning, Noisy correspondence BibRef

Tuzcuoglu, Ö.[Önder], Köksal, A.[Aybora], Sofu, B.[Bugra], Kalkan, S.[Sinan], Alatan, A.A.[A. Aydin],
XoFTR: Cross-modal Feature Matching Transformer,
IMW24(4275-4286)
IEEE DOI Code:
WWW Link. 2410
Learning systems, Image matching, Pipelines, Lighting, Benchmark testing, Transformers, Image augmentation, thermal infrared BibRef

Wu, J.L.[Jia-Lin], Hu, X.[Xia], Wang, Y.Q.[Ya-Qing], Pang, B.[Bo], Soricut, R.[Radu],
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-Rank Experts,
CVPR24(14205-14215)
IEEE DOI 2410
Degradation, Training, Costs, Computational modeling, Boosting, MoE, LoRA, generalist model, multimodal BibRef

Sun, Q.[Quan], Cui, Y.F.[Yu-Feng], Zhang, X.S.[Xiao-Song], Zhang, F.[Fan], Yu, Q.[Qiying], Wang, Y.Z.[Yue-Ze], Rao, Y.M.[Yong-Ming], Liu, J.J.[Jing-Jing], Huang, T.J.[Tie-Jun], Wang, X.L.[Xin-Long],
Generative Multimodal Models are In-Context Learners,
CVPR24(14398-14409)
IEEE DOI 2410
Visualization, Adaptation models, Codes, Reviews, Computational modeling, Benchmark testing BibRef

Zhao, S.T.[Shi-Tian], Li, Z.W.[Zhuo-Wan], Lu, Y.D.[Ya-Dong], Yuille, A.L.[Alan L.], Wang, Y.[Yan],
Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-Modal Language Models,
CVPR24(13342-13351)
IEEE DOI 2410
Visualization, Cause effect analysis, Benchmark testing, Information filters, Boosting, Causality BibRef

Li, Z.[Zhang], Yang, B.[Biao], Liu, Q.[Qiang], Ma, Z.Y.[Zhi-Yin], Zhang, S.[Shuo], Yang, J.X.[Jing-Xu], Sun, Y.[Yabo], Liu, Y.L.[Yu-Liang], Bai, X.[Xiang],
Monkey: Image Resolution and Text Label are Important Things for Large Multi-Modal Models,
CVPR24(26753-26763)
IEEE DOI Code:
WWW Link. 2410
Training, Visualization, Image resolution, Codes, Computational modeling, Benchmark testing, Large Multimodal Model BibRef

Han, H.C.[Hao-Chen], Zheng, Q.H.[Qing-Hua], Dai, G.[Guang], Luo, M.[Minnan], Wang, J.D.[Jing-Dong],
Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval,
CVPR24(26669-26678)
IEEE DOI Code:
WWW Link. 2410
Training, Codes, Computational modeling, Semantics, Excavation, Cost function, Cross-modal retrieval, Optimal transport, noisy correspondence learning BibRef

Yuan, J.L.[Jia-Lin], Yu, Y.[Ye], Mittal, G.[Gaurav], Hall, M.[Matthew], Sajeev, S.[Sandra], Chen, M.[Mei],
Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality,
WACV24(8517-8527)
IEEE DOI 2404
Art, Fuses, Social networking (online), Semantics, Benchmark testing, Applications, Vision + language and/or other modalities BibRef

Shoshan, A.[Alon], Linial, O.[Ori], Bhonker, N.[Nadav], Hirsch, E.[Elad], Zamir, L.[Lior], Kviatkovsky, I.[Igor], Medioni, G.[Gérard],
Asymmetric Image Retrieval with Cross Model Compatible Ensembles,
WACV24(1-11)
IEEE DOI 2404
Training, Uncertainty, Computational modeling, Face recognition, Image retrieval, Diversity reception, Algorithms, body pose BibRef

Hönig, R.[Robert], Ackermann, J.[Jan], Chi, M.Y.[Ming-Yuan],
Bi-Encoder Cascades for Efficient Image Search,
REDLCV23(1350-1355)
IEEE DOI 2401
BibRef

Cao, Y.C.[Yi-Chao], Tang, Q.F.[Qing-Fei], Yang, F.[Feng], Su, X.[Xiu], You, S.[Shan], Lu, X.B.[Xiao-Bo], Xu, C.[Chang],
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection,
ICCV23(23435-23446)
IEEE DOI 2401
BibRef

Trinci, T.[Tomaso], Bianconcini, T.[Tommaso], Sarti, L.[Leonardo], Taccari, L.[Leonardo], Sambo, F.[Francesco],
Cross-model temporal cooperation via saliency maps for efficient frame classification,
REDLCV23(1156-1160)
IEEE DOI 2401
BibRef

Long, T.[Teng], van Noord, N.[Nanne],
Cross-modal Scalable Hyperbolic Hierarchical Clustering,
ICCV23(16609-16618)
IEEE DOI 2401
BibRef

Li, H.[Hong], Li, X.Y.[Xing-Yu], Hu, P.B.[Peng-Bo], Lei, Y.[Yinuo], Li, C.X.[Chun-Xiao], Zhou, Y.[Yi],
Boosting Multi-modal Model Performance with Adaptive Gradient Modulation,
ICCV23(22157-22167)
IEEE DOI Code:
WWW Link. 2401
BibRef

Zhao, L.J.[Long-Jiao], Wang, Y.[Yu], Kato, J.[Jien],
Using Classifier Discrepancy for Cross-Domain Image Retrieval,
ICIP23(3314-3318)
IEEE DOI 2312
BibRef

Era, Y.[Yuki], Togo, R.[Ren], Maeda, K.[Keisuke], Ogawa, T.[Takahiro], Haseyama, M.[Miki],
Video-Music Retrieval with Fine-Grained Cross-Modal Alignment,
ICIP23(2005-2009)
IEEE DOI 2312
BibRef

Yu, Y.[Youngjae], Chung, J.[Jiwan], Yun, H.[Heeseung], Hessel, J.[Jack], Park, J.S.[Jae Sung], Lu, X.M.[Xi-Ming], Zellers, R.[Rowan], Ammanabrolu, P.[Prithviraj], Le Bras, R.[Ronan], Kim, G.[Gunhee], Choi, Y.[Yejin],
Fusing Pre-Trained Language Models with Multimodal Prompts through Reinforcement Learning,
CVPR23(10845-10856)
IEEE DOI 2309
BibRef

Huang, S.[Siteng], Gong, B.[Biao], Pan, Y.L.[Yu-Lin], Jiang, J.W.[Jian-Wen], Lv, Y.L.[Yi-Liang], Li, Y.Y.[Yu-Yuan], Wang, D.L.[Dong-Lin],
VoP: Text-Video Co-Operative Prompt Tuning for Cross-Modal Retrieval,
CVPR23(6565-6574)
IEEE DOI 2309
BibRef

Chen, M.X.[Meng-Xi], Xing, L.Y.[Lin-Yu], Wang, Y.[Yu], Zhang, X.[Xa],
Enhanced Multimodal Representation Learning with Cross-Modal KD,
CVPR23(11766-11775)
IEEE DOI 2309
BibRef

Yang, S.[Shuo], Xu, Z.[Zhaopan], Wang, K.[Kai], You, Y.[Yang], Yao, H.X.[Hong-Xun], Liu, T.L.[Tong-Liang], Xu, M.[Min],
BiCro: Noisy Correspondence Rectification for Multi-modality Data via Bi-directional Cross-modal Similarity Consistency,
CVPR23(19883-19892)
IEEE DOI 2309
BibRef

Kim, D.[Dongwon], Kim, N.[Namyup], Kwak, S.[Suha],
Improving Cross-Modal Retrieval with Set of Diverse Embeddings,
CVPR23(23422-23431)
IEEE DOI 2309
BibRef

Kim, J.M.[Jae Myung], Koepke, A.S.[A. Sophia], Schmid, C.[Cordelia], Akata, Z.[Zeynep],
Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval,
MULA23(2585-2595)
IEEE DOI 2309
BibRef

Tran, V.[Vinh], Balasubramanian, N.[Niranjan], Hoai, M.[Minh],
From Within to Between: Knowledge Distillation for Cross Modality Retrieval,
ACCV22(IV:605-622).
Springer DOI 2307
BibRef

Fragomeni, A.[Adriano], Wray, M.[Michael], Damen, D.[Dima],
Contra: (con)text (tra)nsformer for Cross-modal Video Retrieval,
ACCV22(IV:451-468).
Springer DOI 2307
BibRef

Zheng, Y.C.[Yuan-Chao], Zhang, X.W.[Xiao-Wei],
Heterogeneous Interactive Learning Network for Unsupervised Cross-modal Retrieval,
ACCV22(IV:692-707).
Springer DOI 2307
BibRef

Arnold, R.[Rahel], Sauter, L.[Loris], Schuldt, H.[Heiko],
Free-Form Multi-Modal Multimedia Retrieval (4MR),
MMMod23(I: 678-683).
Springer DOI 2304
BibRef

Xuan, H.[Hong], Chen, X.S.[Xi Stephen],
Dissecting Deep Metric Learning Losses for Image-Text Retrieval,
WACV23(2163-2172)
IEEE DOI 2302
Measurement, Training, Analytical models, Semantics, Space exploration, Task analysis, visual reasoning BibRef

Ge, X.[Xuri], Chen, F.[Fuhai], Xu, S.[Songpei], Tao, F.[Fuxiang], Jose, J.M.[Joemon M.],
Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval,
WACV23(1022-1031)
IEEE DOI 2302
Measurement, Representation learning, Visualization, Correlation, Computational modeling, Semantics, Algorithms: Vision + language and/or other modalities BibRef

Jawade, B.[Bhavin], Mohan, D.D.[Deen Dayal], Ali, N.M.[Naji Mohamed], Setlur, S.[Srirangaraj], Govindaraju, V.[Venu],
NAPReg: Nouns As Proxies Regularization for Semantically Aware Cross-Modal Embeddings,
WACV23(1135-1144)
IEEE DOI 2302
Training, Measurement, Visualization, Codes, Databases, Semantics, Algorithms: Vision + language and/or other modalities BibRef

Nakatsuka, T.[Takayuki], Hamasaki, M.[Masahiro], Goto, M.[Masataka],
Content-Based Music-Image Retrieval Using Self- and Cross-Modal Feature Embedding Memory,
WACV23(2173-2183)
IEEE DOI 2302
Training, Measurement, Art, Multiple signal classification, Task analysis BibRef

Chen, Y.X.[Yu-Xiao], Yuan, J.B.[Jian-Bo], Zhao, L.[Long], Chen, T.L.[Tian-Lang], Luo, R.[Rui], Davis, L.[Larry], Metaxas, D.N.[Dimitris N.],
More Than Just Attention: Improving Cross-Modal Attentions with Contrastive Constraints for Image-Text Matching,
WACV23(4421-4429)
IEEE DOI 2302
Training, Measurement, Visualization, Annotations, Computational modeling, Algorithms: Vision + language and/or other modalities BibRef

Agarwal, A.[Aishwarya], Karanam, S.[Srikrishna], Srinivasan, B.V.[Balaji Vasan], Banerjee, B.[Biplab],
Contrastive Learning of Semantic Concepts for Open-set Cross-domain Retrieval,
WACV23(4104-4113)
IEEE DOI 2302
Training, Technological innovation, Semantics, Natural languages, Image retrieval, Feature extraction BibRef

Yang, Y.[Yulou], Shen, H.[Hao], Yang, M.[Ming],
Relation-Guided Network for Image-Text Retrieval,
ICIP22(1856-1860)
IEEE DOI 2211
Transformers, Feature extraction, Cognition, Data mining, Image-text retrieval, asymmetric structure, relation-guided BibRef

Sumbul, G.[Gencer], Müller, M.[Markus], Demir, B.[Begüm],
A Novel Self-Supervised Cross-Modal Image Retrieval Method in Remote Sensing,
ICIP22(2426-2430)
IEEE DOI 2211
Training, Codes, Image retrieval, Search problems, Sensors, Reliability, Cross-modal image retrieval, deep learning, remote sensing BibRef

Wang, H.[Hu], Zhang, J.P.[Jian-Peng], Chen, Y.H.[Yuan-Hong], Ma, C.B.[Cong-Bo], Avery, J.[Jodie], Hull, L.[Louise], Carneiro, G.[Gustavo],
Uncertainty-Aware Multi-modal Learning via Cross-Modal Random Network Prediction,
ECCV22(XXXVII:200-217).
Springer DOI 2211
BibRef

de Almeida, L.B.[Lucas Barbosa], Valem, L.P.[Lucas Pascotti], Pedronette, D.C.G.[Daniel Carlos Guimarães],
Graph Convolutional Networks and Manifold Ranking for Multimodal Video Retrieval,
ICIP22(2811-2815)
IEEE DOI 2211
Training, Manifolds, Deep learning, Transfer learning, Feature extraction, Content-based retrieval, Manifold learning, rank aggregation BibRef

Liang, T.[Tao], Lin, G.S.[Guo-Sheng], Wan, M.Y.[Ming-Yang], Li, T.R.[Tian-Rui], Ma, G.J.[Guo-Jun], Lv, F.M.[Feng-Mao],
Expanding Large Pre-trained Unimodal Models with Multimodal Information Injection for Image-Text Multimodal Classification,
CVPR22(15471-15480)
IEEE DOI 2210
Deep learning, Visualization, Image recognition, Correlation, Bit error rate, Vision+language BibRef

Yang, J.H.[Jin-Hui], Chen, X.Y.[Xian-Yu], Jiang, M.[Ming], Chen, S.[Shi], Wang, L.[Louis], Zhao, Q.[Qi],
VisualHow: Multimodal Problem Solving,
CVPR22(15606-15616)
IEEE DOI 2210
Training, Visualization, Technological innovation, Annotations, Natural language processing, Datasets and evaluation BibRef

Girdhar, R.[Rohit], Singh, M.[Mannat], Ravi, N.[Nikhila], van der Maaten, L.[Laurens], Joulin, A.[Armand], Misra, I.[Ishan],
Omnivore: A Single Model for Many Visual Modalities,
CVPR22(16081-16091)
IEEE DOI 2210
Visualization, Solid modeling, Computational modeling, Transformers, Data models, Action and event recognition BibRef

Ma, M.M.[Meng-Meng], Ren, J.[Jian], Zhao, L.[Long], Testuggine, D.[Davide], Peng, X.[Xi],
Are Multimodal Transformers Robust to Missing Modality?,
CVPR22(18156-18165)
IEEE DOI 2210
Training, Benchmark testing, Transformers, Multitasking, Search problems, Data models, Vision+language, Machine learning BibRef

Han, Z.B.[Zong-Bo], Yang, F.[Fan], Huang, J.Z.[Jun-Zhou], Zhang, C.Q.[Chang-Qing], Yao, J.H.[Jian-Hua],
Multimodal Dynamics: Dynamical Fusion for Trustworthy Multimodal Classification,
CVPR22(20675-20685)
IEEE DOI 2210
Heuristic algorithms, Estimation, Classification algorithms, Medical diagnosis, Machine learning BibRef

Gupta, V.[Vikram], Mittal, T.[Trisha], Mathur, P.[Puneet], Mishra, V.[Vaibhav], Maheshwari, M.[Mayank], Bera, A.[Aniket], Mukherjee, D.[Debdoot], Manocha, D.[Dinesh],
3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social Media Short Videos,
CVPR22(21032-21043)
IEEE DOI 2210
Social networking (online), Semantics, Media, Task analysis, Datasets and evaluation, Video analysis and understanding BibRef

Bogolin, S.V.[Simion-Vlad], Croitoru, I.[Ioana], Jin, H.L.[Hai-Lin], Liu, Y.[Yang], Albanie, S.[Samuel],
Cross Modal Retrieval with Querybank Normalisation,
CVPR22(5184-5195)
IEEE DOI 2210
Training, Codes, Computational modeling, Benchmark testing, Vision + language, retrieval BibRef

Yang, E.[Erkun], Yao, D.R.[Dong-Ren], Liu, T.L.[Tong-Liang], Deng, C.[Cheng],
Mutual Quantization for Cross-Modal Search with Noisy Labels,
CVPR22(7541-7550)
IEEE DOI 2210
Training, Representation learning, Quantization (signal), Codes, Training data, Benchmark testing, Recognition: detection, Representation learning BibRef

Neculai, A.[Andrei], Chen, Y.B.[Yan-Bei], Akata, Z.[Zeynep],
Probabilistic Compositional Embeddings for Multimodal Image Retrieval,
MULA22(4546-4556)
IEEE DOI 2210
Visualization, Codes, Computational modeling, Image retrieval, Semantics BibRef

Couairon, G.[Guillaume], Douze, M.[Matthijs], Cord, M.[Matthieu], Schwenk, H.[Holger],
Embedding Arithmetic of Multimodal Queries for Image Retrieval,
ODRUM22(4946-4954)
IEEE DOI 2210
Conferences, Semantics, Image retrieval, Lasers, Transforms, Image representation BibRef

Li, Y.H.[Yi-Hao], Yu, J.[Jun], Cai, Z.P.[Zhong-Peng], Pan, Y.[Yuwen],
Cross-modal Target Retrieval for Tracking by Natural Language,
ODRUM22(4927-4936)
IEEE DOI 2210
Visualization, Target tracking, Natural languages, Semantics, Switches, Benchmark testing BibRef

Thomas, C.[Christopher], Kovashka, A.[Adriana],
Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval,
MULA22(4631-4640)
IEEE DOI 2210
Spatial diversity, Semantics, Channel estimation, Performance gain, Benchmark testing BibRef

Xu, B.[Bocheng], Xiong, Y.H.[Yi-Hua], Zhang, R.[Rui], Feng, Y.[Yanyi], Wu, H.F.[Hai-Feng],
Natural Language-Based Vehicle Retrieval with Explicit Cross-Modal Representation Learning,
AICity22(3141-3148)
IEEE DOI 2210
Representation learning, Visualization, Semantics, Urban areas, Feature extraction, Robustness BibRef

Shvetsova, N.[Nina], Chen, B.[Brian], Rouditchenko, A.[Andrew], Thomas, S.[Samuel], Kingsbury, B.[Brian], Feris, R.S.[Rogerio S.], Harwath, D.[David], Glass, J.[James], Kuehne, H.[Hilde],
Everything at Once - Multi-modal Fusion Transformer for Video Retrieval,
CVPR22(19988-19997)
IEEE DOI 2210
Location awareness, Training, Codes, Fuses, Benchmark testing, Transformers, Action and event recognition, Video analysis and understanding BibRef

Andonian, A.[Alex], Chen, S.X.[Shi-Xing], Hamid, R.[Raffay],
Robust Cross-Modal Representation Learning with Progressive Self-Distillation,
CVPR22(16409-16420)
IEEE DOI 2210
Training, Representation learning, Computational modeling, Redundancy, Benchmark testing, Robustness, Noise measurement, Representation learning BibRef

Lu, H.Y.[Hao-Yu], Fei, N.[Nanyi], Huo, Y.Q.[Yu-Qi], Gao, Y.Z.[Yi-Zhao], Lu, Z.W.[Zhi-Wu], Wen, J.R.[Ji-Rong],
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval,
CVPR22(15671-15680)
IEEE DOI 2210
Visualization, Collaboration, Streaming media, Probability distribution, Task analysis, Video analysis and understanding BibRef

Abdelnabi, S.[Sahar], Hasan, R.[Rakibul], Fritz, M.[Mario],
Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context Images via Online Resources,
CVPR22(14920-14929)
IEEE DOI 2210
Visualization, Machine vision, MIMICs, Manuals, Cognition, retrieval, Vision + language, Recognition: detection BibRef

Wang, Y.[Yun], Zhang, T.[Tong], Zhang, X.[Xueya], Cui, Z.[Zhen], Huang, Y.[Yuge], Shen, P.C.[Peng-Cheng], Li, S.X.[Shao-Xin], Yang, J.[Jian],
Wasserstein Coupled Graph Learning for Cross-Modal Retrieval,
ICCV21(1793-1802)
IEEE DOI 2203
Training, Representation learning, Analytical models, Dictionaries, Correlation, Computational modeling, Vision + language, BibRef

Cai, G.Y.[Guan-Yu], Zhang, J.[Jun], Jiang, X.Y.[Xin-Yang], Gong, Y.F.[Yi-Fei], He, L.H.[Liang-Hua], Yu, F.[Fufu], Peng, P.[Pai], Guo, X.W.[Xiao-Wei], Huang, F.Y.[Fei-Yue], Sun, X.[Xing],
Ask amp;Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query,
ICCV21(1815-1824)
IEEE DOI 2203
Training, Codes, Computational modeling, Image retrieval, Search problems, Robustness, Vision + language, Image and video retrieval BibRef

Wen, K.Y.[Ke-Yu], Xia, J.[Jin], Huang, Y.Y.[Yuan-Yuan], Li, L.Y.[Lin-Yang], Xu, J.Y.[Jia-Yan], Shao, J.[Jie],
COOKIE: Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation,
ICCV21(2188-2197)
IEEE DOI 2203
Visualization, Codes, Computational modeling, Image retrieval, Semantics, Transformers, Vision + language, Representation learning BibRef

Patrick, M.[Mandela], Huang, P.Y.[Po-Yao], Misra, I.[Ishan], Metze, F.[Florian], Vedaldi, A.[Andrea], Asano, Y.M.[Yuki M.], Henriques, J.[João],
Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning,
ICCV21(10540-10552)
IEEE DOI 2203
Representation learning, Costs, Codes, Computational modeling, Crops, Image representation, Representation learning, Vision + other modalities BibRef

Lin, M.X.[Ming-Xian], Yang, J.[Jie], Wang, H.[He], Lai, Y.K.[Yu-Kun], Jia, R.F.[Rong-Fei], Zhao, B.Q.[Bin-Qiang], Gao, L.[Lin],
Single Image 3D Shape Retrieval via Cross-Modal Instance and Category Contrastive Learning,
ICCV21(11385-11395)
IEEE DOI 2203
Representation learning, Deep learning, Shape, Image color analysis, Pipelines, Gray-scale, 3D from a single image and shape-from-x BibRef

Changpinyo, S.[Soravit], Pont-Tuset, J.[Jordi], Ferrari, V.[Vittorio], Soricut, R.[Radu],
Telling the What while Pointing to the Where: Multimodal Queries for Image Retrieval,
ICCV21(12116-12126)
IEEE DOI 2203
Location awareness, Error analysis, Computational modeling, Image retrieval, Natural languages, Mice, Vision + other modalities BibRef

Gabeur, V.[Valentin], Nagrani, A.[Arsha], Sun, C.[Chen], Alahari, K.[Karteek], Schmid, C.[Cordelia],
Masking Modalities for Cross-modal Video Retrieval,
WACV22(2111-2120)
IEEE DOI 2202
Manuals, Benchmark testing, Motion pictures, Natural language processing, Proposals, Speech processing, Scene Understanding BibRef

Galanopoulos, D.[Damianos], Mezaris, V.[Vasileios],
Hard-Negatives or Non-Negatives? A Hard-Negative Selection Strategy for Cross-Modal Retrieval Using the Improved Marginal Ranking Loss,
ViRaL21(2312-2316)
IEEE DOI 2112
Training, Computational modeling, Network architecture BibRef

Jing, L.L.[Long-Long], Vahdani, E.[Elahe], Tan, J.X.[Jia-Xing], Tian, Y.L.[Ying-Li],
Cross-Modal Center Loss for 3D Cross-Modal Retrieval,
CVPR21(3141-3150)
IEEE DOI 2111
Solid modeling, Computational modeling, Metadata, Feature extraction BibRef

Almazán, J.[Jon], Ko, B.[Byungsoo], Gu, G.[Geonmo], Larlus, D.[Diane], Kalantidis, Y.[Yannis],
Granularity-Aware Adaptation for Image Retrieval Over Multiple Tasks,
ECCV22(XIV:389-406).
Springer DOI 2211
BibRef

Chun, S.[Sanghyuk], Oh, S.J.[Seong Joon], Sampaio de Rezende, R.[Rafael], Kalantidis, Y.[Yannis], Larlus, D.[Diane],
Probabilistic Embeddings for Cross-Modal Retrieval,
CVPR21(8411-8420)
IEEE DOI 2111
Uncertainty, Codes, Databases, Annotations, Tools, Benchmark testing BibRef

Liu, Y.[Yang], Chen, Q.C.[Qing-Chao], Albanie, S.[Samuel],
Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval,
CVPR21(14949-14959)
IEEE DOI 2111
Visualization, Prototypes, Task analysis, Mutual information, Videos BibRef

Salvador, A.[Amaia], Gundogdu, E.[Erhan], Bazzani, L.[Loris], Donoser, M.[Michael],
Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning,
CVPR21(15470-15479)
IEEE DOI 2111
Training, Codes, Computational modeling, Semantics, Machine learning, Transformers BibRef

Dzabraev, M.[Maksim], Kalashnikov, M.[Maksim], Komkov, S.[Stepan], Petiushko, A.[Aleksandr],
MDMMT: Multidomain Multimodal Transformer for Video Retrieval,
HVU21(3349-3358)
IEEE DOI 2109
Training, Benchmark testing, Task analysis BibRef

Wang, K.[Kai], Herranz, L.[Luis], van de Weijer, J.[Joost],
Continual learning in cross-modal retrieval,
OmniCV21(3623-3633)
IEEE DOI 2109
Training, Visualization, Human intelligence, Focusing, Interference, Tools BibRef

Mafla, A.[Andrés], Rezende, R.S.[Rafael S.], Gómez, L.[Lluís], Larlus, D.[Diane], Karatzas, D.[Dimosthenis],
StacMR: Scene-Text Aware Cross-Modal Retrieval,
WACV21(2219-2229)
IEEE DOI 2106
Visualization, Annotations, Computational modeling, Semantics, Task analysis BibRef

Feng, C.T.[Chang-Ting], Li, D.G.[Da-Gang], Zheng, J.W.[Jing-Wei],
Improving Supervised Cross-modal Retrieval with Semantic Graph Embedding,
MMMod21(I:187-199).
Springer DOI 2106
BibRef

Wen, Z.Y.[Zhen-Yu], Feng, A.[Aimin],
Deep Centralized Cross-modal Retrieval,
MMMod21(I:443-455).
Springer DOI 2106
BibRef

Jin, C.[Cong], Zhang, T.[Tian], Liu, S.X.[Shou-Xun], Tie, Y.[Yun], Lv, X.[Xin], Li, J.G.[Jian-Guang], Yan, W.C.[Wen-Cai], Yan, M.[Ming], Xu, Q.[Qian], Guan, Y.C.[Yi-Cong], Yang, Z.G.[Zheng-Gougou],
Cross-modal Deep Learning Applications: Audio-visual Retrieval,
MMDLCA20(301-313).
Springer DOI 2103
BibRef

Thomas, C.[Christopher], Kovashka, A.[Adriana],
Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval,
ECCV20(XVIII:317-335).
Springer DOI 2012
BibRef

Wang, Z., Liu, X., Li, H., Sheng, L., Yan, J., Wang, X., Shao, J.,
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval,
ICCV19(5763-5772)
IEEE DOI 2004
entropy, feature extraction, image matching, image retrieval, message passing, natural language processing, text analysis, Task analysis BibRef

Nawaz, S., Janjua, M.K., Gallo, I., Mahmood, A., Calefati, A., Shafait, F.,
Do Cross Modal Systems Leverage Semantic Relationships?,
CroMoL19(4501-4510)
IEEE DOI 2004
image representation, image retrieval, image segmentation, learning (artificial intelligence), Text to Image BibRef

Ning, X.C.[Xue-Cheng], Yang, X.S.[Xiao-Shan], Xu, C.S.[Chang-Sheng],
Multi-Hop Interactive Cross-modal Retrieval,
MMMod20(II:681-693).
Springer DOI 2003
BibRef

Cornia, M.[Marcella], Baraldi, L.[Lorenzo], Tavakoli, H.R.[Hamed R.], Cucchiara, R.[Rita],
Towards Cycle-Consistent Models for Text and Image Retrieval,
WiCV-E18(IV:687-691).
Springer DOI 1905
BibRef

Surís, D.[Didac], Duarte, A.[Amanda], Salvador, A.[Amaia], Torres, J.[Jordi], Giró-i-Nieto, X.[Xavier],
Cross-modal Embeddings for Video and Audio Retrieval,
WiCV-E18(IV:711-716).
Springer DOI 1905
BibRef

Liu, C.L.[Chen-Lu], Xu, X.[Xing], Yang, Y.[Yang], Lu, H.M.[Hui-Min], Shen, F.M.[Fu-Min], Ji, Y.L.[Yan-Li],
Domain Invariant Subspace Learning for Cross-Modal Retrieval,
MMMod18(II:94-105).
Springer DOI 1802
BibRef

Yuan, Y.X.[Yu-Xin], Peng, Y.X.[Yu-Xin],
Recursive Pyramid Network with Joint Attention for Cross-Media Retrieval,
MMMod18(I:405-416).
Springer DOI 1802
BibRef

Shang, X.[Xindi], Zhang, H.W.[Han-Wang], Chua, T.S.[Tat-Seng],
Deep Learning Generic Features for Cross-Media Retrieval,
MMMod16(I: 264-275).
Springer DOI 1601
BibRef

Huang, L.[Lei], Peng, Y.X.[Yu-Xin],
Cross-Media Retrieval via Semantic Entity Projection,
MMMod16(I: 276-288).
Springer DOI 1601
BibRef

Zhang, H.[Hong], Chen, L.[Li],
Learning optimal data representation for cross-media retrieval,
ICIP12(1925-1928).
IEEE DOI 1302
BibRef

Lin, W.X.[Wan-Xia], Lu, T.[Tong], Su, F.[Feng],
A Novel Multi-modal Integration and Propagation Model for Cross-Media Information Retrieval,
MMMod12(740-749).
Springer DOI 1201
BibRef

Chapter on Implementations and Applications, Databases, QBIC, Video Analysis, Hardware and Software, Inspection continues in
Cross-Modal Hashing Image Retrieval .

Last update:Feb 26, 2026 at 10:58:24