17.1.4.2 Action Localization, Action Localisation

Chapter Contents (Back)
Localization. Action Localization.
See also Weakly-Supervised Action Localization.
See also Action Segmentation, Action Start.

Yeo, C., Ahammad, P., Ramchandran, K., Sastry, S.S.,
High-Speed Action Recognition and Localization in Compressed Domain Videos,
CirSysVideo(18), No. 8, August 2008, pp. 1006-1015.
IEEE DOI 0809
BibRef

Nga, D.H.[Do Hang], Yanai, K.[Keiji],
Automatic extraction of relevant video shots of specific actions exploiting Web data,
CVIU(118), No. 1, 2014, pp. 2-15.
Elsevier DOI 1312
BibRef
Earlier:
Automatic collection of Web video shots corresponding to specific actions using Web images,
LSVSM12(15-20).
IEEE DOI 1207
BibRef
Earlier:
Automatic construction of an action video shot database using web videos,
ICCV11(527-534).
IEEE DOI 1201
Web video. Based on text tags. BibRef

Cho, J.C.[Jung-Chan], Lee, M.[Minsik], Chang, H.J.[Hyung Jin], Oh, S.H.[Song-Hwai],
Robust action recognition using local motion and group sparsity,
PR(47), No. 5, 2014, pp. 1813-1825.
Elsevier DOI 1402
Action recognition BibRef

Wang, G.F.[Guo-Feng], Qin, X.Y.[Xue-Ying], Zhong, F.[Fan], Liu, Y.[Yue], Li, H.B.[Hong-Bo], Peng, Q.S.[Qun-Sheng], Yang, M.H.[Ming-Hsuan],
Visual Tracking via Sparse and Local Linear Coding,
IP(24), No. 11, November 2015, pp. 3796-3809.
IEEE DOI 1509
image coding BibRef
Earlier: A1, A3, A4, A6, A2, Only:
Visual Tracking in Continuous Appearance Space via Sparse Coding,
ACCV12(III:57-70).
Springer DOI 1304

See also Visual Tracking via Temporally Smooth Sparse Coding.
See also Visual Tracking via Coarse and Fine Structural Local Sparse Appearance Models. BibRef

Qi, Y.K.[Yuan-Kai], Qin, L.[Lei], Zhang, J.[Jian], Zhang, S.P.[Sheng-Ping], Huang, Q.M.[Qing-Ming], Yang, M.H.[Ming-Hsuan],
Structure-Aware Local Sparse Coding for Visual Tracking,
IP(27), No. 8, August 2018, pp. 3857-3869.
IEEE DOI 1806
image coding, image representation, image sequences, object tracking, target tracking, dictionary, template update BibRef

Jain, M.[Mihir], van Gemert, J.C.[Jan C.], Jégou, H.[Hervé], Bouthemy, P.[Patrick], Snoek, C.G.M.[Cees G. M.],
Tubelets: Unsupervised Action Proposals from Spatiotemporal Super-Voxels,
IJCV(124), No. 3, September 2017, pp. 287-311.
Springer DOI 1708
BibRef
Earlier:
Action Localization with Tubelets from Motion,
CVPR14(740-747)
IEEE DOI 1409
determine when and where certain actions appear. BibRef

Jain, M.[Mihir], van Gemert, J.C.[Jan C.], Snoek, C.G.M.[Cees G.M.],
What do 15,000 object categories tell us about classifying and localizing actions?,
CVPR15(46-55)
IEEE DOI 1510
BibRef

Yang, P.W.[Peng-Wan], Mettes, P.S.[Pascal S.], Snoek, C.G.M.[Cees G. M.],
Few-Shot Transformation of Common Actions into Time and Space,
CVPR21(16026-16035)
IEEE DOI 2111
Location awareness, Transformers, Noise measurement, Proposals BibRef

Mettes, P.S.[Pascal S.], Snoek, C.G.M.[Cees G. M.],
Spatial-Aware Object Embeddings for Zero-Shot Localization and Classification of Actions,
ICCV17(4453-4462)
IEEE DOI 1802
image classification, image motion analysis, object detection, object recognition, video signal processing, Trajectory BibRef

Mettes, P.S.[Pascal S.], Snoek, C.G.M.[Cees G. M.],
Pointly-Supervised Action Localization,
IJCV(127), No. 3, March 2019, pp. 263-281.
Springer DOI 1903
Localization by finding bounding boxes. BibRef

Mettes, P.S.[Pascal S.], van Gemert, J.C.[Jan C.], Snoek, C.G.M.[Cees G. M.],
Spot On: Action Localization from Pointly-Supervised Proposals,
ECCV16(V: 437-453).
Springer DOI 1611
BibRef

van Gemert, J.C.[Jan C.], Jain, M.[Mihir], Gati, E.[Ella], Snoek, C.G.M.[Cees G.M.],
APT: Action localization proposals from dense trajectories,
BMVC15(xx-yy).
DOI Link 1601
BibRef

Jain, M.[Mihir], van Gemert, J.C.[Jan C.], Mensink, T.[Thomas], Snoek, C.G.M.[Cees G.M.],
Objects2action: Classifying and Localizing Actions without Any Video Example,
ICCV15(4588-4596)
IEEE DOI 1602
Computational modeling BibRef

Soomro, K.[Khurram], Idrees, H.[Haroon], Shah, M.[Mubarak],
Online Localization and Prediction of Actions and Interactions,
PAMI(41), No. 2, February 2019, pp. 459-472.
IEEE DOI 1901
BibRef
Earlier:
Predicting the Where and What of Actors and Actions through Online Action Localization,
CVPR16(2648-2657)
IEEE DOI 1612
BibRef
Earlier:
Action Localization in Videos through Context Walk,
ICCV15(3280-3288)
IEEE DOI 1602
Videos, Support vector machines, Predictive models, Motion segmentation, Visualization, Training, Dynamic programming, structural SVM. Context BibRef

Soomro, K.[Khurram], Shah, M.[Mubarak],
Unsupervised Action Discovery and Localization in Videos,
ICCV17(696-705)
IEEE DOI 1802
directed graphs, feature extraction, image classification, image segmentation, knapsack problems, pattern clustering, Videos BibRef

Song, H., Wu, X., Zhu, B., Wu, Y., Chen, M., Jia, Y.,
Temporal Action Localization in Untrimmed Videos Using Action Pattern Trees,
MultMed(21), No. 3, March 2019, pp. 717-730.
IEEE DOI 1903
data mining, feature extraction, image motion analysis, image segmentation, learning (artificial intelligence), overlap loss function BibRef

Zhang, Y.Q.[Yong-Qiang], Ding, M.L.[Ming-Li], Bai, Y.C.[Yan-Cheng], Liu, D.D.[Dan-Dan], Ghanem, B.[Bernard],
Learning a strong detector for action localization in videos,
PRL(128), 2019, pp. 407-413.
Elsevier DOI 1912
Frame-level object detection, Deformable anchor cuboid, Action localization BibRef

Heilbron, F.C.[Fabian Caba], Lee, J.Y.[Joon-Young], Jin, H.L.[Hai-Lin], Ghanem, B.[Bernard],
What Do I Annotate Next? An Empirical Study of Active Learning for Action Localization,
ECCV18(XI: 212-229).
Springer DOI 1810
BibRef

Heilbron, F.C.[Fabian Caba], Barrios, W., Escorcia, V., Ghanem, B.[Bernard],
SCC: Semantic Context Cascade for Efficient Action Detection,
CVPR17(3175-3184)
IEEE DOI 1711
Computational modeling, Context modeling, Dogs, Legged locomotion, Proposals, Semantics, Video, sequences BibRef

Escorcia, V.[Victor], Heilbron, F.C.[Fabian Caba], Niebles, J.C.[Juan Carlos], Ghanem, B.[Bernard],
DAPs: Deep Action Proposals for Action Understanding,
ECCV16(III: 768-784).
Springer DOI 1611
BibRef

Heilbron, F.C.[Fabian Caba], Thabet, A.[Ali], Niebles, J.C.[Juan Carlos], Ghanem, B.[Bernard],
Camera Motion and Surrounding Scene Appearance as Context for Action Recognition,
ACCV14(IV: 583-597).
Springer DOI 1504
BibRef

Long, F.C.[Fu-Chen], Yao, T.[Ting], Qiu, Z.F.[Zhao-Fan], Tian, X.M.[Xin-Mei], Mei, T.[Tao], Luo, J.B.[Jie-Bo],
Coarse-to-Fine Localization of Temporal Action Proposals,
MultMed(22), No. 6, June 2020, pp. 1577-1590.
IEEE DOI 2005
BibRef
Earlier: A1, A2, A3, A4, A6, A5:
Gaussian Temporal Awareness Networks for Action Localization,
CVPR19(344-353).
IEEE DOI 2002
Proposals, Videos, Painting, Brushes, Task analysis, Feature extraction, Action Proposals, Action Recognition, Video Captioning BibRef

Yang, L., Peng, H., Zhang, D., Fu, J., Han, J.,
Revisiting Anchor Mechanisms for Temporal Action Localization,
IP(29), 2020, pp. 8535-8548.
IEEE DOI 2008
Temporal action localization, default anchor, anchor free, complementarity BibRef

Xu, W., Yu, J., Miao, Z., Wan, L., Ji, Q.,
Spatio-Temporal Deep Q-Networks for Human Activity Localization,
CirSysVideo(30), No. 9, September 2020, pp. 2984-2999.
IEEE DOI 2009
Proposals, Reinforcement learning, Activity recognition, Context modeling, Electron tubes, seq-to-seq model BibRef

Li, Y.G.[Ye-Guang], Zhang, M.Y.[Ming-Yuan], Hu, L.[Liang], Li, J.[Jun], Wang, D.Q.[De-Qing],
Candidate region correlation for video action detection,
JVCIR(71), 2020, pp. 102818.
Elsevier DOI 2009
Deep learning, Action detection, Region correlation, Self-attention mechanism BibRef

Chen, P., Gan, C., Shen, G., Huang, W., Zeng, R., Tan, M.,
Relation Attention for Temporal Action Localization,
MultMed(22), No. 10, October 2020, pp. 2723-2733.
IEEE DOI 2009
Proposals, Feature extraction, Task analysis, Object detection, Deep learning, Sports, Semantics, Temporal action localization, relation attention BibRef

Xu, L.[Liang], Wang, X.G.[Xing-Gang], Liu, W.Y.[Wen-Yu], Feng, B.[Bin],
Cascaded Boundary Network for High-Quality Temporal Action Proposal Generation,
CirSysVideo(30), No. 10, October 2020, pp. 3702-3713.
IEEE DOI 2010
Proposals, Videos, Feature extraction, Task analysis, Object detection, Visualization, Correlation, long short-term memory BibRef

Liu, X.L.[Xiao-Long], Sun, Y.C.[Yu-Chao], Lu, J.H.[Jiang-Hu], Yao, C.[Cong], Zhou, Y.[Yu],
Self-Similarity Action Proposal,
SPLetters(27), 2020, pp. 2064-2068.
IEEE DOI 2012
Proposals, Generators, Image segmentation, Sampling methods, Motion segmentation, Feature extraction, Visualization, temporal action localization BibRef

Su, R.[Rui], Xu, D.[Dong], Sheng, L., Ouyang, W.L.[Wan-Li],
PCG-TAL: Progressive Cross-Granularity Cooperation for Temporal Action Localization,
IP(30), 2021, pp. 2103-2113.
IEEE DOI 2102
image colour analysis, image motion analysis, learning (artificial intelligence), object detection, PCG-TAL, cross-stream cooperation BibRef

Su, R.[Rui], Ouyang, W.L.[Wan-Li], Zhou, L.P.[Lu-Ping], Xu, D.[Dong],
Improving Action Localization by Progressive Cross-Stream Cooperation,
CVPR19(12008-12017).
IEEE DOI 2002
BibRef

Ning, K., Xie, L., Liu, J., Wu, F., Tian, Q.,
Interaction-Integrated Network for Natural Language Moment Localization,
IP(30), 2021, pp. 2538-2548.
IEEE DOI 2102
Visualization, Semantics, Location awareness, Task analysis, Linguistics, Convolution, Data models, vision-language understanding BibRef

Wang, B., Yang, L., Zhao, Y.,
POLO: Learning Explicit Cross-Modality Fusion for Temporal Action Localization,
SPLetters(28), 2021, pp. 503-507.
IEEE DOI 2103
Videos, Location awareness, Convolution, Training, Feature extraction, Task analysis, Kernel, Feature fusion, temporal action localization BibRef

Mettes, P.S.[Pascal S.], Thong, W.[William], Snoek, C.G.M.[Cees G. M.],
Object Priors for Classifying and Localizing Unseen Actions,
IJCV(129), No. 6, June 2021, pp. 1954-1971.
Springer DOI 2106
BibRef

Hu, T.[Tao], Thong, W.[William], Mettes, P.S.[Pascal S.], Snoek, C.G.M.[Cees G.M.],
Query by Activity Video in the Wild,
ICIP23(550-554)
IEEE DOI 2312
BibRef

Hu, Y.P.[Yu-Peng], Nie, L.Q.[Li-Qiang], Liu, M.[Meng], Wang, K.[Kun], Wang, Y.L.[Ying-Long], Hua, X.S.[Xian-Sheng],
Coarse-to-Fine Semantic Alignment for Cross-Modal Moment Localization,
IP(30), 2021, pp. 5933-5943.
IEEE DOI 2107
Semantics, Location awareness, Visualization, Context modeling, Proposals, Task analysis, Correlation, hierarchical semantic pruning BibRef

Bai, C.[Cong], Li, H.K.[Hong-Kai], Zhang, J.L.[Jing-Lin], Huang, L.[Ling], Zhang, L.[Lu],
Unsupervised Adversarial Instance-Level Image Retrieval,
MultMed(23), 2021, pp. 2199-2207.
IEEE DOI 2108
Retrival of instances from daily life monitoring. Image retrieval, Training, Generators, Generative adversarial networks, Feature extraction, unsupervised training BibRef

Ding, X.P.[Xin-Peng], Wang, N.N.[Nan-Nan], Gao, X.B.[Xin-Bo], Li, J.[Jie], Wang, X.Y.[Xiao-Yu], Liu, T.L.[Tong-Liang],
KFC: An Efficient Framework for Semi-Supervised Temporal Action Localization,
IP(30), 2021, pp. 6869-6878.
IEEE DOI 2108
Perturbation methods, Location awareness, Feature extraction, Training, Annotations, Semisupervised learning, Semantics, video understanding BibRef

Xuan, H.Y.[Han-Yu], Luo, L.[Lei], Zhang, Z.Y.[Zhen-Yu], Yang, J.[Jian], Yan, Y.[Yan],
Discriminative Cross-Modality Attention Network for Temporal Inconsistent Audio-Visual Event Localization,
IP(30), 2021, pp. 7878-7888.
IEEE DOI 2109
Visualization, Location awareness, Semantics, Task analysis, Correlation, Linear programming, Fuses, Multi-modality perception, discriminative representation BibRef

Zhang, Z.J.[Zi-Jian], Zhao, Z.[Zhou], Zhang, Z.[Zhu], Lin, Z.J.[Zhi-Jie], Wang, Q.[Qi], Hong, R.C.[Ri-Chang],
Temporal Textual Localization in Video via Adversarial Bi-Directional Interaction Networks,
MultMed(23), 2021, pp. 3306-3317.
IEEE DOI 2109
Bidirectional control, Semantics, Task analysis, Correlation, Natural languages, Visualization, texual video localization BibRef

Zhang, Z.M.[Zong-Meng], Han, X.J.[Xian-Jing], Song, X.M.[Xue-Meng], Yan, Y.[Yan], Nie, L.Q.[Li-Qiang],
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos,
IP(30), 2021, pp. 8265-8277.
IEEE DOI 2110
Start and end points of a moment described by a natural language sentence. Videos, Location awareness, Task analysis, Semantics, Syntactics, Convolution, Cognition, Temporal language localization, video and language BibRef

Zhao, P.[Peisen], Xie, L.X.[Ling-Xi], Zhang, Y.[Ya], Tian, Q.[Qi],
Universal-to-Specific Framework for Complex Action Recognition,
MultMed(23), 2021, pp. 3441-3453.
IEEE DOI 2110
Convolution, Task analysis, Feature extraction, Solid modeling, Action recognition, neural networks BibRef

Zhao, P.[Peisen], Xie, L.X.[Ling-Xi], Ju, C.[Chen], Zhang, Y.[Ya], Wang, Y.F.[Yan-Feng], Tian, Q.[Qi],
Bottom-up Temporal Action Localization with Mutual Regularization,
ECCV20(VIII:539-555).
Springer DOI 2011
BibRef

Paul, S.[Sudipta], Mithun, N.C.[Niluthpol Chowdhury], Roy-Chowdhury, A.K.[Amit K.],
Text-Based Localization of Moments in a Video Corpus,
IP(30), 2021, pp. 8886-8899.
IEEE DOI 2111
Task analysis, Location awareness, Semantics, Visualization, Image coding, Feature extraction, Annotations, video corpus BibRef

Su, R.[Rui], Xu, D.[Dong], Zhou, L.P.[Lu-Ping], Ouyang, W.L.[Wan-Li],
Progressive Cross-Stream Cooperation in Spatial and Temporal Domain for Action Localization,
PAMI(43), No. 12, December 2021, pp. 4477-4490.
IEEE DOI 2112
Location awareness, Detectors, Feature extraction, Spatial temporal resolution, Training data, Motion segmentation, two-stream cooperation BibRef

Zhou, Y.[Yuan], Wang, R.L.[Ruo-Lin], Li, H.R.[Hong-Ru], Kung, S.Y.[Sun-Yuan],
Temporal Action Localization Using Long Short-Term Dependency,
MultMed(23), 2021, pp. 4363-4375.
IEEE DOI 2112
Videos, Feature extraction, Proposals, Task analysis, Recurrent neural networks, video content analysis BibRef

Zhao, P.[Peisen], Xie, L.X.[Ling-Xi], Zhang, Y.[Ya], Tian, Q.[Qi],
Actionness-Guided Transformer for Anchor-Free Temporal Action Localization,
SPLetters(29), 2022, pp. 194-198.
IEEE DOI 2202
Proposals, Transformers, Videos, Location awareness, Training, Feature extraction, Convolution, Temporal action localization, transformer BibRef

Sun, C.[Che], Song, H.[Hao], Wu, X.X.[Xin-Xiao], Jia, Y.D.[Yun-De], Luo, J.B.[Jie-Bo],
Exploiting Informative Video Segments for Temporal Action Localization,
MultMed(24), 2022, pp. 274-287.
IEEE DOI 2202
Motion segmentation, Location awareness, Proposals, Generators, Aggregates, Image segmentation, Feature extraction, attention mechanism BibRef

Xu, J.L.[Jing-Lin], Chen, G.Y.[Guang-Yi], Lu, J.W.[Ji-Wen], Zhou, J.[Jie],
Unintentional Action Localization via Counterfactual Examples,
IP(31), 2022, pp. 3281-3294.
IEEE DOI 2205
Location awareness, Training, Predictive models, Anomaly detection, Correlation, Task analysis, Proposals, intention BibRef

Xu, J.L.[Jing-Lin], Chen, G.Y.[Guang-Yi], Zhou, N.X.[Nuo-Xing], Zheng, W.S.[Wei-Shi], Lu, J.W.[Ji-Wen],
Probabilistic Temporal Modeling for Unintentional Action Localization,
IP(31), 2022, pp. 3081-3094.
IEEE DOI 2205
Probabilistic logic, Location awareness, Videos, Annotations, Uncertainty, Reliability, Anomaly detection, action intention BibRef

Fu, H.[Hao], Wang, H.X.[Hong-Xing],
Multiple cross-attention for video-subtitle moment retrieval,
PRL(156), 2022, pp. 7-14.
Elsevier DOI 2205
Video-subtitle moment retrieval, Multi-modal learning, Cross-attention BibRef

Li, X.W.[Xue-Wei], Wu, H.J.[Hong-Jun], Li, M.Z.[Meng-Zhu], Liu, H.Z.[Hong-Zhe],
Multi-label video classification via coupling attentional multiple instance learning with label relation graph,
PRL(156), 2022, pp. 53-59.
Elsevier DOI 2205
Multi-label video classification, Multiple instance learning, Attentional feature learning, Label relation graph BibRef

Rodin, I.[Ivan], Furnari, A.[Antonino], Mavroeidis, D.[Dimitrios], Farinella, G.M.[Giovanni Maria],
Untrimmed Action Anticipation,
CIAP22(III:337-348).
Springer DOI 2205
BibRef

Xia, K.[Kun], Wang, L.[Le], Zhou, S.P.[San-Ping], Hua, G.[Gang], Tang, W.[Wei],
Dual relation network for temporal action localization,
PR(129), 2022, pp. 108725.
Elsevier DOI 2206
Temporal action localization, Relation reasoning BibRef

Kim, Y.H.[Young Hwi], Nam, S.[Seonghyeon], Kim, S.J.[Seon Joo],
2PESNet: Towards online processing of temporal action localization,
PR(131), 2022, pp. 108871.
Elsevier DOI 2208
Online video understanding, Temporal action localization BibRef

Zeng, R.H.[Run-Hao], Huang, W.B.[Wen-Bing], Tan, M.K.[Ming-Kui], Rong, Y.[Yu], Zhao, P.L.[Pei-Lin], Huang, J.Z.[Jun-Zhou], Gan, C.[Chuang],
Graph Convolutional Module for Temporal Action Localization in Videos,
PAMI(44), No. 10, October 2022, pp. 6209-6223.
IEEE DOI 2209
BibRef
Earlier: A1, A2, A7, A3, A4, A5, A6:
Graph Convolutional Networks for Temporal Action Localization,
ICCV19(7093-7102)
IEEE DOI 2004
Location awareness, Videos, Proposals, Semantics, Image edge detection, Sports, Feature extraction, video analysis. convolutional, graph theory, image classification, learning (artificial intelligence), action proposal graph BibRef

Nawaz, H.S.[Hafiza Sadia], Shi, Z.S.[Zhen-Sheng], Gan, Y.H.[Yan-Hai], Hirpa, A.[Amanuel], Dong, J.Y.[Jun-Yu], Zheng, H.Y.[Hai-Yong],
Temporal Moment Localization via Natural Language by Utilizing Video Question Answers as a Special Variant and Bypassing NLP for Corpora,
CirSysVideo(32), No. 9, September 2022, pp. 6174-6185.
IEEE DOI 2209
Visualization, Location awareness, Natural language processing, Oceans, Transformers, Semantics, Grounding, Moment retrieval, moment localization using language BibRef

Zhang, Y.[Yaru], Zhang, X.Y.[Xiao-Yu], Shi, H.C.[Hai-Chao],
OW-TAL: Learning Unknown Human Activities for Open-World Temporal Action Localization,
PR(133), 2023, pp. 109027.
Elsevier DOI 2210
Temporal action localization, Open-world learning, Self-paced learning BibRef

Liu, Y.[Yi], Wang, L.M.[Li-Min], Wang, Y.[Yali], Ma, X.[Xiao], Qiao, Y.[Yu],
FineAction: A Fine-Grained Video Dataset for Temporal Action Localization,
IP(31), 2022, pp. 6937-6950.
IEEE DOI 2212
Annotations, Location awareness, Sports, Benchmark testing, Taxonomy, Task analysis, Hair, Temporal action localization, fine-grained, deep learning BibRef

Zhang, S.Y.[Song-Yang], Peng, H.[Houwen], Fu, J.L.[Jian-Long], Lu, Y.J.[Yi-Juan], Luo, J.B.[Jie-Bo],
Multi-Scale 2D Temporal Adjacency Networks for Moment Localization With Natural Language,
PAMI(44), No. 12, December 2022, pp. 9073-9087.
IEEE DOI 2212
Location awareness, Context modeling, Task analysis, Natural languages, Feature extraction, Rats, Semantics BibRef

Hu, Y.F.[Yu-Fan], Gao, J.Y.[Jun-Yu], Dong, J.F.[Jian-Feng], Fan, B.[Bin], Liu, H.M.[Hong-Min],
Exploring Rich Semantics for Open-Set Action Recognition,
MultMed(26), 2024, pp. 5410-5421.
IEEE DOI 2404
Semantics, Prototypes, Knowledge graphs, Visualization, Task analysis, Uncertainty, Training, Open-set action recognition, semantic relation modeling BibRef

Vo, K.[Khoa], Truong, S.[Sang], Yamazaki, K.[Kashu], Raj, B.[Bhiksha], Tran, M.T.[Minh-Triet], Le, N.[Ngan],
AOE-Net: Entities Interactions Modeling with Adaptive Attention Mechanism for Temporal Action Proposals Generation,
IJCV(131), No. 1, January 2023, pp. 302-323.
Springer DOI 2301

WWW Link. BibRef

Pehlivan, S.[Selen], Laaksonen, J.T.[Jorma T.],
Improved action proposals using fine-grained proposal features with recurrent attention models,
JVCIR(90), 2023, pp. 103709.
Elsevier DOI 2301
Temporal action proposal generation, Untrimmed video understanding, Temporal convolution, Attention BibRef

Xue, C.[Cheng], Zhong, X.[Xionghu], Cai, M.J.[Min-Jie], Chen, H.[Hao], Wang, W.W.[Wen-Wu],
Audio-Visual Event Localization by Learning Spatial and Semantic Co-Attention,
MultMed(25), 2023, pp. 418-429.
IEEE DOI 2302
Visualization, Location awareness, Task analysis, Semantics, Feature extraction, Correlation, Automobiles, Audio-visual, deep learning BibRef

Su, Y.T.[Yu-Ting], Wang, W.K.[Wei-Kang], Liu, J.[Jing], Ma, S.[Shuang], Yang, X.K.[Xiao-Kang],
Sequence as a Whole: A Unified Framework for Video Action Localization With Long-Range Text Query,
IP(32), 2023, pp. 1403-1418.
IEEE DOI 2303
Location awareness, Task analysis, Grounding, Transformers, Convolution, Visualization, Spatiotemporal phenomena, vision transformer BibRef

Zhang, H.P.[Hai-Ping], Ma, C.H.[Cong-Hao], Yu, D.J.[Dong-Jin], Guan, L.M.[Li-Ming], Wang, D.J.[Dong-Jing], Hu, Z.P.[Ze-Peng], Liu, X.[Xu],
MTSCANet: Multi temporal resolution temporal semantic context aggregation network,
IET-CV(17), No. 3, 2023, pp. 366-378.
DOI Link 2305
convolutional neural nets, learning (artificial intelligence), neural net architecture BibRef

Gao, Z.[Zan], Cui, X.[Xinglei], Zhuo, T.[Tao], Cheng, Z.Y.[Zhi-Yong], Liu, A.A.[An-An], Wang, M.[Meng], Chen, S.Y.[Shen-Yong],
A Multitemporal Scale and Spatial-Temporal Transformer Network for Temporal Action Localization,
HMS(53), No. 3, June 2023, pp. 569-580.
IEEE DOI 2306
Transformers, Semantics, Feature extraction, Proposals, Location awareness, Convolution, Task analysis, temporal action localization (TAL) BibRef

Zhu, Z.X.[Zi-Xin], Wang, L.[Le], Tang, W.[Wei], Zheng, N.N.[Nan-Ning], Hua, G.[Gang],
ContextLoc++: A Unified Context Model for Temporal Action Localization,
PAMI(45), No. 8, August 2023, pp. 9504-9519.
IEEE DOI 2307
BibRef
Earlier: A1, A3, A2, A4, A5:
Enriching Local and Global Contexts for Temporal Action Localization,
ICCV21(13496-13505)
IEEE DOI 2203
Proposals, Location awareness, Context modeling, Visualization, Optical flow, Adaptation models, Task analysis, temporal action localization. Codes, Computational modeling, Network architecture, Video analysis and understanding BibRef

Liu, S.[Shuo], Quan, W.[Weize], Wang, C.Q.[Chao-Qun], Liu, Y.[Yuan], Liu, B.[Bin], Yan, D.M.[Dong-Ming],
Dense Modality Interaction Network for Audio-Visual Event Localization,
MultMed(25), 2023, pp. 2734-2748.
IEEE DOI 2307
Visualization, Location awareness, Aircraft, Correlation, Task analysis, Synchronization, Fuses, Attention, Multi-modality BibRef

Sun, L.[Li], Wang, P.[Ping], Wang, L.[Liuan], Sun, J.[Jun], Okatani, T.[Takayuki],
Zero-shot temporal event localisation: Label-free, training-free, domain-free,
IET-CV(17), No. 5, 2023, pp. 599-613.
DOI Link 2309
video retrieval BibRef

Raza, M.A.[Muhammad Ahmed], Chen, L.F.[Long-Fei], Nanbo, L.[Li], Fisher, R.B.[Robert B.],
EatSense: Human centric, action recognition and localization dataset for understanding eating behaviors and quality of motion assessment,
IVC(137), 2023, pp. 104762.
Elsevier DOI 2309
EatSense, Eating vision dataset, Atomic-action recognition, Change in movement detection BibRef

Liu, Y.[Yu], Yang, F.[Fan], Ginhac, D.[Dominique],
Accumulated micro-motion representations for lightweight online action detection in real-time,
JVCIR(95), 2023, pp. 103879.
Elsevier DOI 2309
Motion representation, Spatiotemporal action localization, Online action detection, Real-time computing, Embedded system BibRef

Mettes, P.[Pascal],
Universal Prototype Transport for Zero-Shot Action Recognition and Localization,
IJCV(131), No. 1, January 2023, pp. 3060-3073.
Springer DOI 2310
BibRef

Liu, Z.H.[Zi-Hao], Yan, D.F.[Dan-Feng], Cai, Y.Q.[Yuan-Qiang], Song, Y.[Yan],
Spatio-temporal human action localization in indoor surveillances,
PR(147), 2024, pp. 110087.
Elsevier DOI 2312
Video analysis, Spatio-temporal action localization dataset, Real-world indoor surveillance BibRef

Xia, K.[Kun], Wang, L.[Le], Shen, Y.C.[Yi-Chao], Zhou, S.[Sanpin], Hua, G.[Gang], Tang, W.[Wei],
Exploring Action Centers for Temporal Action Localization,
MultMed(25), 2023, pp. 9425-9436.
IEEE DOI 2312
BibRef

Wang, S.M.[Shao-Meng], Yan, R.[Rui], Huang, P.[Peng], Dai, G.Z.[Guang-Zhao], Song, Y.[Yan], Shu, X.B.[Xiang-Bo],
Com-STAL: Compositional Spatio-Temporal Action Localization,
CirSysVideo(33), No. 12, December 2023, pp. 7645-7657.
IEEE DOI 2312
BibRef

Huang, P.[Peng], Qu, H.Y.[Hong-Yu], Shu, X.B.[Xiang-Bo],
Revisiting Few-Shot Compositional Action Recognition With Knowledge Calibration,
SPLetters(32), 2025, pp. 1216-1220.
IEEE DOI 2503
Videos, Visualization, Calibration, Training, Testing, Data mining, Automobiles, Prototypes, Feature extraction, action recognition BibRef

Sun, Y.Z.[Yun-Zhuo], Xu, Y.F.[Yi-Fang], Xie, Z.[Zien], Shu, Y.K.[Yu-Kun], Du, S.[Sidan],
GPTSee: Enhancing Moment Retrieval and Highlight Detection via Description-Based Similarity Features,
SPLetters(31), 2024, pp. 521-525.
IEEE DOI 2402
Semantics, Visualization, Feature extraction, Task analysis, Decoding, Natural languages, Computational modeling, video highlight detection BibRef

Chen, T.B.[Tong-Bao], Wang, W.M.[Wen-Min], Jiang, Z.[Zhe], Li, R.C.[Ruo-Chen], Wang, B.S.[Bing-Shu],
Cross-Modality Knowledge Calibration Network for Video Corpus Moment Retrieval,
MultMed(26), 2024, pp. 3799-3813.
IEEE DOI 2402
Visualization, Task analysis, Database languages, Semantics, Pipelines, Calibration, Transformers, Cross-modality, calibration, video corpus moment retrieval BibRef

Gan, M.G.[Ming-Gang], Zhang, Y.[Yan],
Content Temporal Relation Network for temporal action proposal generation,
PR(149), 2024, pp. 110245.
Elsevier DOI Code:
WWW Link. 2403
Temporal action proposal generation, Temporal action detection, Untrimmed video analysis, Proposal-proposal relations BibRef

Li, T.T.[Ting-Tian], Sun, Z.X.[Zi-Xun], Xiao, X.Y.[Xin-Yu],
Unsupervised Modality-Transferable Video Highlight Detection With Representation Activation Sequence Learning,
IP(33), 2024, pp. 1911-1922.
IEEE DOI 2403
Visualization, Task analysis, Feature extraction, Vectors, Semantics, Self-supervised learning, Image reconstruction, Unsupervised, representation activation sequence BibRef

Li, G.Z.[Guo-Zhang], Cheng, D.[De], Wang, N.N.[Nan-Nan], Li, J.[Jie], Gao, X.B.[Xin-Bo],
Neighbor-Guided Pseudo-Label Generation and Refinement for Single-Frame Supervised Temporal Action Localization,
IP(33), 2024, pp. 2419-2430.
IEEE DOI 2404
Semantics, Videos, Location awareness, Predictive models, Annotations, Feature extraction, Transformers, single-frame temporal action localization BibRef

Li, Q.[Qiang], Zu, G.[Guang], Xu, H.[Hui], Kong, J.[Jun], Zhang, Y.[Yanni], Wang, J.Z.[Jian-Zhong],
An Adaptive Dual Selective Transformer for Temporal Action Localization,
MultMed(26), 2024, pp. 7398-7412.
IEEE DOI 2405
Transformers, Proposals, Videos, Mixers, Task analysis, Location awareness, Feature extraction, video understanding BibRef

Yang, S.[Shuo], Wu, X.X.[Xin-Xiao], Shang, Z.[Zirui], Luo, J.B.[Jie-Bo],
Dynamic Pathway for Query-Aware Feature Learning in Language-Driven Action Localization,
MultMed(26), 2024, pp. 7451-7461.
IEEE DOI 2405
Semantics, Location awareness, Motion segmentation, Task analysis, Proposals, Encoding, Feature extraction, Dynamic pathway, video moment retrieval BibRef

Mokari, M.[Mozhgan], Sadeghi, K.H.[Khosrow Haj],
Enhancing temporal action localization in an end-to-end network through estimation error incorporation,
IVC(145), 2024, pp. 104994.
Elsevier DOI 2405
Temporal action localization, Activity, Classification, Activity proposal, Action recognition BibRef

Cao, C.Q.[Cong-Qi], Wang, Y.Z.[Yi-Zhe], Zhang, Y.[Yueran], Lu, Y.[Yue], Zhang, X.[Xin], Zhang, Y.N.[Yan-Ning],
Co-Occurrence Matters: Learning Action Relation for Temporal Action Localization,
CirSysVideo(34), No. 5, May 2024, pp. 3327-3339.
IEEE DOI 2405
Semantics, Visualization, Location awareness, Task analysis, Feature extraction, Predictive models, Computational modeling, temporal action localization BibRef

Yang, J.[Jin], Wei, P.[Ping], Zheng, N.N.[Nan-Ning],
Cross Time-Frequency Transformer for Temporal Action Localization,
CirSysVideo(34), No. 6, June 2024, pp. 4625-4638.
IEEE DOI 2406
Time-frequency analysis, Feature extraction, Transformers, Location awareness, Logic gates, Task analysis, cross time-frequency features BibRef

Tang, Y.P.[Ye-Peng], Wang, W.N.[Wei-Ning], Zhang, C.J.[Chun-Jie], Liu, J.[Jing], Zhao, Y.[Yao],
Learnable Feature Augmentation Framework for Temporal Action Localization,
IP(33), 2024, pp. 4002-4015.
IEEE DOI 2407
Feature extraction, Task analysis, Semantics, Location awareness, Detectors, Data augmentation, Training, Temporal action detection, feature augmentation BibRef

Vahdani, E.[Elahe], Tian, Y.L.[Ying-Li],
POTLoc: Pseudo-label Oriented Transformer for point-supervised temporal Action Localization,
CVIU(246), 2024, pp. 104044.
Elsevier DOI 2408
Temporal action detection, Point-supervised learning, Self-training BibRef

Chen, Z.M.[Zhao-Min], Jin, X.[Xin], Chan, S.X.[Si-Xian],
SiSe: Simultaneous and Sequential Transformers for multi-label activity recognition,
PR(156), 2024, pp. 110844.
Elsevier DOI 2408
Multi-label, Activity recognition, Sequential transformer, Hierarchical structure BibRef

Chen, L.[Lin], Zhang, J.[Jing], Zhang, Y.F.[Yi-Fan], Kang, J.P.[Jun-Peng], Zhuo, L.[Li],
MKP-Net: Memory knowledge propagation network for point-supervised temporal action localization in livestreaming,
CVIU(248), 2024, pp. 104109.
Elsevier DOI 2409
Livestreaming, Point-supervised, Temporal action localization, Memory knowledge propagation, Dual optimization loss BibRef

Raza, A.[Asif], Yang, B.[Bang], Zou, Y.X.[Yue-Xian],
Zero-Shot Temporal Action Detection by Learning Multimodal Prompts and Text-Enhanced Actionness,
CirSysVideo(34), No. 11, November 2024, pp. 11000-11012.
IEEE DOI 2412
Training, Task analysis, Location awareness, Image recognition, Semantics, Visualization, Adaptation models, Zero-shot, actionness modeling BibRef

Wang, Y.[Yu], Zhao, S.J.[Sheng-Jie], Chen, S.W.[Shi-Wei],
SQL-Net: Semantic Query Learning for Point-Supervised Temporal Action Localization,
MultMed(27), 2025, pp. 84-94.
IEEE DOI 2501
Semantics, Videos, Location awareness, Reliability, Proposals, Annotations, Accuracy, Training, Learning systems, Labeling, semantic query learning BibRef

Liu, Y.Y.[Yuan-Yuan], Zhou, N.[Ning], Huang, Y.X.[Yu-Xuan], Liu, S.Y.[Shu-Yang], Liu, L.Y.[Le-Yuan], Zhou, W.[Wujie], Tang, C.[Chang], Wang, K.[Ke],
Beyond boundaries: Hierarchical-contrast unsupervised temporal action localization with high-coupling feature learning,
PR(162), 2025, pp. 111421.
Elsevier DOI Code:
WWW Link. 2503
Unsupervised temporal action localization, Coarse-to-fine, Video-level CL, Instance-level CL, Boundary-level CL BibRef

Sheng, J.R.[Jin-Rong], Li, A.[Ao], Ge, Y.X.[Yong-Xin],
Summarized knowledge guidance for single-frame temporal action localization,
PRL(191), 2025, pp. 31-36.
Elsevier DOI 2504
Temporal action localization, Single-frame annotation, Memory bank, Contrastive learning BibRef

Sun, C.[Chao], Chen, M.[Min], Zhu, C.B.[Chuan-Bo], Zhang, S.[Sheng], Lu, P.[Ping], Chen, J.C.[Jin-Cai],
Listen With Seeing: Cross-Modal Contrastive Learning for Audio-Visual Event Localization,
MultMed(27), 2025, pp. 2650-2665.
IEEE DOI 2505
Visualization, Contrastive learning, Location awareness, Semantics, Videos, Hidden Markov models, Noise, Correlation, Event detection, cross-modal contrastive learning BibRef

Liu, Y.[Yin], Wu, Q.[Qin], Zeng, M.[Mingyong], Liu, Y.[Yahan], Pan, Y.Y.[Yu-Ying],
FASTEN: Video Event Localization Based on Audio-Visual Feature Alignment and Multi-Scale Temporal Enhancement,
SPLetters(32), 2025, pp. 2010-2014.
IEEE DOI 2505
Feature extraction, Location awareness, Visualization, Transformers, Semantics, Artificial intelligence, multi-scale enhancement BibRef

Zhang, L.[Long], Song, P.P.[Pei-Pei], Duan, Z.L.[Zhang-Ling], Wang, S.[Shuo], Chang, X.J.[Xiao-Jun], Yang, X.[Xun],
Video Corpus Moment Retrieval With Query-Specific Context Learning and Progressive Localization,
CirSysVideo(35), No. 6, June 2025, pp. 5659-5670.
IEEE DOI 2506
Location awareness, Semantics, Proposals, Contrastive learning, Visualization, Hands, Quantum cascade lasers, Streams, progressive localization BibRef

Zhou, W.[Wei], Lin, K.[Kang], Hu, W.P.[Wei-Peng], Xie, C.[Chao], Su, T.[Tao], Hu, H.F.[Hai-Feng], Tan, Y.P.[Yap-Peng],
Snippet-Inter Difference Attention Network for Weakly-Supervised Temporal Action Localization,
MultMed(27), 2025, pp. 3610-3624.
IEEE DOI 2506
Location awareness, Feature extraction, Proposals, Annotations, Accuracy, Transformers, Predictive models, Excavation, contrastive learning BibRef

Li, J.X.[Jia-Xuan], Ma, T.C.[Tian-Cheng], Yang, X.H.[Xiao-Hui], Yang, L.J.[Li-Jun], Zheng, C.[Chen],
Video Complicated-Information Extraction and Filtering Network for Weakly-Supervised Temporal Action Localization,
SPLetters(32), 2025, pp. 2334-2338.
IEEE DOI 2506
Videos, Feature extraction, Filtering, Location awareness, Training, Kernel, Convolution, Accuracy, Annotations, Data mining, action recognition BibRef

Gao, Z.L.[Zi-Lin], Wang, Q.L.[Qi-Long], Zhang, B.B.[Bing-Bing], Hu, Q.H.[Qing-Hua], Li, P.H.[Pei-Hua],
A^2M^2-Net: Adaptively Aligned Multi-Scale Moment for Few-Shot Action Recognition,
IJCV(133), No. 8, August 2025, pp. 5363-5378.
Springer DOI 2508
FSAR: few-shot action recognition. Temporal alignment. BibRef

Liu, H.M.[Hong-Min], Li, X.[Xueli], Fan, B.[Bin], Xu, J.L.[Jing-Lin],
BRTAL: Boundary Refinement Temporal Action Localization via Offset-Driven Diffusion Models,
CirSysVideo(35), No. 8, August 2025, pp. 8174-8186.
IEEE DOI 2508
Location awareness, Proposals, Diffusion models, Accuracy, Training, Detectors, Context modeling, Transformers, Noise, Feature extraction, temporal context modeling BibRef

Zhang, P.[Pufen], Shi, P.[Peng], He, X.[Xiao],
Audio-Visual Event Localization With Cross Co-Attention and Dynamic Audio-Object Semantic Alignment,
SPLetters(32), 2025, pp. 3152-3156.
IEEE DOI 2509
Visualization, Semantics, Correlation, Location awareness, Feature extraction, Training, Transformers, Image segmentation, TV, semantic alignment (SA) BibRef

Zhang, J.[Jing], Yu, Y.[Yi], Mao, Y.[Yuyao], Ren, Y.G.[Yong-Gong],
Event-level multimodal feature fusion for audio-visual event localization,
IVC(161), 2025, pp. 105610.
Elsevier DOI 2509
Visual-audio event localization, Multimodal feature fusion, Video sequence, Attention mechanism BibRef

Geng, T.T.[Tian-Tian], Wang, T.[Teng], Duan, J.M.[Jin-Ming], Zhang, Y.[Yanfu], Guan, W.[Weili], Zheng, F.[Feng], Shao, L.[Ling],
UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization,
PAMI(47), No. 11, November 2025, pp. 10280-10294.
IEEE DOI 2510
Videos, Location awareness, Visualization, Multitasking, Training, Event detection, Data models, Transformers, Vocabulary, multi-task learning BibRef

Feng, Q.[Qianhan], Li, W.[Wenshuo], Lin, T.[Tong], Chen, X.H.[Xing-Hao],
Full-Stage Pseudo Label Quality Enhancement for Weakly-Supervised Temporal Action Localization,
CirSysVideo(35), No. 11, November 2025, pp. 11144-11157.
IEEE DOI 2511
Location awareness, Proposals, Annotations, Training, Contrastive learning, Accuracy, Transformers, Sports BibRef

Gao, J.[Jichen], Zhou, S.P.[Sui-Ping], Yu, H.[Hang], Li, C.Y.[Chen-Yang], Hu, X.X.[Xiao-Xi],
SCESS-Net: Semantic consistency enhancement and segment selection network for audio-visual event localization,
CVIU(262), 2025, pp. 104551.
Elsevier DOI 2512
Audio-visual learning, Multi-modal learning, Event localization, Attention-based network BibRef

Xu, J.L.[Jing-Lin], Zhang, Y.Q.[Ya-Qi], Zhou, W.H.[Wen-Hao], Liu, H.M.[Hong-Min],
BFSTAL: Bidirectional Feature Splitting With Cross-Layer Fusion for Temporal Action Localization,
CirSysVideo(35), No. 12, December 2025, pp. 12707-12718.
IEEE DOI 2512
Feature extraction, Videos, Location awareness, Cross layer design, Context modeling, Analytical models, Proposals, Data mining, cross-layer fusion detection BibRef

Li, J.H.[Jia-Hua], Wei, K.[Kun], Xu, Z.[Zhe], Wang, L.[Liejun], Deng, C.[Cheng],
Robust Temporal Action Localization With Meta Boundary Refinement,
MultMed(27), 2025, pp. 9240-9251.
IEEE DOI 2601
Noise measurement, Annotations, Training, Noise, Robustness, Metalearning, Videos, Location awareness, Pipelines, energy function BibRef

Liu, L.[Liang], Li, S.Y.[Shuai-Yong], Zhu, Y.Q.[Yong-Qiang], Dai, Z.X.[Zheng-Xu],
Modality-Aware Gated Attention Network for Audio-Visual Event Localization,
MultMed(28), 2026, pp. 1601-1612.
IEEE DOI 2603
BibRef
Earlier: A1, A2, A3, Only:
Audio-Visual Semantic Graph Network for Audio-Visual Event Localization,
CVPR25(23957-23966)
IEEE DOI 2508
Visualization, Location awareness, Logic gates, Semantics, Pediatrics, Attention mechanisms, Videos, Interference, modality biases. Bridges, Computational modeling, Interference, Videos, Convergence, video understanding, cross-modal interaction BibRef

Yu, Y.[Yue], Wang, C.[Cheng], Shi, Y.X.[Yu-Xin],
Enhancing temporal action localization through cross-modal and cross-structural knowledge distillation,
JVCIR(116), 2026, pp. 104734.
Elsevier DOI Code:
WWW Link. 2603
Temporal action localization, Cross-modal distillation, Cross-structure distillation, Attention BibRef

Kim, J.[Jihwan], Choi, J.[Jaehyun], Jeon, Y.[Yerim], Heo, J.P.[Jae-Pil],
Boundary-recovering network for temporal action detection,
PR(176), 2026, pp. 113141.
Elsevier DOI 2603
Multi-scale features, Temporal action detection, Action recognition, Video understanding BibRef

Lee, S.B.[Su-Been], Moon, W.J.[Won-Jun], Seong, H.S.[Hyun Seok], Heo, J.P.[Jae-Pil],
Temporal Alignment-Free Video Matching for Few-Shot Action Recognition,
CVPR25(5412-5421)
IEEE DOI 2508
Codes, Trajectory, Videos, few-shot learning, action-recognition, attention, feature aggregation BibRef

Moon, W.J.[Won-Jun], Hyun, S.[Sangeek], Park, S.U.[Sang-Uk], Park, D.[Dongchan], Heo, J.P.[Jae-Pil],
Query: Dependent Video Representation for Moment Retrieval and Highlight Detection,
CVPR23(23023-23033)
IEEE DOI 2309
BibRef

Bunn, C.[Christopher], Li, W.Q.[Wan-Qing], Yang, J.[Jack],
Re-Purposing Segment Anything For Skeleton Action Localization,
ICIP25(1678-1683)
IEEE DOI 2601
Location awareness, Image segmentation, Visualization, Accuracy, Semantics, Skeleton, Decoding, Segment anything, re-purposing SAM BibRef

Chen, X.Y.[Xiao-Yong], Guo, Y.[Yong], Liang, J.M.[Jia-Ming], Zhuang, S.T.[Si-Tong], Zeng, R.[Runhao], Hu, X.P.[Xi-Ping],
Temporal Action Detection Model Compression by Progressive Block Drop,
CVPR25(29225-29236)
IEEE DOI 2508
Computational modeling, Graphics processing units, Benchmark testing, Feature extraction, Computational efficiency, Videos BibRef

Khosla, S.[Savya], V, S.T.[Sethuraman T], Schwing, A.[Alexander], Hoiem, D.[Derek],
Relocate: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations,
CVPR25(3697-3706)
IEEE DOI 2508
Location awareness, Training, Visualization, Accuracy, Benchmark testing, Object recognition, Clutter, Videos, vision foundation models BibRef

Xia, R.[Rui], Jiang, D.[Dan], Zhang, Q.[Quan], Zhang, K.[Ke], Yuan, C.[Chun],
CLIP-AE: Clip-Assisted Cross-View Audio-Visual Enhancement for Unsupervised Temporal Action Localization,
ICIP25(2014-2018)
IEEE DOI 2601
Location awareness, Visualization, Annotations, Collaboration, Information retrieval, Unsupervised learning, Faces, Audio-Visual Fusion BibRef

Zhang, Q.[Quan], Fang, J.[Jinwei], Yuan, R.[Rui], Tang, X.[Xi], Qi, Y.X.[Yu-Xin], Zhang, K.[Ke], Yuan, C.[Chun],
Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models,
CVPR25(24139-24148)
IEEE DOI 2508
Location awareness, Visualization, Foundation models, Federated learning, Large language models, Videos BibRef

Liu, M.[Mengnan], Wang, L.[Le], Zhou, S.P.[San-Ping], Xia, K.[Kun], Sun, X.L.[Xiao-Long], Hua, G.[Gang],
Boosting Point-Supervised Temporal Action Localization through Integrating Query Reformation and Optimal Transport,
CVPR25(13865-13875)
IEEE DOI 2508
Location awareness, Training, Accuracy, Annotations, Semantics, Decoding, Proposals, Reliability, Pattern matching, Optimization, temporal action localizationvideo understandingweakly supervised BibRef

Zhang, G.[Gengyuan], Fok, M.L.A.[Mang Ling Ada], Ma, J.[Jialu], Xia, Y.[Yan], Cremers, D.[Daniel], Torr, P.[Philip], Tresp, V.[Volker], Gu, J.D.[Jin-Dong],
Localizing Events in Videos with Multimodal Queries,
CVPR25(3339-3351)
IEEE DOI 2508
Location awareness, Training, Adaptation models, Large language models, Semantics, Natural languages, multimodal large language model BibRef

Zhou, J.X.[Jin-Xing], Guo, D.[Dan], Guo, R.[Ruohao], Mao, Y.X.[Yu-Xin], Hu, J.J.[Jing-Jing], Zhong, Y.R.[Yi-Ran], Chang, X.J.[Xiao-Jun], Wang, M.[Meng],
Towards Open-Vocabulary Audio-Visual Event Localization,
CVPR25(8362-8371)
IEEE DOI 2508
Location awareness, Training, Visualization, Annotations, Semantics, Training data, Feature extraction, Data models, Videos BibRef

Liu, Z.[Ziyi], Liu, Y.[Yangcen],
Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer,
CVPR25(8711-8720)
IEEE DOI 2508
Training, Location awareness, Adaptation models, Uncertainty, Computational modeling, Noise measurement, Proposals, video content understanding BibRef

Diko, A.[Anxhelo], Wang, T.[Tinghuai], Swaileh, W.[Wassim], Sun, S.Y.[Shi-Yan], Patras, I.[Ioannis],
ReWind: Understanding Long Videos with Instructed Learnable Memory,
CVPR25(13734-13743)
IEEE DOI 2508
Visualization, Grounding, Large language models, Memory management, Memory modules, Benchmark testing, Performance gain, temporal action localization BibRef

Hyun, J.[Jeongseok], Han, S.H.[Su Ho], Kang, H.[Hyolim], Lee, J.Y.[Joon-Young], Kim, S.J.[Seon Joo],
Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization,
WACV25(9406-9415)
IEEE DOI Code:
WWW Link. 2505
Location awareness, Vocabulary, Video on demand, Limiting, Codes, Scalability, Benchmark testing, Web sites, Videos, ov-tal BibRef

Bao, W.T.[Wen-Tao], Li, K.[Kai], Chen, Y.X.[Yu-Xiao], Patel, D.[Deep], Min, M.R.Q.[Martin Ren-Qiang], Kong, Y.[Yu],
Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection,
WACV25(8291-8301)
IEEE DOI Code:
WWW Link. 2505
Training, Vocabulary, Codes, Computational modeling, Semantics, Detectors, Benchmark testing, Transformers, Videos BibRef

Gupta, A.[Akshita], Mittal, G.[Gaurav], Magooda, A.[Ahmed], Yu, Y.[Ye], Taylor, G.W.[Graham W.], Chen, M.[Mei],
LoSA: Long-Short-Range Adapter for Scaling End-to-End Temporal Action Localization,
WACV25(2092-2102)
IEEE DOI 2505
Training, Location awareness, Adaptation models, Foundation models, Transfer learning, Memory management, Graphics processing units, Optical flow BibRef

Pujol-Perich, D.[David], Clapés, A.[Albert], Escalera, S.[Sergio],
SADA: Semantic Adversarial Unsupervised Domain Adaptation for Temporal Action Localization,
WACV25(9237-9247)
IEEE DOI Code:
WWW Link. 2505
Location awareness, Degradation, Adaptation models, Codes, Computational modeling, Semantics, Benchmark testing, domain adaptation BibRef

Abdullah, H.M.[Hasnat Md], Liu, T.[Tian], Wei, K.[Kangda], Kong, S.[Shu], Huang, R.[Ruihong],
UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark,
WACV25(5801-5811)
IEEE DOI 2505
Location awareness, Measurement, Autism, Foundation models, Large language models, Benchmark testing, Videos, unusual activity localization BibRef

Yang, L.[Le], Zheng, Z.W.[Zi-Wei], Han, Y.Z.[Yi-Zeng], Cheng, H.[Hao], Song, S.[Shiji], Huang, G.[Gao], Li, F.[Fan],
Dyfadet: Dynamic Feature Aggregation for Temporal Action Detection,
ECCV24(XLVI: 305-322).
Springer DOI 2412
Code:
WWW Link. BibRef

Zeng, Y.S.[Ying-Sen], Zhong, Y.J.[Yu-Jie], Feng, C.J.[Cheng-Jian], Ma, L.[Lin],
Unimd: Towards Unifying Moment Retrieval and Temporal Action Detection,
ECCV24(XLVI: 286-304).
Springer DOI 2412
Code:
WWW Link. BibRef

Liu, M.N.[Meng-Nan], Wang, L.[Le], Zhou, S.P.[San-Ping], Xia, K.[Kun], Wu, Q.[Qi], Zhang, Q.[Qilin], Hua, G.[Gang],
Stepwise Multi-grained Boundary Detector for Point-supervised Temporal Action Localization,
ECCV24(VII: 333-349).
Springer DOI 2412
BibRef

Kwon, D.[Donghyeon], Kim, I.H.[In-Ho], Kwak, S.[Suha],
Boosting Semi-Supervised Video Action Detection with Temporal Context,
WACV25(847-858)
IEEE DOI 2505
Training, Computational modeling, Contrastive learning, Semisupervised learning, Benchmark testing, Boosting, Spatial resolution BibRef

Lee, J.[Jinsung], Kim, T.[Taeoh], Lee, I.[Inwoong], Shim, M.H.[Min-Ho], Wee, D.Y.[Dong-Yoon], Cho, M.[Minsu], Kwak, S.[Suha],
Classification Matters: Improving Video Action Detection with Class-specific Attention,
ECCV24(XX: 450-467).
Springer DOI 2412
BibRef

Song, Y.K.[Young-Kil], Kim, D.K.[Dong-Keun], Cho, M.[Minsu], Kwak, S.[Suha],
Online Temporal Action Localization with Memory-augmented Transformer,
ECCV24(XIX: 74-91).
Springer DOI 2412
BibRef

Reza, S.[Sakib], Zhang, Y.X.[Yue-Xi], Moghaddam, M.[Mohsen], Camps, O.[Octavia],
Hat: History-augmented Anchor Transformer for Online Temporal Action Localization,
ECCV24(XXI: 205-222).
Springer DOI 2412
BibRef

Zhou, F.X.[Fei-Xiang], Williams, B.[Bryan], Rahmani, H.[Hossein],
Towards Adaptive Pseudo-label Learning for Semi-supervised Temporal Action Localization,
ECCV24(LXII: 320-338).
Springer DOI 2412
BibRef

Huang, D.A.[De-An], Liao, S.[Shijia], Radhakrishnan, S.[Subhashree], Yin, H.X.[Hong-Xu], Molchanov, P.[Pavlo], Yu, Z.[Zhiding], Kautz, J.[Jan],
Lita: Language Instructed Temporal-localization Assistant,
ECCV24(LXIV: 202-218).
Springer DOI 2412
BibRef

Rahman, M.S.[Mohammed Shaiqur], Shihab, I.F.[Ibne Farabi], Chu, L.[Lynna], Sharma, A.[Anuj],
DeepLocalization: Using change point detection for Temporal Action Localization,
AICity24(7252-7260)
IEEE DOI 2410
Location awareness, Accuracy, Road accidents, Event detection, Computational modeling, Streaming media, Real-time systems BibRef

Liberatori, B.[Benedetta], Conti, A.[Alessandro], Rota, P.[Paolo], Wang, Y.M.[Yi-Ming], Ricci, E.[Elisa],
Test-Time Zero-Shot Temporal Action Localization,
CVPR24(18720-18729)
IEEE DOI 2410
Location awareness, Training, Adaptation models, Computational modeling, Supervised learning, Refining, temporal action localization BibRef

Ntinoutl, I.[Ioanna], Sanchez, E.[Enrique], Tzimiropoulos, G.[Georgios],
Multiscale Vision Transformers Meet Bipartite Matching for Efficient Single-Stage Action Localization,
CVPR24(18827-18836)
IEEE DOI Code:
WWW Link. 2410
Location awareness, Training, Computational modeling, Pipelines, Transformers BibRef

Gritsenko, A.A.[Alexey A.], Xiong, X.[Xuehan], Djolonga, J.[Josip], Dehghani, M.[Mostafa], Sun, C.[Chen], Lucic, M.[Mario], Schmid, C.[Cordelia], Arnab, A.[Anurag],
End-to-End Spatio-Temporal Action Localisation with Video Transformers,
CVPR24(18373-18383)
IEEE DOI 2410
Annotations, Benchmark testing, Transformers, Proposals, spatio-temporal action localisation, video BibRef

Yang, A.[Antoine], Miech, A.[Antoine], Sivic, J.[Josef], Laptev, I.[Ivan], Schmid, C.[Cordelia],
TubeDETR: Spatio-Temporal Video Grounding with Transformers,
CVPR22(16421-16432)
IEEE DOI 2210
Location awareness, Grounding, Natural languages, Object detection, Benchmark testing, Vision + language BibRef

Zhang, Z.J.[Ze-Jian], Palmero, C.[Cristina], Escalera, S.[Sergio],
DualH: A Dual Hierarchical Model for Temporal Action Localization,
FG24(1-10)
IEEE DOI 2408
Location awareness, Face recognition, Gesture recognition, Feature extraction, Transformers, Encoding, Videos BibRef

Denize, J.[Julien], Liashuha, M.[Mykola], Rabarisoa, J.[Jaonary], Orcesi, A.[Astrid], Hérault, R.[Romain],
COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action Spotting Using Transformers,
Pretrain24(518-528)
IEEE DOI Code:
WWW Link. 2404
Costs, Source coding, Pipelines, Self-supervised learning, Transformers, Spatiotemporal phenomena, Labeling BibRef

Rahman, M.A.[Md Atiqur], Laganiére, R.[Robert],
Spatio-Temporal Activity Detection via Joint Optimization of Spatial and Temporal Localization,
RWSurvil24(242-250)
IEEE DOI 2404
Location awareness, Deep learning, Benchmark testing, Feature extraction, Spatiotemporal phenomena BibRef

Mondal, A.[Anindya], Nag, S.[Sauradip], Prada, J.M.[Joaquin M.], Zhu, X.T.[Xia-Tian], Dutta, A.[Anjan],
Actor-agnostic Multi-label Action Recognition with Multi-modal Query,
NIVT23(784-794)
IEEE DOI Code:
WWW Link. 2401
BibRef

Warchocki, J.[Jan], Oprescu, T.[Teodor], Wang, Y.H.[Yun-Han], Damacus, A.[Alexandru], Misterka, P.[Paul], Bruintjes, R.J.[Robert-Jan], Lengyel, A.[Attila], Strafforello, O.[Ombretta], van Gemert, J.C.[Jan C.],
Benchmarking Data Efficiency and Computational Efficiency of Temporal Action Localization Models,
CVEU23(3000-3008)
IEEE DOI 2401
BibRef

Heigold, G.[Georg], Keysers, D.[Daniel], Minderer, M.[Matthias], Lucic, M.[Mario], Gritsenko, A.[Alexey], Yu, F.[Fisher], Bewley, A.[Alex], Kipf, T.[Thomas],
Video OWL-ViT: Temporally-consistent open-world localization in video,
ICCV23(13756-13765)
IEEE DOI 2401
BibRef

Shao, J.Y.[Jia-Yi], Wang, X.H.[Xiao-Han], Quan, R.J.[Rui-Jie], Zheng, J.J.[Jun-Jun], Yang, J.[Jiang], Yang, Y.[Yi],
Action Sensitivity Learning for Temporal Action Localization,
ICCV23(13411-13423)
IEEE DOI 2401
BibRef

Barrios, W.[Wayner], Soldan, M.[Mattia], Ceballos-Arroyo, A.M.[Alberto Mario], Heilbron, F.C.[Fabian Caba], Ghanem, B.[Bernard],
Localizing Moments in Long Video Via Multimodal Guidance,
ICCV23(13621-13632)
IEEE DOI Code:
WWW Link. 2401
BibRef

Shah, A.[Anshul], Lundell, B.[Benjamin], Sawhney, H.[Harpreet], Chellappa, R.[Rama],
STEPs: Self-Supervised Key Step Extraction and Localization from Unlabeled Procedural Videos,
ICCV23(10341-10353)
IEEE DOI Code:
WWW Link. 2401
BibRef

Croitoru, I.[Ioana], Bogolin, S.V.[Simion-Vlad], Albanie, S.[Samuel], Liu, Y.[Yang], Wang, Z.W.[Zhao-Wen], Yoon, S.H.[Seung-Hyun], Dernoncourt, F.[Franck], Jin, H.L.[Hai-Lin], Bui, T.[Trung],
Moment Detection in Long Tutorial Videos,
ICCV23(2594-2604)
IEEE DOI Code:
WWW Link. 2401
BibRef

Xia, K.[Kun], Wang, L.[Le], Zhou, S.P.[San-Ping], Hua, G.[Gang], Tang, W.[Wei],
Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Localization,
ICCV23(10126-10135)
IEEE DOI 2401
BibRef

Geng, T.T.[Tian-Tian], Wang, T.[Teng], Duan, J.M.[Jin-Ming], Cong, R.M.[Run-Min], Zheng, F.[Feng],
Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline,
CVPR23(22942-22951)
IEEE DOI 2309
BibRef

Zheng, W.R.[Wen-Ru], Yoshihashi, R.[Ryota], Kawakami, R.[Rei], Sato, I.[Ikuro], Kanezaki, A.[Asako],
Multi Event Localization by Audio-Visual Fusion with Omnidirectional Camera and Microphone Array,
MULA23(2566-2574)
IEEE DOI 2309
BibRef

Cao, S.Q.[Shu-Qiang], Luo, W.X.[Wei-Xin], Wang, B.[Bairui], Zhang, W.[Wei], Ma, L.[Lin],
E2E-LOAD: End-to-End Long-form Online Action Detection,
ICCV23(10388-10398)
IEEE DOI Code:
WWW Link. 2401
BibRef

Shi, D.F.[Ding-Feng], Zhong, Y.J.[Yu-Jie], Cao, Q.[Qiong], Ma, L.[Lin], Lit, J.[Jia], Tao, D.C.[Da-Cheng],
TriDet: Temporal Action Detection with Relative Boundary Modeling,
CVPR23(18857-18866)
IEEE DOI 2309
BibRef

Zala, A.[Abhay], Cho, J.[Jaemin], Kottur, S.[Satwik], Chen, X.[Xilun], Oguz, B.[Barlas], Mehdad, Y.[Yashar], Bansal, M.[Mohit],
Hierarchical Video-Moment Retrieval and Step-Captioning,
CVPR23(23056-23065)
IEEE DOI 2309
BibRef

Chi, H.G.[Hyung-Gun], Lee, K.[Kwonjoon], Agarwal, N.[Nakul], Xu, Y.[Yi], Ramani, K.[Karthik], Choi, C.[Chiho],
AdamsFormer for Spatial Action Localization in the Future,
CVPR23(17885-17895)
IEEE DOI 2309
BibRef

Zhao, C.[Chen], Liu, S.M.[Shu-Ming], Mangalam, K.[Karttikeya], Ghanem, B.[Bernard],
Re2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization,
CVPR23(10637-10647)
IEEE DOI 2309
BibRef

Kang, H.[Hyolim], Kim, H.[Hanjung], An, J.B.[Joung-Bin], Cho, M.[Minsu], Kim, S.J.[Seon Joo],
Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks,
CVPR23(6514-6523)
IEEE DOI 2309
BibRef

Seol, M.[Muah], Kim, J.[Jonghee], Moon, J.[Jinyoung],
BMRN: Boundary Matching and Refinement Network for Temporal Moment Localization with Natural Language,
ODRUM23(5571-5579)
IEEE DOI 2309
BibRef

Niu, Y.R.[Yan-Rui], Yang, J.Y.[Jing-Yao], Liang, C.[Chao], Huang, B.[Baojin], Wang, Z.Y.[Zhong-Yuan],
A Spatio-Temporal Identity Verification Method for Person-Action Instance Search in Movies,
MMMod23(I: 82-94).
Springer DOI 2304
BibRef

Rai, A.K.[Ayush K.], Krishna, T.[Tarun], Dietlmeier, J.[Julia], McGuinness, K.[Kevin], Smeaton, A.F.[Alan F.], O'Connor, N.E.[Noel E.],
Motion Aware Self-Supervision for Generic Event Boundary Detection,
WACV23(2727-2738)
IEEE DOI 2302
Representation learning, Pipelines, Task analysis, Videos, Software development management BibRef

Mahmud, T.[Tanvir], Marculescu, D.[Diana],
AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event Localization,
WACV23(5147-5156)
IEEE DOI 2302
Location awareness, Training, Visualization, Fuses, Refining, Algorithms: Video recognition and understanding (tracking, Vision + language and/or other modalities BibRef

Kim, H.J.[Ho-Joong], Lee, Y.[Yearang], Hong, J.H.[Jung-Ho], Lee, S.W.[Seong-Whan],
DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer,
CVPR25(24286-24296)
IEEE DOI Code:
WWW Link. 2508
Redundancy, Focusing, Detectors, Object detection, Logic gates, Transformers, Encoding, Decoding, Periodic structures BibRef

Kang, T.K.[Tae-Kyung], Lee, G.H.[Gun-Hee], Jin, K.M.[Kyung-Min], Lee, S.W.[Seong-Whan],
Action-aware Masking Network with Group-based Attention for Temporal Action Localization,
WACV23(6047-6056)
IEEE DOI 2302
Location awareness, Computational modeling, Semantics, Benchmark testing, Feature extraction, Task analysis BibRef

Cao, M.[Meng], Yang, T.Y.[Tian-Yu], Weng, J.W.[Jun-Wu], Zhang, C.[Can], Wang, J.[Jue], Zou, Y.X.[Yue-Xian],
LocVTP: Video-Text Pre-training for Temporal Localization,
ECCV22(XXVI:38-56).
Springer DOI 2211
BibRef

Cheng, F.[Feng], Bertasius, G.[Gedas],
TallFormer: Temporal Action Localization with a Long-Memory Transformer,
ECCV22(XXXIV:503-521).
Springer DOI 2211
BibRef

Kim, Y.H.[Young Hwi], Kang, H.[Hyolim], Kim, S.J.[Seon Joo],
A Sliding Window Scheme for Online Temporal Action Localization,
ECCV22(XXXIV:653-669).
Springer DOI 2211
BibRef

Rao, V.[Varshanth], Khalil, M.I.[Md Ibrahim], Li, H.[Haoda], Dai, P.[Peng], Lu, J.W.[Ju-Wei],
Dual Perspective Network for Audio-Visual Event Localization,
ECCV22(XXXIV:689-704).
Springer DOI 2211
BibRef

Huang, J.[Jiabo], Jin, H.L.[Hai-Lin], Gong, S.G.[Shao-Gang], Liu, Y.[Yang],
Video Activity Localisation with Uncertainties in Temporal Boundary,
ECCV22(XXXIV:724-740).
Springer DOI 2211
BibRef

Aakur, S.[Sathyanarayanan], Sarkar, S.[Sudeep],
Actor-Centered Representations for Action Localization in Streaming Videos,
ECCV22(XXXVIII:70-87).
Springer DOI 2211
BibRef

Paul, S.[Sudipta], Mithun, N.C.[Niluthpol Chowdhury], Roy-Chowdhury, A.K.[Amit K.],
Text-Based Temporal Localization of Novel Events,
ECCV22(XIV:567-587).
Springer DOI 2211
BibRef

Zhang, C.L.[Chen-Lin], Wu, J.X.[Jian-Xin], Li, Y.[Yin],
ActionFormer: Localizing Moments of Actions with Transformers,
ECCV22(IV:492-510).
Springer DOI 2211
BibRef

Zhang, Y.H.[Yun-Hua], Doughty, H.[Hazel], Shao, L.[Ling], Snoek, C.G.M.[Cees G. M.],
Audio-Adaptive Activity Recognition Across Video Domains,
CVPR22(13781-13790)
IEEE DOI 2210
Training, Adaptation models, Visualization, Computational modeling, Semantics, Self-supervised learning, Vision+X BibRef

Liu, W.Z.[Wei-Zhe], Tekin, B.[Bugra], Coskun, H.[Huseyin], Vineet, V.[Vibhav], Fua, P.[Pascal], Pollefeys, M.[Marc],
Learning to Align Sequential Actions in the Wild,
CVPR22(2171-2181)
IEEE DOI 2210
Representation learning, Codes, Self-supervised learning, Benchmark testing, Behavioral sciences, Video analysis and understanding BibRef

Li, W.[Wei], Chen, S.[Shimin], Gu, J.Y.[Jian-Yang], Wang, N.[Ning], Chen, C.[Chen], Guo, Y.D.[Yan-Dong],
MV-TAL: Mulit-view Temporal Action Localization in Naturalistic Driving,
AICity22(3241-3247)
IEEE DOI 2210
Location awareness, Measurement, Visualization, Aggregates, Gray-scale BibRef

Zhang, C.[Can], Yang, T.Y.[Tian-Yu], Weng, J.[Junwu], Cao, M.[Meng], Wang, J.[Jue], Zou, Y.X.[Yue-Xian],
Unsupervised Pre-training for Temporal Action Localization Tasks,
CVPR22(14011-14021)
IEEE DOI 2210
Location awareness, Representation learning, Bridges, Adaptation models, Codes, Computational modeling, Self- semi- meta- unsupervised learning BibRef

Xia, K.[Kun], Wang, L.[Le], Zhou, S.P.[San-Ping], Zheng, N.N.[Nan-Ning], Tang, W.[Wei],
Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization,
CVPR22(13874-13883)
IEEE DOI 2210
Location awareness, Tracking, Detectors, Feature extraction, Task analysis, Motion and tracking BibRef

Bao, W.T.[Wen-Tao], Yu, Q.[Qi], Kong, Y.[Yu],
OpenTAL: Towards Open Set Temporal Action Localization,
CVPR22(2969-2979)
IEEE DOI 2210
Location awareness, Deep learning, Uncertainty, Grounding, Supervised learning, Color, Video analysis and understanding, Action and event recognition BibRef

Sridhar, D.[Deepak], Quader, N.[Niamul], Muralidharan, S.[Srikanth], Li, Y.X.[Yao-Xin], Dai, P.[Peng], Lu, J.W.[Ju-Wei],
Class Semantics-based Attention for Action Detection,
ICCV21(13719-13728)
IEEE DOI 2203
Location awareness, Semantics, Transforms, Performance gain, Benchmark testing, Proposals, Action and behavior recognition, Vision applications and systems BibRef

Huang, J.[Jiabo], Liu, Y.[Yang], Gong, S.G.[Shao-Gang], Jin, H.L.[Hai-Lin],
Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation,
ICCV21(7179-7188)
IEEE DOI 2203
Training, Visualization, Image segmentation, Correlation, Annotations, Semantics, Customer relationship management, Vision+language BibRef

Xu, M.M.[Meng-Meng], Pérez-Rúa, J.M.[Juan-Manuel], Escorcia, V.[Victor], Martínez, B.[Brais], Zhu, X.T.[Xia-Tian], Zhang, L.[Li], Ghanem, B.[Bernard], Xiang, T.[Tao],
Boundary-sensitive Pre-training for Temporal Localization in Videos,
ICCV21(7200-7210)
IEEE DOI 2203
Location awareness, Annotations, Computational modeling, Manuals, Complexity theory, Task analysis, Representation learning BibRef

Nam, J.[Jinwoo], Ahn, D.C.[Dae-Chul], Kang, D.Y.[Dong-Yeop], Ha, S.J.[Seong Jong], Choi, J.H.[Jong-Hyun],
Zero-shot Natural Language Video Localization,
ICCV21(1450-1459)
IEEE DOI 2203
Understanding videos to localize moments with natural language. Location awareness, Training, Costs, Annotations, Computational modeling, Natural languages, Detectors, Visual reasoning and logical representation BibRef

Wang, Y.X.[Yu-Xuan], Gao, D.F.[Di-Fei], Yu, L.C.[Li-Cheng], Lei, W.X.[Wei-Xian], Feiszli, M.[Matt], Shou, M.Z.[Mike Zheng],
GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval,
ECCV22(XXXV:709-725).
Springer DOI 2211
BibRef

Shou, M.Z.[Mike Zheng], Lei, S.W.X.[Stan Wei-Xian], Wang, W.Y.[Wei-Yao], Ghadiyaram, D.[Deepti], Feiszli, M.[Matt],
Generic Event Boundary Detection: A Benchmark for Event Segmentation,
ICCV21(8055-8064)
IEEE DOI 2203
Quality assurance, Codes, Annotations, Benchmark testing, Complexity theory, Cognitive science, Action and behavior recognition BibRef

Ju, C.[Chen], Zhao, P.[Peisen], Chen, S.[Siheng], Zhang, Y.[Ya], Wang, Y.F.[Yan-Feng], Tian, Q.[Qi],
Divide and Conquer for Single-frame Temporal Action Localization,
ICCV21(13435-13444)
IEEE DOI 2203
Location awareness, Training, Annotations, Estimation, Benchmark testing, Generators, Action and behavior recognition, Video analysis and understanding BibRef

Zhao, C.[Chen], Thabet, A.[Ali], Ghanem, B.[Bernard],
Video Self-Stitching Graph Network for Temporal Action Localization,
ICCV21(13638-13647)
IEEE DOI 2203
Location awareness, Training, Correlation, Codes, Aggregates, Task analysis, Action and behavior recognition, Video analysis and understanding BibRef

Kang, H.[Hyolim], Kim, K.[Kyungmin], Ko, Y.[Yumin], Kim, S.J.[Seon Joo],
CAG-QIL: Context-Aware Actionness Grouping via Q Imitation Learning for Online Temporal Action Localization,
ICCV21(13709-13718)
IEEE DOI 2203
Location awareness, Computational modeling, Streaming media, Proposals, Task analysis, Action and behavior recognition, Vision for robotics and autonomous vehicles BibRef

Trehan, S.[Shubham], Aakur, S.N.[Sathyanarayanan N.],
Towards Active Vision for Action Localization with Reactive Control and Predictive Learning,
WACV22(3391-3400)
IEEE DOI 2202
Location awareness, Training, Visualization, Supervised learning, Training data, Reinforcement learning, Observers, Vision Systems and Applications Vision for Robotics BibRef

Lee, J.T.[Jun-Tae], Jain, M.[Mihir], Yun, S.[Sungrack],
Few-Shot Common Action Localization via Cross-Attentional Fusion of Context and Temporal Dynamics,
ICCV23(10180-10189)
IEEE DOI 2401
BibRef
Earlier: A1, A3, Only:
Multi-Scale Temporal Feature Fusion for Few-Shot Action Recognition,
ICIP23(1785-1789)
IEEE DOI 2312
BibRef

Kim, H.[Hanul], Jain, M.[Mihir], Lee, J.T.[Jun-Tae], Yun, S.[Sungrack], Porikli, F.M.[Fatih M.],
Efficient Action Recognition via Dynamic Knowledge Propagation,
ICCV21(13699-13708)
IEEE DOI 2203
Knowledge engineering, Costs, Computational modeling, Action and behavior recognition, Video analysis and understanding BibRef

Hsieh, H.Y.[He-Yen], Chen, D.J.[Ding-Jie], Liu, T.L.[Tyng-Luh],
Contextual Proposal Network for Action Localization,
WACV22(766-775)
IEEE DOI 2202
Location awareness, Recurrent neural networks, Bidirectional control, Performance gain, Proposals, Task analysis, Multimedia Applications BibRef

Liu, Y.[Yuan], Chen, J.Y.[Jing-Yuan], Chen, Z.F.[Zhen-Fang], Deng, B.[Bing], Huang, J.Q.[Jian-Qiang], Zhang, H.W.[Han-Wang],
The Blessings of Unlabeled Background in Untrimmed Videos,
CVPR21(6172-6181)
IEEE DOI 2111
Location awareness, Training, Visualization, Smoothing methods, Computational modeling BibRef

Li, Z.H.[Zhi-Hui], Yao, L.[Lina],
Three Birds with One Stone: Multi-Task Temporal Action Detection via Recycling Temporal Annotations,
CVPR21(4749-4758)
IEEE DOI 2111
Location awareness, Annotations, Estimation, Object segmentation, Predictive models, Recycling BibRef

Liu, X.L.[Xiao-Long], Hu, Y.[Yao], Bai, S.[Song], Ding, F.[Fei], Bai, X.[Xiang], Torr, P.H.S.[Philip H.S.],
Multi-shot Temporal Event Localization: a Benchmark,
CVPR21(12591-12601)
IEEE DOI 2111
Location awareness, TV, Codes, Annotations, Benchmark testing, Motion pictures BibRef

Lin, C.M.[Chu-Ming], Xu, C.M.[Cheng-Ming], Luo, D.H.[Dong-Hao], Wang, Y.B.[Ya-Biao], Tai, Y.[Ying], Wang, C.J.[Cheng-Jie], Li, J.L.[Ji-Lin], Huang, F.Y.[Fei-Yue], Fu, Y.W.[Yan-Wei],
Learning Salient Boundary Feature for Anchor-free Temporal Action Localization,
CVPR21(3319-3328)
IEEE DOI 2111
Location awareness, Design methodology, Computational modeling, Predictive models, Feature extraction BibRef

Tirupattur, P.[Praveen], Duarte, K.[Kevin], Rawat, Y.S.[Yogesh S.], Shah, M.[Mubarak],
Modeling Multi-Label Action Dependencies for Temporal Action Localization,
CVPR21(1460-1470)
IEEE DOI 2111
Measurement, Location awareness, Codes, Network architecture, Benchmark testing BibRef

Lópcz-Sastrc, R.J.[Roberto J.], Baptista-Ríos, M.[Marcos], Rodríguez, F.J. .A.[Francisco J. Acevedo-], Martín-Martín, P.[Pilar], Maldonado-Bascón, S.[Saturnino],
Live Video Action Recognition from Unsupervised Action Proposals,
MVA21(1-6)
DOI Link 2109
Pipelines, Object segmentation, Generators, Proposals, Videos BibRef

Rodriguez-Opazo, C.[Cristian], Marrese-Taylor, E.[Edison], Fernando, B.[Basura], Li, H.D.[Hong-Dong], Gould, S.[Stephen],
DORi: Discovering Object Relationships for Moment Localization of a Natural Language Query in a Video,
WACV21(1078-1087)
IEEE DOI 2106
Location awareness, Technological innovation, Natural languages, Benchmark testing, Feature extraction BibRef

Rotsidis, A.[Alexandros], Lutteroth, C.[Christof], Hall, P.[Peter], Richardt, C.[Christian],
ExMaps: Long-Term Localization in Dynamic Scenes using Exponential Decay,
WACV21(2866-2875)
IEEE DOI 2106
Location awareness, Visualization, Robot vision systems, Cameras, Mobile applications BibRef

Vaudaux-Ruth, G.[Guillaume], Tong, A.C.H.[Adrien Chan-Hon], Achard, C.[Catherine],
SALAD: Self-Assessment Learning for Action Detection,
WACV21(1268-1277)
IEEE DOI 2106
BibRef
And:
ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos,
ICPR21(631-638)
IEEE DOI 2105
Location awareness, Machine learning algorithms, Production, Machine learning, Performance gain, Feature extraction, Loss measurement. Measurement, Annotations, Reinforcement learning, Detectors, Streaming media BibRef

Lu, C.K.[Chong-Kai], Li, R.M.[Rui-Min], Fu, H.[Hong], Fu, B.[Bin], Wang, Y.H.[Yi-Hao], Lo, W.L.[Wai-Lun], Chi, Z.[Zheru],
Precise Temporal Localization for Complete Actions with Quantified Temporal Structure,
ICPR21(4781-4788)
IEEE DOI 2105
Location awareness, Estimation, Benchmark testing, Predictive models, Prediction algorithms, Detection algorithms BibRef

Lin, Y.B.[Yan-Bo], Wang, Y.C.A.F.[Yu-Chi-Ang Frank],
Audiovisual Transformer with Instance Attention for Audio-visual Event Localization,
ACCV20(VI:274-290).
Springer DOI 2103
BibRef

Long, F.[Fuchen], Yao, T.[Ting], Qiu, Z.F.[Zhao-Fan], Tian, X.M.[Xin-Mei], Luo, J.B.[Jie-Bo], Mei, T.[Tao],
Learning to Localize Actions from Moments,
ECCV20(III:137-154).
Springer DOI 2012
BibRef

Aakur, S.[Sathyanarayanan], Sarkar, S.[Sudeep],
Action Localization Through Continual Predictive Learning,
ECCV20(XIV:300-317).
Springer DOI 2011
BibRef

Chen, S.X.[Shao-Xiang], Jiang, Y.G.[Yu-Gang],
Hierarchical Visual-textual Graph for Temporal Activity Localization via Language,
ECCV20(XX:601-618).
Springer DOI 2011
BibRef

Yang, P.W.[Peng-Wan], Hu, V.T.[Vincent Tao], Mettes, P.S.[Pascal S.], Snoek, C.G.M.[Cees G. M.],
Localizing the Common Action Among a Few Videos,
ECCV20(VII:505-521).
Springer DOI 2011
BibRef

Toering, M.[Martine], Gatopoulos, I.[Ioannis], Stol, M.[Maarten], Hu, V.T.[Vincent Tao],
Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting,
WACV22(846-856)
IEEE DOI 2202
Representation learning, Visualization, Semantics, Prototypes, Computational efficiency, Task analysis, Action and Behavior Recognition Video analysis and understanding BibRef

Kanth, R.K.[R. Krishna], Ramaswamy, A.[Akshaya], Kumar, A.A.[A. Anil], Gubbi, J.[Jayavardhana], Balamuralidhar, P.,
STP-Net: Spatio-Temporal Polarization Network for action recognition using polarimetric videos,
ComputationalApp22(767-776)
IEEE DOI 2202
Deep learning, Conferences, Activity recognition, Feature extraction, Natural language processing, Sensors BibRef

Ramaswamy, A.[Akshaya], Seemakurthy, K.[Karthik], Gubbi, J.[Jayavardhana], Balamuralidhar, P.,
Video action re-localization using spatio-temporal correlation,
Activity22(192-201)
IEEE DOI 2202
Dimensionality reduction, Correlation, Databases, Convolution, Surveillance, Conferences, Neural networks BibRef

Ramaswamy, A., Seemakurthy, K., Gubbi, J., Purushothaman, B.,
Spatio-temporal action detection and localization using a hierarchical LSTM,
DeepVision20(3303-3312)
IEEE DOI 2008
Feature extraction, Microprocessors, Task analysis, Visualization, Proposals BibRef

Gong, G.Q.[Guo-Qiang], Wang, X.H.[Xing-Han], Mu, Y.D.[Ya-Dong], Tian, Q.[Qi],
Learning Temporal Co-Attention Models for Unsupervised Video Action Localization,
CVPR20(9816-9825)
IEEE DOI 2008
Training, Benchmark testing, Proposals, Task analysis, Noise measurement, Convolution, TV BibRef

Jain, M., Ghodrati, A., Snoek, C.G.M.,
ActionBytes: Learning From Trimmed Videos to Localize Actions,
CVPR20(1168-1177)
IEEE DOI 2008
Videos, Training, Feature extraction, Task analysis, Pipelines, Testing, Semantics BibRef

Zhang, D., Dai, X., Wang, Y.,
METAL: Minimum Effort Temporal Activity Localization in Untrimmed Videos,
CVPR20(3881-3891)
IEEE DOI 2008
Videos, Training, Metals, Testing, Feature extraction, Task analysis, Visualization BibRef

Eun, H.J.[Hyun-Jun], Moon, J.Y.[Jin-Young], Park, J.Y.[Jong-Youl], Jung, C.[Chanho], Kim, C.[Changick],
Learning to Discriminate Information for Online Action Detection,
CVPR20(806-815)
IEEE DOI 2008
Logic gates, Streaming media, Task analysis, Feature extraction, Benchmark testing, Telecommunications, Recurrent neural networks BibRef

Rodriguez-Opazo, C.[Cristian], Marrese-Taylor, E.[Edison], Saleh, F.S.[Fatemeh Sadat], Li, H.D.[Hong-Dong], Gould, S.[Stephen],
Proposal-free Temporal Moment Localization of a Natural-Language Query in Video using Guided Attention,
WACV20(2453-2462)
IEEE DOI 2006
Proposals, Task analysis, Natural languages, Visualization, Semantics, Robots BibRef

Gleason, J., Schwarcz, S., Ranjan, R., Castillo, C.D., Chen, J., Chellappa, R.,
Activity Detection in Untrimmed Videos Using Chunk-based Classifiers,
WACVWS20(107-116)
IEEE DOI 2006
Videos, Task analysis, Proposals, Machine learning, Standards BibRef

Gleason, J., Castillo, C.D., Chellappa, R.,
Real-time Detection of Activities in Untrimmed Videos,
WACVWS20(117-125)
IEEE DOI 2006
Videos, Proposals, Cameras, Real-time systems, Training, Object detection, Measurement BibRef

Rahman, M.A., Laganière, R.,
Single-Stage End-to-End Temporal Activity Detection in Untrimmed Videos,
CRV20(206-213)
IEEE DOI 2006
temporal activity detection, activity recognition, single-stage detection, 3D convolutional network BibRef

Wu, W., He, D., Tan, X., Chen, S., Wen, S.,
Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition,
ICCV19(6221-6230)
IEEE DOI 2004
image classification, image motion analysis, learning (artificial intelligence), Markov processes BibRef

Wehrmann, J., Lopes, M.A., Souza, D., Barros, R.,
Language-Agnostic Visual-Semantic Embeddings,
ICCV19(5803-5812)
IEEE DOI 2004
Code, Visualization.
WWW Link. data visualisation, information retrieval, learning (artificial intelligence), Architecture BibRef

Pramono, R.R.A., Chen, Y., Fang, W.,
Hierarchical Self-Attention Network for Action Localization in Videos,
ICCV19(61-70)
IEEE DOI 2004
cameras, clutter, convolutional neural nets, image capture, image fusion, image motion analysis, image recognition, Training BibRef

Zhai, C.B.[Chang-Bo], Wang, L.[Le], Zhang, Q.L.[Qi-Lin], Gao, Z.N.[Zhan-Ning], Niu, Z.X.[Zhen-Xing], Zheng, N.N.[Nan-Ning], Hua, G.[Gang],
Action Co-localization in an Untrimmed Video by Graph Neural Networks,
MMMod20(I:555-567).
Springer DOI 2003
BibRef

Wang, W.N.[Wei-Ning], Huang, Y.[Yan], Wang, L.[Liang],
Language-Driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Model,
CVPR19(334-343).
IEEE DOI 2002
BibRef

Li, H., Yang, J., Zhou, Y., Li, S.,
Rethinking Temporal Structure Modeling Method for Temporal Action Localization,
ICIP19(3676-3680)
IEEE DOI 1910
Action localization, spatial-temporal feature, video content analysis, supervised learning BibRef

Vial, R., Zhu, H., Tian, Y., Lu, S.,
Search video action proposal with recurrent and static YOLO,
ICIP17(2035-2039)
IEEE DOI 1803
Clutter, Detectors, Dynamic programming, Labeling, Object detection, Proposals, Training, action detection, action localization, video object proposal BibRef

Shao, D.[Dian], Xiong, Y.[Yu], Zhao, Y.[Yue], Huang, Q.Q.[Qing-Qiu], Qiao, Y.[Yu], Lin, D.[Dahua],
Find and Focus: Retrieve and Localize Video Events with Natural Language Queries,
ECCV18(IX: 202-218).
Springer DOI 1810
BibRef

Yang, J., Yuan, J.,
Common Action Discovery and Localization in Unconstrained Videos,
ICCV17(2176-2185)
IEEE DOI 1802
computational complexity, graph theory, optimisation, video signal processing, affinity graph, common action discovery, Videos BibRef

Sharir, G.[Gilad], Tuytelaars, T.[Tinne],
Action in chains: A chains model for action localization and classification,
WACV14(610-617)
IEEE DOI 1406
Computational modeling BibRef

Lan, T.[Tian], Wang, Y.[Yang], Mori, G.[Greg],
Discriminative figure-centric models for joint action localization and recognition,
ICCV11(2003-2010).
IEEE DOI 1201
BibRef

Ta, A.P.[Anh-Phuong], Wolf, C.[Christian], Lavoue, G.[Guillaume], Baskurt, A.[Atilla], Jolion, J.M.[Jean-Michel],
Pairwise Features for Human Action Recognition,
ICPR10(3224-3227).
IEEE DOI 1008
BibRef
And: A1, A2, A3, A4, Only:
Recognizing and Localizing Individual Activities through Graph Matching,
AVSS10(196-203).
IEEE DOI 1009
BibRef

Chapter on Motion -- Human Motion, Surveillance, Tracking, Surveillance, Activities continues in
Weakly-Supervised Action Localization .

Last update:Mar 28, 2026 at 17:09:41