20.4.5.6.11 Summarization, Movies, Script Based, Structured Videos, Presentations

Chapter Contents (Back)
Video Annotation. Movie Analysis. Narrative Summary. Summarization.

MovieQA,
A Question Answering data set for Automatic Story Comprehension. WWW Link.
Dataset, Summarization.
See also MovieQA: Understanding Stories in Movies through Question-Answering.

Pfeiffer, S., Lienhart, R., Fischer, S., Effelsberg, W.,
Abstracting Digital Movies Automatically,
JVCIR(7), No. 4, December 1996, pp. 345-353. 9704
BibRef

Lienhart, R.[Rainer], Pfeiffer, S.[Silvia], Effelsberg, W.[Wolfgang],
Video Abstracting,
CACM(40), No. 12, December 1997, pp. 54-62. 9712
Generation of the summary in terms of scenes, shots and frames. BibRef

Gunsel, B., Tekalp, A.M., van Beek, P.J.L.,
Content Based Access to Video Objects: Temporal Segmentation, Visual Summary, and Feature Extraction,
SP(66), No. 2, April 1998, pp. 261-280. 9807
BibRef
Earlier:
Moving Visual Representations of Video Objects for Content-Based Search and Browsing,
ICIP97(II: 502-505).
IEEE DOI BibRef
And:
Object Based Video Indexing for Virtual Studio Productions,
CVPR97(769-774).
IEEE DOI 9704
BibRef
And: A1, A2, Only:
Content-based video abstraction,
ICIP98(III: 128-132).
IEEE DOI 9810
For producting (chroma-key). BibRef

Warnick, J.[James], Ferman, A.M.[Ahmet M.], Gunsel, B.[Bilge], Naphade, M.R.[Milind R.], Mehrotra, R.[Rajiv],
Method for content-based temporal segmentation of video,
US_Patent6,195,458, Feb 27, 2001
WWW Link. BibRef 0102

Wang, K.[Katherine], Normile, J.[James],
Method and system for detecting scenes and summarizing video sequences,
US_Patent5,805,733, Sep 8, 1998
WWW Link. BibRef 9809

Ju, S.X.[Shanon X.], Black, M.J., Minneman, S., Kimber, D.,
Summary of Videotaped Presentations: Automatic-Analysis of Motion and Gesture,
CirSysVideo(8), No. 5, September 1998, pp. 686-696.
IEEE Top Reference.
HTML Version. 9810
BibRef
Earlier:
Analysis of Gesture and Action in Technical Talks,
CVPR97(595-601).
IEEE DOI 9704
For video indexing: recognize the gesture and transfer the location only. BibRef

Salembier, P., Qian, R., O'Connor, N., Correia, P., Sezan, I., van Beek, P.,
Description schemes for video programs, users and devices,
SP:IC(16), No. 1-2, September 2000, pp. 211-234.
Elsevier DOI 0008
BibRef

Chen, L.H.[Liang-Hua], Su, C.W.[Chih-Wen], Liao, H.Y.M.[Hong-Yuan Mark], Shih, C.C.[Chun-Chieh],
On the preview of digital movies,
JVCIR(14), No. 3, September 2003, pp. 358-368.
Elsevier DOI 0308
BibRef

Llach-Pinsach, J.[Joan], Salembier, P.[Philippe],
Automatic extraction method of the structure of a video sequence,
US_Patent6,628,710, Sep 30, 2003
WWW Link. BibRef 0309
And: US_Patent6,842,197, Jan 11, 2005
WWW Link. Summarization, create table of contents. BibRef

Li, Y.[Ying], Narayanan, S.S.[Shrikanth S.], Kuo, C.C.J.[C.C. Jay],
Adaptive Speaker Identification with Audio-Visual Cues for Movie Content Analysis,
PRL(25), No. 7, May 2004, pp. 777-791.
Elsevier DOI 0405
BibRef

Li, Y.[Ying], Narayanan, S.S.[Shrikanth S.], Kuo, C.C.J.[C.C. Jay],
Content-Based Movie Analysis and Indexing Based on Audio-Visual Cues,
CirSysVideo(14), No. 8, August 2004, pp. 1073-1085.
IEEE Abstract. 0409
BibRef
Earlier:
Movie Content Analysis, Indexing and Skimming Via Multimodal Information,
VideoMining03(Chapter 5). BibRef

Li, Y.[Ying], Kuo, C.C.J.[C.C. Jay],
A robust video scene extraction approach to movie content abstraction,
IJIST(13), No. 5, 2003, pp. 236-244.
DOI Link 0312
BibRef

Xie, L.X.[Le-Xing], Divakaran, A.[Ajay], Chang, S.F.[Shih-Fu],
Unsupervised learning of video structures in videos using hierarchical statistical models to detect events,
US_Patent7,313,269, Dec 25, 2007
WWW Link. BibRef 0712

Lehane, B.[Bart], O'Connor, N.E.[Noel E.], Lee, H.W.[Hyo-Won], Smeaton, A.F.[Alan F.],
Indexing of Fictional Video Content for Event Detection and Summarisation,
JIVP(2007), 2007, pp. xx-yy.
DOI Link 0804
BibRef

Salway, A.[Andrew], Lehane, B.[Bart], O'Connor, N.E.[Noel E.],
Associating characters with events in films,
CIVR07(510-517).
DOI Link 0707
BibRef

Lehane, B.[Bart], O'Connor, N.E.[Noel E.], Murphy, N.[Noel],
Dialogue Sequence Detection in Movies,
CIVR05(286-296).
Springer DOI 0507
BibRef

Rui, Y.[Yong], Gupta, A.[Anoop], Acero, A.[Alejandro],
Annotating programs for automatic summary generation,
US_Patent7,028,325, Apr 11, 2006
WWW Link. BibRef 0604

Chen, W.[William], Chen, J.Y.[Jau-Yuen],
Method and apparatus for summarizing and indexing the contents of an audio-visual presentation,
US_Patent7,372,991, May 13, 2008
WWW Link. BibRef 0805

Murtagh, F.[Fionn], Ganz, A.[Adam], McKie, S.[Stewart],
The structure of narrative: The case of film scripts,
PR(42), No. 2, February 2009, pp. 302-312.
Elsevier DOI 0810
Data mining; Data analysis; Factor analysis; Correspondence analysis; Semantic space; Euclidean display; Hierarchical clustering; Narrative; Story; Film script BibRef

Chen, B.W.[Bo-Wei], Wang, J.C.[Jia-Ching], Wang, J.F.[Jhing-Fa],
A Novel Video Summarization Based on Mining the Story-Structure and Semantic Relations Among Concept Entities,
MultMed(11), No. 2, February 2009, pp. 295-312.
IEEE DOI 0905
BibRef

Benini, S.[Sergio], Migliorati, P.[Pierangelo], Leonardi, R.[Riccardo],
Hierarchical structuring of video previews by Leading-Cluster-Analysis,
SIViP(4), No. 4, November 2010, pp. 435-450.
WWW Link. 1101
BibRef
Earlier:
Fast dialogue indexing based on structure information,
ICIP08(69-72).
IEEE DOI 0810

See also Connotative Space for Supporting Movie Affective Recommendation, A. BibRef

Benini, S., Bianchetti, A., Leonardi, R., Migliorati, P.,
Extraction of Significant Video Summaries by Dendrogram Analysis,
ICIP06(133-136).
IEEE DOI 0610
BibRef

Ellouze, M.[Mehdi], Boujemaa, N.[Nozha], Alimi, A.M.[Adel M.],
IM(S)2: Interactive movie summarization system,
JVCIR(21), No. 4, May 2010, pp. 283-294.
Elsevier DOI 1006
Video analysis; Video summarization; Users' preferences; Interactive multimedia system; Content analysis; Pattern recognition; Genetic algorithm; One-class SVM BibRef

Kherallah, M.[Monji], Karray, H.[Hichem], Ellouze, M.[Mehdi], Alimi, A.M.[Adel M.],
Toward an interactive device for quick news story browsing,
ICPR08(1-4).
IEEE DOI 0812
BibRef

Zaharieva, M.[Maia], Mitrovic, D.[Dalibor], Zeppelzauer, M.[Matthias], Breiteneder, C.[Christian],
Film Analysis of Archived Documentaries,
MultMedMag(18), No. 2, April-June 2011, pp. 38-47.
IEEE DOI 1105
BibRef

Diem, L.[Lukas], Zaharieva, M.[Maia],
Video Content Representation Using Recurring Regions Detection,
MMMod16(I: 16-28).
Springer DOI 1601
BibRef

Zaharieva, M.[Maia], Breiteneder, C.[Christian],
Recurring Element Detection in Movies,
MMMod12(222-232).
Springer DOI 1201
BibRef

Vretos, N., Solachidis, V., Pitas, I.[Ioannis],
A mutual information based face clustering algorithm for movie content analysis,
IVC(29), No. 10, September 2011, pp. 693-705.
Elsevier DOI 1110
Face clustering; Mutual information; Normalized cuts; Spectral graph analysis; Image processing
See also model-based facial expression recognition algorithm using Principal Components Analysis, A. BibRef

Kompatsiaris, Y.[Yiannis], Merialdo, B.[Bernard], Lian, S.G.[Shi-Guo],
TV Content Analysis: Techniques and Applications,
CRC PressMay 2012. ISBN 9781439855607.
WWW Link. 1209
Content Extraction. Content Structuring. Content Recommendation. Content Quality. Web and Social TV. Content Production. BibRef

Liang, C., Xu, C., Cheng, J., Min, W., Lu, H.,
Script-to-Movie: A Computational Framework for Story Movie Composition,
MultMed(15), No. 2, 2013, pp. 401-414.
IEEE DOI 1302
the other way -- summary to movie BibRef

Tsai, C.M.[Chia-Ming], Kang, L.W.[Li-Wei], Lin, C.W.[Chia-Wen], Lin, W.S.[Wei-Si],
Scene-Based Movie Summarization Via Role-Community Networks,
CirSysVideo(23), No. 11, 2013, pp. 1927-1940.
IEEE DOI 1312
information retrieval BibRef

Evangelopoulos, G., Zlatintsi, A., Potamianos, A., Maragos, P., Rapantzikos, K., Skoumas, G., Avrithis, Y.S.,
Multimodal Saliency and Fusion for Movie Summarization Based on Aural, Visual, and Textual Attention,
MultMed(15), No. 7, 2013, pp. 1553-1568.
IEEE DOI 1312
feature extraction BibRef

Tapaswi, M.[Makarand], Bäuml, M.[Martin], Stiefelhagen, R.[Rainer],
Aligning plot synopses to videos for story-based retrieval,
MultInfoRetr(4), No. 1, March 2015, pp. 3-16.
Springer DOI 1503
BibRef
And:
Book2Movie: Aligning video scenes with book chapters,
CVPR15(1827-1835)
IEEE DOI 1510
BibRef

Ahmadzade, A.M.[Ali Mohammad], Farsi, H.[Hassan],
Video Summarization by an Innovative Method in Shot Detection,
ELCVIA(14), No. 1, 2015, pp. xx-yy.
DOI Link 1506
BibRef

Li, K.[Kun], Wang, J., Wang, H., Dai, Q.H.[Qiong-Hai],
Structuring Lecture Videos by Automatic Projection Screen Localization and Analysis,
PAMI(37), No. 6, June 2015, pp. 1233-1246.
IEEE DOI 1506
Cameras. Track presentation screen and presenter. Keywords from slides. BibRef

Chu, W.T.[Wei-Ta], Yu, C.H.[Chia-Hsiang], Wang, H.H.[Hsin-Han],
Optimized Comics-Based Storytelling for Temporal Image Sequences,
MultMed(17), No. 2, February 2015, pp. 201-215.
IEEE DOI 1502
genetic algorithms BibRef

Mademlis, I., Tefas, A., Nikolaidis, N., Pitas, I.,
Multimodal Stereoscopic Movie Summarization Conforming to Narrative Characteristics,
IP(25), No. 12, December 2016, pp. 5828-5840.
IEEE DOI 1612
feature extraction BibRef

Aparício, M.[Marta], Figueiredo, P.[Paulo], Raposo, F.[Francisco], de Matos, D.M.[David Martins], Ribeiro, R.[Ricardo], Marujo, L.[Luís],
Summarization of films and documentaries based on subtitles and scripts,
PRL(73), No. 1, 2016, pp. 7-12.
Elsevier DOI 1604
Automatic text summarization BibRef

Baraldi, L., Grana, C., Cucchiara, R.,
Recognizing and Presenting the Storytelling Video Structure With Deep Multimodal Networks,
MultMed(19), No. 5, May 2017, pp. 955-968.
IEEE DOI 1704
Computational modeling BibRef

Lu, Q.[Qiang], Chai, B.J.[Bing-Jie], Zhang, H.B.[Hai-Bo],
Storytelling by the StoryCake visualization,
VC(33), No. 10, October 2017, pp. 1241-1252.
WWW Link. 1709
BibRef

Somandepalli, K., Kumar, N., Guha, T., Narayanan, S.S.,
Unsupervised Discovery of Character Dictionaries in Animation Movies,
MultMed(20), No. 3, March 2018, pp. 539-551.
IEEE DOI 1802
Dictionaries, Facial animation, Labeling, Media, Motion pictures, Streaming media, Animation movies, deep neural networks, video diarization BibRef

Berendsen, M.E.[Margo E.], Hamerlinck, J.D.[Jeffrey D.], Webster, G.R.[Gerald R.],
Digital Story Mapping to Advance Educational Atlas Design and Enable Student Engagement,
IJGI(7), No. 3, 2018, pp. xx-yy.
DOI Link 1804
BibRef

Yang, X.S.[Xiao-Shan], Zhang, T.Z.[Tian-Zhu], Xu, C.S.[Chang-Sheng],
Text2Video: An End-to-end Learning Framework for Expressing Text With Videos,
MultMed(20), No. 9, September 2018, pp. 2360-2370.
IEEE DOI 1809
New video based on existing clips. learning (artificial intelligence), video communication, video retrieval, video signal processing, video streaming, deep learning BibRef

Sun, K.[Ke], Lei, Z.[Zhuo], Zhu, J.S.[Jia-Song], Hou, X.X.[Xian-Xu], Liu, B.[Bozhi], Qiu, G.P.[Guo-Ping],
Character Prediction in TV Series via a Semantic Projection Network,
MMMod19(I:300-311).
Springer DOI 1901
BibRef

Nabati, M.[Masoomeh], Behrad, A.[Alireza],
Video captioning using boosted and parallel Long Short-Term Memory networks,
CVIU(190), 2020, pp. 102840.
Elsevier DOI 1911
Video captioning, Boosted and parallel LSTMs, AdaBoost algorithm BibRef

Xiao, H.H.[Huan-Hou], Xu, J.W.[Jun-Wei], Shi, J.L.[Jing-Lun],
Exploring diverse and fine-grained caption for video by incorporating convolutional architecture into LSTM-based model,
PRL(129), 2020, pp. 173-180.
Elsevier DOI 2001
Video captioning, Convolution, Long short-term memory, Fine-grained BibRef

Han, Y., Wang, B., Hong, R., Wu, F.,
Movie Question Answering via Textual Memory and Plot Graph,
CirSysVideo(30), No. 3, March 2020, pp. 875-887.
IEEE DOI 2003
Motion pictures, Knowledge discovery, Visualization, Videos, Task analysis, Memory modules, Adaptive systems, plot graph representation network BibRef

Zhou, P., Xu, T., Yin, Z., Liu, D., Chen, E., Lv, G., Li, C.,
Character-Oriented Video Summarization With Visual and Textual Cues,
MultMed(22), No. 10, October 2020, pp. 2684-2697.
IEEE DOI 2009
Streaming media, Task analysis, Visualization, Art, Social networking (online), Feature extraction, Semantics, natural language processing BibRef

Fujita, S.[Soichiro], Hirao, T.[Tsutomu], Kamigaito, H.[Hidetaka], Okumura, M.[Manabu], Nagata, M.[Masaaki],
Soda: Story Oriented Dense Video Captioning Evaluation Framework,
ECCV20(VI:517-531).
Springer DOI 2011
BibRef

Ghose, S.[Sanchita], Prevost, J.J.[John Jeffrey],
AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent Videos With Deep Learning,
MultMed(23), 2021, pp. 1895-1907.
IEEE DOI 2107
Videos, Motion pictures, Visualization, Synchronization, Neural networks, Numerical models, Interpolation, Foley, sound synthesis BibRef

Apostolidis, E.[Evlampios], Adamantidou, E.[Eleni], Metsai, A.I.[Alexandros I.], Mezaris, V.[Vasileios], Patras, I.[Ioannis],
AC-SUM-GAN: Connecting Actor-Critic and Generative Adversarial Networks for Unsupervised Video Summarization,
CirSysVideo(31), No. 8, August 2021, pp. 3278-3292.
IEEE DOI 2108
Training, Generative adversarial networks, Task analysis, Visualization, Terminology, generative adversarial networks BibRef

Liu, D.[Dong], Kamath, N.[Nagendra], Bhattacharya, S.[Subhabrata], Puri, R.[Rohit],
Adaptive Context Reading Network for Movie Scene Detection,
CirSysVideo(31), No. 9, September 2021, pp. 3559-3574.
IEEE DOI 2109
Feature extraction, Context modeling, Aggregates, Adaptation models, Task analysis, Neural networks, Motion pictures, structure learning BibRef

Wang, J.Y.[Jian-Yi], Xu, M.[Mai], Jiang, L.[Lai], Song, Y.H.[Yu-Hang],
Attention-Based Deep Reinforcement Learning for Virtual Cinematography of 360° Videos,
MultMed(23), 2021, pp. 3227-3238.
IEEE DOI 2109
Videos, Cinematography, Saliency detection, Computational modeling, Machine learning, Cameras, 360 ° video, deep reinforcement learning BibRef

Wu, A.[Aming], Han, Y.H.[Ya-Hong], Zhao, Z.[Zhou], Yang, Y.[Yi],
Hierarchical Memory Decoder for Visual Narrating,
CirSysVideo(31), No. 6, June 2021, pp. 2438-2449.
IEEE DOI 2106
Decoding, Visualization, Videos, Task analysis, Semantics, visual storytelling BibRef

Xie, J.H.[Jie-Hang], Chen, X.B.[Xuan-Bai], Zhang, T.Y.[Tian-Yi], Zhang, Y.X.[Yi-Xuan], Lu, S.P.[Shao-Ping], Cesar, P.[Pablo], Yang, Y.[Yulu],
Multimodal-Based and Aesthetic-Guided Narrative Video Summarization,
MultMed(25), 2023, pp. 4894-4908.
IEEE DOI 2311
BibRef

Papalampidi, P.[Pinelopi], Keller, F.[Frank], Lapata, M.[Mirella],
Finding the Right Moment: Human-Assisted Trailer Creation via Task Composition,
PAMI(46), No. 1, January 2024, pp. 292-304.
IEEE DOI 2312
BibRef

Lu, Y.[Yu], Ni, F.Y.[Fei-Yue], Wang, H.[Haofan], Guo, X.F.[Xiao-Feng], Zhu, L.C.[Lin-Chao], Yang, Z.X.[Zong-Xin], Song, R.H.[Rui-Hua], Cheng, L.[Lele], Yang, Y.[Yi],
Show Me a Video: A Large-Scale Narrated Video Dataset for Coherent Story Illustration,
MultMed(26), 2024, pp. 2456-2466.
IEEE DOI 2402
Visualization, Task analysis, Semantics, Motion pictures, Context modeling, Coherence, Atmospheric modeling, text-to-video retrieval BibRef

Yuan, M.Q.[Meng-Qi], Jia, G.[Gengyun], Bao, B.K.[Bing-Kun],
GPT-Based Knowledge Guiding Network for Commonsense Video Captioning,
MultMed(26), 2024, pp. 5147-5158.
IEEE DOI 2404
Visualization, Semantics, Task analysis, Knowledge engineering, Feature extraction, Training, Decoding, multi-step training BibRef

Wang, Y.Z.[You-Ze], Hu, W.B.[Wen-Bo], Hong, R.C.[Ri-Chang],
Iterative Adversarial Attack on Image-Guided Story Ending Generation,
MultMed(26), 2024, pp. 6117-6130.
IEEE DOI 2404
Task analysis, Perturbation methods, Iterative methods, Data models, Visualization, Fuses, Computational modeling, multimodal text generation BibRef

Chen, Z.[Zhao], Zhang, K.[Kao], Cai, H.[Hao], Ding, X.Y.[Xiao-Ying], Jiang, C.X.[Chen-Xi], Chen, Z.Z.[Zhen-Zhong],
Audio-visual saliency prediction for movie viewing in immersive environments: Dataset and benchmarks,
JVCIR(100), 2024, pp. 104095.
Elsevier DOI 2405
Saliency prediction, Visual attention, Movie viewing, Virtual reality BibRef

Kaur, P.C.[Preet Chandan], Ragha, L.[Leena],
Optimized deep learning enabled lecture audio video summarization,
JVCIR(104), 2024, pp. 104309.
Elsevier DOI 2411
Audio Video Summarization, Deep Residual Network, Video Shot Segmentation, YCbCr Space Colour Model, E-learning BibRef

Tao, M.[Ming], Bao, B.K.[Bing-Kun], Tang, H.[Hao], Wang, Y.W.[Yao-Wei], Xu, C.S.[Chang-Sheng],
Storyimager: A Unified and Efficient Framework for Coherent Story Visualization and Completion,
ECCV24(LVI: 479-495).
Springer DOI 2412
BibRef

Guo, J.H.[Jia-Hao], Lu, A.[Ankang], Wu, Z.Q.[Zheng-Qian], Wang, Z.Y.[Zhong-Yuan], Liang, C.[Chao],
Who, What, and Where: Composite-Semantics Instance Search for Story Videos,
IP(34), 2025, pp. 1412-1426.
IEEE DOI 2503
Videos, Semantics, Correlation, TV, Feature extraction, Chaos, Training, Support vector machines, Search problems, NIST, Who-what-where, partial decomposition BibRef

Qin, P.G.[Peng-Gang], Xu, T.[Tong], Zhang, C.[Chao], Wang, H.[Heda], Hu, Y.[Yao], Chen, E.[Enhong],
Scenario-Aware Multimodal Chain-of-Thought Prompting for Rationales of VideoSocial Relations,
CirSysVideo(35), No. 11, November 2025, pp. 11598-11612.
IEEE DOI 2511
Cognition, Streaming media, Contrastive learning, Semantics, Motion pictures, Visualization, Accuracy, Translation, large language models BibRef

Xu, L.[Lu], Zhu, S.[Sijie], Li, C.Y.[Chun-Yuan], Kuo, C.W.[Chia-Wen], Chen, F.[Fan], Wang, X.Y.[Xin-Yao], Chen, G.[Guang], Du, D.W.[Da-Wei], Yuan, Y.[Ye], Wen, L.Y.[Long-Yin],
Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model,
AIBench25(503-512)
IEEE DOI Code:
WWW Link. 2512
Training, Visualization, Protocols, Video on demand, Social networking (online), Training data, Games, Videos BibRef

Wang, H.L.[Han-Lin], Tong, Z.[Zhan], Zheng, K.[Kecheng], Shen, Y.J.[Yu-Jun], Wang, L.M.[Li-Min],
Contextual AD Narration with Interleaved Multimodal Sequence,
CVPR25(8372-8383)
IEEE DOI Code:
WWW Link. 2508
Visualization, Codes, Foundation models, Benchmark testing, Motion pictures, Videos, audio description, character-refinement BibRef

Kim, S.[Sangmin], Do, S.[Seunguk], Park, J.[Jaesik],
ShowMak3r: Compositional TV Show Reconstruction,
CVPR25(864-874)
IEEE DOI Code:
WWW Link. 2508
Interpolation, TV, Pipelines, Pose estimation, Production control, Cameras, Noise measurement, Image reconstruction, Videos, human reconstruction BibRef

Wu, W.J.[Wei-Jia], Liu, M.Y.[Ming-Yu], Zhu, Z.[Zeyu], Xia, X.[Xi], Feng, H.[Haoen], Wang, W.[Wen], Lin, K.Q.H.[Kevin Qing-Hong], Shen, C.H.[Chun-Hua], Shou, M.Z.[Mike Zheng],
MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation,
CVPR25(28984-28994)
IEEE DOI 2508
Training, Analytical models, Coherence, Motion pictures, Data structures, Videos, long video generation, movie generation, dataset BibRef

Park, J.[Jaehyeong], Ye, J.[Juncheol], Lee, S.[Seungkook], Ka, H.W.[Hyun W.], Han, D.[Dongsu],
NarrAD: Automatic Generation of Audio Descriptions for Movies with Rich Narrative Context,
WACV25(409-419)
IEEE DOI Code:
WWW Link. 2505
Measurement, Visualization, Humanities, Immersive experience, Motion pictures, User experience, Cultural differences BibRef

Zhang, C.K.[Chen-Kai], Lei, Y.M.[Yi-Ming], Liu, Z.M.[Ze-Ming], Leng, H.T.[Hai-Tao], Liu, S.[ShaoGuo], Gao, T.T.[Ting-Ting], Liu, Q.J.[Qing-Jie], Wang, Y.H.[Yun-Hong],
SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding,
CVPR25(28995-29004)
IEEE DOI Code:
WWW Link. 2508
Humanities, Visualization, Annotations, Large language models, Face recognition, Computational modeling, Manuals, narrative-driven BibRef

Lin, K.Q.H.[Kevin Qing-Hong], Zhang, P.C.[Peng-Chuan], Gao, D.F.[Di-Fei], Xia, X.[Xide], Chen, J.[Joya], Gao, Z.T.[Zi-Teng], Xie, J.H.[Jin-Heng], Xiao, X.H.[Xu-Hong], Shou, M.Z.[Mike Zheng],
Learning Video Context as Interleaved Multimodal Sequences,
ECCV24(XLIX: 375-396).
Springer DOI 2412
Codr:
WWW Link. BibRef

Avetisyan, A.[Armen], Xie, C.[Christopher], Howard-Jenkins, H.[Henry], Yang, T.Y.[Tsun-Yi], Aroudj, S.[Samir], Patra, S.[Suvam], Zhang, F.[Fuyang], Frost, D.[Duncan], Holland, L.[Luke], Orme, C.[Campbell], Engel, J.[Jakob], Miller, E.[Edward], Newcombe, R.[Richard], Balntas, V.[Vasileios],
Scenescript: Reconstructing Scenes with an Autoregressive Structured Language Model,
ECCV24(LXI: 247-263).
Springer DOI 2412
BibRef

Shvetsova, N.[Nina], Kukleva, A.[Anna], Hong, X.D.[Xu-Dong], Rupprecht, C.[Christian], Schiele, B.[Bernt], Kuehne, H.[Hilde],
Howtocaption: Prompting LLMs to Transform Video Annotations at Scale,
ECCV24(LVI: 1-18).
Springer DOI 2412
BibRef

Tan, J.W.[Jia-Wei], Wang, H.X.[Hong-Xing], Li, J.X.[Jia-Xin], Ou, Z.L.[Zhi-Ling], Qian, Z.B.[Zhang-Bin],
Neighbor Relations Matter in Video Scene Detection,
CVPR24(18473-18482)
IEEE DOI Code:
WWW Link. 2410
Link shots. Learning systems, Codes, Graph convolutional networks, Image edge detection, Semantics, Benchmark testing, Neighbor Relation BibRef

Raajesh, H.[Haran], Desanur, N.R.[Naveen Reddy], Khan, Z.[Zeeshan], Tapaswi, M.[Makarand],
MICap: A Unified Model for Identity-Aware Movie Descriptions,
CVPR24(14011-14021)
IEEE DOI 2410
Measurement, Training, Perturbation methods, Computational modeling, Switches, Motion pictures, Movie description BibRef

Argaw, D.M.[Dawit Mureja], Soldan, M.[Mattia], Pardo, A.[Alejandro], Zhao, C.[Chen], Heilbron, F.C.[Fabian Caba], Chung, J.S.[Joon Son], Ghanem, B.[Bernard],
Towards Automated Movie Trailer Generation,
CVPR24(7445-7454)
IEEE DOI 2410
Measurement, Films, Benchmark testing, Motion pictures, Transformers BibRef

Singh, A.K.[Aditya Kumar], Srivastava, D.[Dhruv], Tapaswi, M.[Makarand],
'Previously on...' from Recaps to Story Summarization,
CVPR24(13635-13646)
IEEE DOI 2410
TV, Codes, Video sequences, Graphics processing units, Predictive models, Benchmark testing, TV Shows, Multimodal, Long-form Summarization BibRef

Pan, X.C.[Xi-Chen], Qin, P.[Pengda], Li, Y.H.[Yu-Hong], Xue, H.[Hui], Chen, W.[Wenhu],
Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models,
WACV24(2908-2918)
IEEE DOI 2404
Uniform resource locators, Visualization, Adaptation models, Codes, Computational modeling, Decoding, Algorithms, Visualization BibRef

Zhang, Z.P.[Zhong-Ping], Gu, Y.W.[Yi-Wen], Plummer, B.A.[Bryan A.], Miao, X.[Xin], Liu, J.Y.[Jia-Yi], Wang, H.Y.[Hua-Yan],
Movie Genre Classification by Language Augmentation and Shot Sampling,
WACV24(7260-7270)
IEEE DOI 2404
Uniform resource locators, Adaptation models, Event detection, Computational modeling, Semantics, Oral communication, Video recognition and understanding BibRef

Ahn, D.C.[Dae-Chul], Kim, D.[Daneul], Song, G.[Gwangmo], Kim, S.H.[Seung Hwan], Lee, H.L.[Hong-Lak], Kang, D.[Dongyeop], Choi, J.H.[Jong-Hyun],
Story Visualization by Online Text Augmentation with Context Memory,
ICCV23(3102-3112)
IEEE DOI 2401
BibRef

Vacchetti, B.[Bartolomeo], Argaw, D.M.[Dawit Mureja], Cequtelli, T.[Tania],
LEMMS: Label Estimation of Multi-feature Movie Segments,
CVEU23(3019-3027)
IEEE DOI 2401
BibRef

Han, T.D.[Teng-Da], Bain, M.[Max], Nagrani, A.[Arsha], Varol, G.[Gül], Xie, W.[Weidi], Zisserman, A.[Andrew],
AutoAD II: The Sequel - Who, When, and What in Movie Audio Description,
ICCV23(13599-13609)
IEEE DOI 2401
BibRef

Argaw, D.M.[Dawit Mureja], Lee, J.Y.[Joon-Young], Woodson, M.[Markus], Kweon, I.S.[In So], Heilbron, F.C.[Fabian Caba],
Long-range Multimodal Pretraining for Movie Understanding,
ICCV23(13346-13357)
IEEE DOI 2401
BibRef

Sadoughi, N.[Najmeh], Li, X.Y.[Xin-Yu], Vajpayee, A.[Avijit], Fan, D.[David], Shuai, B.[Bing], Santos-Villalobos, H.[Hector], Bhat, V.[Vimal], Mv, R.[Rohith],
MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic Video Segmentation,
ICCV23(23274-23283)
IEEE DOI 2401
BibRef

Han, T.[Tengda], Bain, M.[Max], Nagrani, A.[Arsha], Varol, G.[Gül], Xie, W.[Weidi], Zisserman, A.[Andrew],
AutoAD: Movie Description in Context,
CVPR23(18930-18940)
IEEE DOI 2309
BibRef

Rahman, T.[Tanzila], Lee, H. .Y.[Hsin- Ying], Ren, J.[Jian], Tulyakov, S.[Sergey], Mahajan, S.[Shweta], Sigal, L.[Leonid],
Make-A-Story: Visual Memory Conditioned Consistent Story Generation,
CVPR23(2493-2502)
IEEE DOI 2309
BibRef

Malakan, Z.M.[Zainy M.], Hassan, G.M.[Ghulam Mubashar], Jalwana, M.A.A.K.[Mohammad A. A. K.], Aafaq, N.[Nayyer], Mian, A.[Ajmal],
Semantic Attribute Enriched Storytelling from a Sequence of Images,
DICTA21(1-8)
IEEE DOI 2201
Measurement, Encapsulation, Visualization, Digital images, Semantics, Detectors, Feature extraction, Storytelling, Object Detection BibRef

Huang, Y.Z.[Yu-Zhong], Bai, X.[Xue], Wang, O.[Oliver], Caba, F.[Fabian], Agarwala, A.[Aseem],
Learning Where to Cut from Edited Videos,
CVEU21(3208-3216)
IEEE DOI 2112
Training, Solid modeling, Computational modeling, Predictive models BibRef

Gaikwad, B.[Bhagyashree], Sontakke, A.[Ankita], Patwardhan, M.[Manasi], Pedanekar, N.[Niranjan], Karande, S.[Shirish],
Plots to Previews: Towards Automatic Movie Preview Retrieval using Publicly Available Meta-data,
CVEU21(3198-3207)
IEEE DOI 2112
TV, Annotations, Error analysis, Semantics, Motion pictures BibRef

Yu, Y.J.[Young-Jae], Chung, J.[Jiwan], Yun, H.S.[Hee-Seung], Kim, J.S.[Jong-Seok], Kim, G.[Gunhee],
Transitional Adaptation of Pretrained Models for Visual Storytelling,
CVPR21(12653-12663)
IEEE DOI 2111
Measurement, Visualization, Adaptation models, Computational modeling, Generators BibRef

Reboud, A.[Alison], Troncy, R.[Raphaël],
What You Say Is Not What You Do: Studying Visio-Linguistic Models for TV Series Summarization,
CLVL21(3142-3146)
IEEE DOI 2112
Visualization, TV, Computational modeling, Data visualization, Computer architecture BibRef

Hao, X.[Xiang], Chettiar, K.[Kripa], Cheung, B.[Ben], Germano, V.[Vernon], Hamid, R.[Raffay],
Intro and Recap Detection for Movies and TV Series,
WACV21(167-176)
IEEE DOI 2106
Deep learning, Visualization, TV, Fuses, Friction, Streaming media BibRef

Bain, M.[Max], Nagrani, A.[Arsha], Brown, A.[Andrew], Zisserman, A.[Andrew],
Condensed Movies: Story Based Retrieval with Contextual Embeddings,
ACCV20(V:460-479).
Springer DOI 2103
BibRef

Wang, L.[Lezi], Liu, D.[Dong], Puri, R.[Rohit], Metaxas, D.N.[Dimitris N.],
Learning Trailer Moments in Full-length Movies with Co-contrastive Attention,
ECCV20(XVIII:300-316).
Springer DOI 2012
BibRef

Huang, Q.Q.[Qing-Qiu], Xiong, Y.[Yu], Rao, A.[Anyi], Wang, J.Z.[Jia-Ze], Lin, D.H.[Da-Hua],
Movienet: A Holistic Dataset for Movie Understanding,
ECCV20(IV:709-727).
Springer DOI 2011
Dataset, Movie Understanding.
WWW Link. BibRef

Li, K., Fang, C., Wang, Z., Kim, S., Jin, H., Fu, Y.,
Screencast Tutorial Video Understanding,
CVPR20(12523-12532)
IEEE DOI 2008
Tutorials, Software, Visualization, Task analysis, Pipelines, Tools BibRef

Nagrani, A.[Arsha], Sun, C.[Chen], Ross, D.[David], Sukthankar, R.[Rahul], Schmid, C.[Cordelia], Zisserman, A.[Andrew],
Speech2Action: Cross-Modal Supervision for Action Recognition,
CVPR20(10314-10323)
IEEE DOI 2008
Guess action from dialog alone? Motion pictures, Visualization, TV, Correlation, Predictive models, Standards, Manuals BibRef

Rao, A., Xu, L., Xiong, Y., Xu, G., Huang, Q., Zhou, B., Lin, D.,
A Local-to-Global Approach to Multi-Modal Movie Scene Segmentation,
CVPR20(10143-10152)
IEEE DOI 2008
Motion pictures, Semantics, Videos, Task analysis, Visualization, Image segmentation, Cameras BibRef

Zhang, M., Ye, K., Hwa, R., Kovashka, A.,
Story Completion with Explicit Modeling of Commonsense Knowledge,
MVM20(1543-1546)
IEEE DOI 2008
Tensile stress, Predictive models, Context modeling, Knowledge based systems, Cognition, Training, Task analysis BibRef

Li, W.X.[Wen-Xu], Pan, G.[Gang], Wang, C.[Chen], Xing, Z.[Zhen], Zhou, X.Z.[Xiao-Zhou], Dong, X.X.[Xiao-Xuan], Zhang, J.W.[Jia-Wan],
From Coarse to Fine: Hierarchical Structure-aware Video Summarization,
MLCSA20(75-87).
Springer DOI 2103
BibRef

Liu, Y., Li, Y., Yang, F., Chen, S., Wang, Y.F.,
Learning Hierarchical Self-Attention for Video Summarization,
ICIP19(3377-3381)
IEEE DOI 1910
Video Summarization, Hierarchical Structure, Attention Model, Deep Learning BibRef

Lee, S., Sung, J., Yu, Y., Kim, G.,
A Memory Network Approach for Story-Based Temporal Summarization of 360° Videos,
CVPR18(1410-1419)
IEEE DOI 1812
Videos, Task analysis, Visualization, Cameras, Computational modeling, Training, Recurrent neural networks BibRef

Mo, L.B.[Ling-Bo], Zhang, C.H.[Chun-Hong], Ji, Y.[Yang], Hu, Z.[Zheng],
Adversarial Learning for Visual Storytelling with Sense Group Partition,
ACCV18(IV:175-190).
Springer DOI 1906
generation of a paragraph to describe the content of a photo stream. BibRef

Ueno, M.[Miki],
Structure Analysis on Common Plot in Four-Scene Comic Story Dataset,
MANPU19(625-636).
Springer DOI 1901
BibRef

Zhang, J.C.[Jun-Chao], Peng, Y.X.[Yu-Xin],
Hierarchical Vision-Language Alignment for Video Captioning,
MMMod19(I:42-54).
Springer DOI 1901
BibRef

Smeaton, A.F.[Alan F.], Graham, Y.[Yvette], McGuinness, K.[Kevin], O’Connor, N.E.[Noel E.], Quinn, S.[Seán], Sanchez, E.A.[Eric Arazo],
Exploring the Impact of Training Data Bias on Automatic Generation of Video Captions,
MMMod19(I:178-190).
Springer DOI 1901
BibRef

Guyot, P.[Patrice], Malon, T.[Thierry], Roman-Jimenez, G.[Geoffrey], Chambon, S.[Sylvie], Charvillat, V.[Vincent], Crouzil, A.[Alain], Péninou, A.[André], Pinquier, J.[Julien], Sèdes, F.[Florence], Sénac, C.[Christine],
Audiovisual Annotation Procedure for Multi-view Field Recordings,
MMMod19(I:399-410).
Springer DOI 1901
BibRef

Gupta, T.[Tanmay], Schwenk, D.[Dustin], Farhadi, A.[Ali], Hoiem, D.[Derek], Kembhavi, A.[Aniruddha],
Imagine This! Scripts to Compositions to Videos,
ECCV18(VIII: 610-626).
Springer DOI 1810
The other direction -- creation. BibRef

Chen, Y.Y.[Yang-Yu], Wang, S.H.[Shu-Hui], Zhang, W.G.[Wei-Gang], Huang, Q.M.[Qing-Ming],
Less Is More: Picking Informative Frames for Video Captioning,
ECCV18(XIII: 367-384).
Springer DOI 1810
BibRef

Iyyer, M.[Mohit], Manjunatha, V.[Varun], Guha, A.[Anupam], Vyas, Y.[Yogarshi], Boyd-Graber, J.[Jordan], Daumé, H.[Hal], Davis, L.S.[Larry S.],
The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives,
CVPR17(6478-6487)
IEEE DOI 1711
Coherence, Image segmentation, Optical character recognition software, Predictive models, Speech, Visualization BibRef

Khan, U.A., Ejaz, N., Martínez-del-Amor, M.A., Sparenberg, H.,
Movies tags extraction using deep learning,
AVSS17(1-6)
IEEE DOI 1806
Analyze the movie. cinematography, information retrieval, learning (artificial intelligence), neural nets, Vocabulary BibRef

Zhong, G., Tsai, Y.H., Liu, S., Su, Z., Yang, M.H.,
Learning Video-Story Composition via Recurrent Neural Network,
WACV18(1727-1735)
IEEE DOI 1806
learning (artificial intelligence), optimisation, recurrent neural nets, video signal processing, RNN, Training BibRef

Na, S.[Seil], Lee, S.H.[Sang-Ho], Kim, J.S.[Ji-Sung], Kim, G.[Gunhee],
A Read-Write Memory Network for Movie Story Understanding,
ICCV17(677-685)
IEEE DOI 1802
convolution, entertainment, neural nets, question answering (information retrieval), storage management, Visualization BibRef

Naim, I., Al Mamun, A., Song, Y.C., Luo, J., Kautz, H., Gildea, D.,
Aligning movies with scripts by exploiting temporal ordering constraints,
ICPR16(1786-1791)
IEEE DOI 1705
Clustering algorithms, Clustering methods, Face detection, Hidden Markov models, Motion pictures, Probabilistic logic, Standards BibRef

Tapaswi, M.[Makarand], Zhu, Y.[Yukun], Stiefelhagen, R.[Rainer], Torralba, A.B.[Antonio B.], Urtasun, R.[Raquel], Fidler, S.[Sanja],
MovieQA: Understanding Stories in Movies through Question-Answering,
CVPR16(4631-4640)
IEEE DOI 1612

See also MovieQA. BibRef

Suchan, J.[Jakob], Bhatt, M.[Mehul],
The geometry of a scene: On deep semantics for visual perception driven cognitive film, studies,
WACV16(1-9)
IEEE DOI 1606
Cognition. Based on eye tracking. Analysis of films. BibRef

Qu, B.Q.[Bing-Qing], Vallet, F.[Félicien], Carrive, J.[Jean], Gravier, G.[Guillaume],
Content-Based Discovery of Multiple Structures from Episodes of Recurrent TV Programs Based on Grammatical Inference,
MMMod15(I: 140-154).
Springer DOI 1501
BibRef

Song, Y.[Yale], Vallmitjana, J.[Jordi], Stent, A.[Amanda], Jaimes, A.[Alejandro],
TVSum: Summarizing web videos using titles,
CVPR15(5179-5187)
IEEE DOI 1510
BibRef

Koutras, P., Zlatintsi, A., Iosif, E., Katsamanis, A., Maragos, P., Potamianos, A.,
Predicting audio-visual salient events based on visual, audio and text modalities for movie summarization,
ICIP15(4361-4365)
IEEE DOI 1512
Visual saliency BibRef

Eberts, M.[Markus], Ulges, A.[Adrian], Schwanecke, U.[Ulrich],
AMIGO - automatic indexing of lecture footage,
ICDAR15(1206-1210)
IEEE DOI 1511
tied to text and presented slides. BibRef

Xu, P.[Peng], Tax, D.M.J., Hanjalic, A.[Alan],
A structure-based video representation for web video categorization,
ICPR12(433-436).
WWW Link. 1302
BibRef

Hanjalic, A.[Alan], Xu, L.Q.[Li-Qun],
User-Oriented Affective Video Content Analysis,
CBAIVL01(50).
IEEE DOI 0110
BibRef

Shrestha, A.[Ayush], Zhu, Y.[Ying], Miller, B.[Ben], Zhao, Y.[Yi],
Storygraph: Telling Stories from Spatio-temporal Data,
ISVC13(II:693-702).
Springer DOI 1311
BibRef

Lu, Z.[Zheng], Grauman, K.[Kristen],
Story-Driven Summarization for Egocentric Video,
CVPR13(2714-2721)
IEEE DOI 1309
egocentric; story; video summarization BibRef

Chowdhury, A.S.[Ananda S.], Kuanar, S.K.[Sanjay K.], Panda, R.[Rameswar], Das, M.N.[Moloy N.],
Video storyboard design using Delaunay graphs,
ICPR12(3108-3111).
WWW Link. 1302
BibRef

Fu, W.[Wei], Wang, J.Q.[Jin-Qiao], Zhu, X.B.[Xiao-Bin], Lu, H.Q.[Han-Qing], Ma, S.D.[Song-De],
Video Reshuffling with Narratives toward Effective Video Browsing,
ICIG11(821-826).
IEEE DOI 1109
BibRef

Jain, M.[Mihir], Jawahar, C.V.,
Characteristic pattern discovery in videos,
ICCVGIP10(306-313).
DOI Link 1111
representative scenes and characters of movies. BibRef

Ding, L.[Lei], Yilmaz, A.[Alper],
Learning Relations among Movie Characters: A Social Network Perspective,
ECCV10(IV: 410-423).
Springer DOI 1009
Use video and audio cues. BibRef

Rodriguez, M.[Mikel],
CRAM: Compact representation of actions in movies,
CVPR10(3328-3335).
IEEE DOI 1006
BibRef

Zhao, Z.C.[Zhi-Cheng], Ge, X.J.[Xiao-Juan],
A computable structure model for Hollywood film,
ICIP10(877-880).
IEEE DOI 1009
BibRef

Zhang, S.L.[Shi-Liang], Tian, Q.[Qi], Huang, Q.M.[Qing-Ming], Gao, W.[Wen], Li, S.P.[Shi-Peng],
Utilizing affective analysis for efficient movie browsing,
ICIP09(1853-1856).
IEEE DOI 0911
BibRef

Gupta, A.[Abhinav], Srinivasan, P.[Praveen], Shi, J.B.[Jian-Bo], Davis, L.S.[Larry S.],
Understanding videos, constructing plots learning a visually grounded storyline model from annotated videos,
CVPR09(2012-2019).
IEEE DOI 0906
BibRef

Evangelopoulos, G., Rapantzikos, K., Potamianos, A., Maragos, P., Zlatintsi, A., Avrithis, Y.S.,
Movie summarization based on audiovisual saliency detection,
ICIP08(2528-2531).
IEEE DOI 0810

See also Spatiotemporal saliency for video classification. BibRef

Lee, F.[Felix], Bailer, W.[Werner],
Organizing rushes video by visually similar setting,
CIVR08(279-288). 0807
BibRef

Bailer, W.[Werner], Dumont, E.[Emilie], Essid, S.[Slim], Merialdo, B.[Bernard],
A collaborative approach to automatic rushes video summarization,
ICIP08(29-32).
IEEE DOI 0810
BibRef

Liu, A.A.[An-An], Tang, S.[Sheng], Zhang, Y.D.[Yong-Dong], Song, Y.[Yan], Li, J.T.[Jin-Tao], Yang, Z.X.[Zhao-Xuan],
A hierarchical framework for movie content analysis: Let computers watch films like humans,
SLAM08(1-8).
IEEE DOI 0806
BibRef

Kawai, Y.[Yoshihiko], Sumiyoshi, H.[Hideki], Yagi, N.[Nobuyuki],
Automated production of TV program trailer using electronic program guide,
CIVR07(49-56).
DOI Link 0707
BibRef

Lu, X.A.[Xiao-An], Zhai, J.F.[Jie-Fu], Gomila, C.[Cristina],
A New Spatial Activity Metric for Film Contents,
ICIP07(VI: 473-476).
IEEE DOI 0709
BibRef

Choi, J.[Jinsoo], Oh, T.H.[Tae-Hyun], Kweon, I.S.[In So],
Video-Story Composition via Plot Analysis,
CVPR16(3122-3130)
IEEE DOI 1612
BibRef

Geng, Y.L.[Yu-Liang], Xu, D.[De], Feng, S.H.[Song-He],
Hierarchical Video Summarization Based on Video Structure and Highlight,
SSPR06(226-234).
Springer DOI 0608
BibRef

Schweitzer, H.,
Computing Content-Plots for Video,
ECCV02(IV: 491 ff.).
Springer DOI 0205
BibRef

Phung, D.Q.[Dinh Quoc], Dorai, C., Verikatesh, S.,
Narrative structure analysis with education and training videos for e-learning,
ICPR02(II: 835-838).
IEEE DOI 0211
BibRef

Chapter on Implementations and Applications, Databases, QBIC, Video Analysis, Hardware and Software, Inspection continues in
Video Retrieval, Video Annotation, Video Categorization, Genre .

Last update:Mar 28, 2026 at 17:09:41