22.3.4 Lipreading, Lip Reading, Lip Tracking

Chapter Contents (Back)
Real Time Vision. Application, Lipreading. Lipreading. Lip Reading. Visual Speech.
See also Combined Audio Visual Recognition and Analysis.

Dynamic 2D/3D Speaking Face Dataset with Synchronized Audio,
2019.
HTML Version. Dataset, Lip Reading. Refer to:
See also 3D Visual passcode: Speech-driven 3D facial dynamics for behaviometrics.

Language Independent Lip Reading,
2007.
HTML Version. Dataset, Lip Reading.

OuluVS database,
2009.
WWW Link. Dataset, Lip Reading.

Mase, K.,
Recognition of Facial Expression from Optical Flow,
IEICE(E74-xx), No. 10, 1991, pp. 3474-3483. BibRef 9100

Mase, K., and Pentland, A.P.,
Automatic Lipreading by Computer,
IEICE(J73-D-II), No. 6, June 1990, pp. 796-803. BibRef 9006
Earlier:
Lip Reading: Automatic Visual Recognition of Spoken Words,
OSAMV89(1565-1570). BibRef

Murase, H., Sakai, R.,
Moving Object Recognition in Eigenspace Representation: Gait Analysis and Lip Reading,
PRL(17), No. 2, February 8 1996, pp. 155-162. BibRef 9602

Zhou, Y.[Yong],
Low bit rate audio-visual communication having improved face and lip region detection,
US_Patent5,596,362, Jan 21, 1997
WWW Link. BibRef 9701

Luettin, J., Thacker, N.A.,
Speechreading Using Probabilistic Models,
CVIU(65), No. 2, February 1997, pp. 163-178.
DOI Link 9704
BibRef

Luettin, J., Thacker, N.A., Beet, S.W.,
Locating and Tracking Facial Speech Features,
ICPR96(I: 652-656).
IEEE DOI 9608
BibRef
And:
Learning to Recognise Talking Faces,
ICPR96(IV: 55-59).
IEEE DOI 9608
(Univ. of Sheffield, UK) BibRef

Yu, K., Jiang, X.Y., Bunke, H.,
Lipreading: A Classifier Combination Approach,
PRL(18), No. 11-13, November 1997, pp. 1421-1426. 9806
BibRef

Goldschen, A.J.[Alan J.], (MITRE), Petajan, E.D.[Eric D.], (ATT), and Garcia, O.N.[Oscar N.], (Wright State University),
Continuous Automatic Speech Recognition by Lipreading,
MBR97(Chapter 14). BibRef 9700

Nan, L.[Li], Dettmer, S.[Shawn], and Shah, M.[Mubarak],
Visually Recognizing Speech Using Eigen Sequences,
MBR97(Chapter 15), UCF. BibRef 9700

Graf, H.P.[Hans Peter],
Method for locating a subject's lips in a facial image,
US_Patent5,805,745, September 8, 1998.
WWW Link. BibRef 9809

Petajan, E.D., Graf, H.P.,
Robust face feature analysis for automatic speechreading and character animation,
AFGR96(357-362).
IEEE DOI 9610
BibRef

Yu, K.[Keren], Jiang, X.Y.[Xiao-Yi], Bunke, H.[Horst],
Lipreading using signal analysis over time,
SP(77), No. 2, 1 September 1999, pp. 195-208. BibRef 9909
Earlier:
Lipreading using Fourier transform over time,
CAIP97(472-479).
Springer DOI 9709
BibRef

Mak, M.W., Allen, W.G.,
A lip-tracking system based on morphological processing and block matching techniques,
SP:IC(6), No. 4, August 1994, pp. 335-348.
Elsevier DOI BibRef 9408

Lepsøy, S.[Skjalg], Curinga, S.[Sergio],
Conversion of articulatory parameters into active shape model coefficients for lip motion representation and synthesis,
SP:IC(13), No. 3, September 1998, pp. 209-225.
Elsevier DOI BibRef 9809

Chan, S., Ngo, C.W., Lai, K.F.,
Motion tracking of human mouth by generalized deformable models,
PRL(20), No. 8, August 1999, pp. 879-887. BibRef 9908

Oliver, N.M.[Nuria M.], Pentland, A.P.[Alex P.], Bérard, F.[François],
LAFTER: a real-time face and lips tracker with facial expression recognition,
PR(33), No. 8, August 2000, pp. 1369-1382.
Elsevier DOI 0005
BibRef
Earlier:
LAFTER: Lips and Face Real Time Tracker,
CVPR97(123-129).
IEEE DOI 9704
With demo. BibRef

Jebara, T.S., Pentland, A.P.,
Parameterized Structure from Motion for 3D Adaptive Feedback Tracking of Faces,
CVPR97(144-150).
IEEE DOI 9704
BibRef
And: Vismod--401, 1996.
HTML Version. MIT. Color. Symmetries. BibRef

Chiou, G.I., Hwang, J.N.,
Lipreading from Color Video,
IP(6), No. 8, August 1997, pp. 1192-1195.
IEEE DOI 9708
BibRef
Earlier:
Lipreading from Color Motion Video,
ICASSP96(XX) Dept of EE. University of Seattle. BibRef

Matthews, I.[Iain], Cootes, T.F.[Timothy F.], Bangham, J.A.[J. Andrew], Cox, S.J.[Stephen J.], Harvey, R.W.[Richard W.],
Extraction of Visual Features for Lipreading,
PAMI(24), No. 2, February 2002, pp. 198-213.
IEEE DOI 0202
Evaluation, Lip Reading. Compare 3 methods for evaluation. BibRef

Matthews, I., Bangham, J.A., Harvey, R.W., Cox, S.J.,
A Comparison of Active Shape Model and Scale Decomposition Based Features for Visual Speech Recognition,
ECCV98(II: 514).
Springer DOI BibRef 9800
Earlier: A3, A1, A2, A4:
Lip Reading from Scale-Space Measurements,
CVPR97(582-587).
IEEE DOI 9704
BibRef

Daubias, P.[Philippe], Deléglise, P.[Paul],
Statistical Lip-Appearance Models Trained Automatically Using Audio Information,
JASP(2002), No. 11, November 2002, pp. 1202.
WWW Link. 0304
BibRef

Zhang, X.Z.[Xiao-Zheng], Broun, C.C.[Charles C.], Mersereau, R.M.[Russell M.], Clements, M.A.[Mark A.],
Automatic Speechreading with Applications to Human-Computer Interfaces,
JASP(2002), No. 11, November 2002, pp. 1228.
WWW Link. 0304
BibRef

Zhang, X.Z.[Xiao-Zheng], Mersereau, R.M.[Russell M.],
Lip Feature Extraction Towards an Automatic Speechreading System,
ICIP00(Vol III: 226-229).
IEEE DOI 0008
BibRef

Gordan, M.[Mihaela], Kotropoulos, C.[Constantine], Pitas, I.[Ioannis],
A Support Vector Machine-Based Dynamic Network for Visual Speech Recognition Applications,
JASP(2002), No. 11, November 2002, pp. 1248.
WWW Link. 0304
BibRef
Earlier:
Application of support vector machines classifiers to visual speech recognition,
ICIP02(III: 129-132).
IEEE DOI 0210
BibRef

Siatras, S., Nikolaidis, N.[Nikos], Krinidis, M.[Michail], Pitas, I.[Ioannis],
Visual Lip Activity Detection and Speaker Detection Using Mouth Region Intensities,
CirSysVideo(19), No. 1, January 2009, pp. 133-137.
IEEE DOI 0902
BibRef

Luthon, F., Caplier, A., Lievin, M.,
Spatiotemporal MRF approach to video segmentation: Application to motion detection and lip segmentation,
SP(76), No. 1, 1 July 1999, pp. 61-80. BibRef 9907

Caplier, A.[Alice], Luthon, F.[Franck],
A new spatiotemporal approach for image analysis. Application to motion detection,
CAIP95(246-253).
Springer DOI 9509
BibRef

Lievin, M., Luthon, F.,
Nonlinear Color Space and Spatiotemporal MRF for Hierarchical Segmentation of Face Features in Video,
IP(13), No. 1, January 2004, pp. 63-71.
IEEE DOI 0402
BibRef

Lievin, M., Luthon, F.,
A Hierarchical Segmentation Algorithm for Face Analysis Application for Lipreading,
ICME00(TP8). 0007
BibRef
Earlier:
Lip features automatic extraction,
ICIP98(III: 168-172).
IEEE DOI 9810
BibRef

Luthon, F.[Franck], and Lievin, M.,
Lip Motion Automatic Detection,
SCIA97(xx-yy)
HTML Version. 9705
BibRef

Cetingul, H.E., Yemez, Y., Erzin, E., Tekalp, A.M.,
Discriminative Analysis of Lip Motion Features for Speaker Identification and Speech-Reading,
IP(15), No. 10, October 2006, pp. 2879-2891.
IEEE DOI 0609
BibRef
Earlier:
Discriminative lip-motion features for biometric speaker identification,
ICIP04(III: 2023-2026).
IEEE DOI 0505
BibRef

Lafon, S.[Stephane], Keller, Y., Coifman, R.R.[Ronald R.],
Data Fusion and Multicue Data Matching by Diffusion Maps,
PAMI(28), No. 11, November 2006, pp. 1784-1797.
IEEE DOI 0609
Laplace-Beltrami approach for computing density invariant embeddings. Second, a refinement of the Nyström extension algorithm. Finally, a multicue data matching scheme based on nonlinear spectral graphs alignment. Apply to lipreading. BibRef

Bayro-Corrochano, E.[Eduardo], Trujillo, N.[Noel], Naranjo, M.[Michel],
Quaternion Fourier Descriptors for the Preprocessing and Recognition of Spoken Words Using Images of Spatiotemporal Representations,
JMIV(28), No. 2, June 2007, pp. 179-190.
Springer DOI 0710
BibRef

Yau, W.C.[Wai Chee], Kumar, D.K.[Dinesh Kant], Arjunan, S.P.[Sridhar Poosapadi],
Visual Speech Recognition Using Dynamic Features And Support Vector Machines,
IJIG(8), No. 3, July 2008, pp. 419-437. 0807
BibRef
Earlier:
Visual Speech Recognition Method Using Translation, Scale and Rotation Invariant Features,
AVSBS06(63-63).
IEEE DOI 0611
BibRef

Yau, W.C.[Wai Chee], Kumar, D.K.[Dinesh Kant], Chinnadurai, T.[Tharangini],
Lip-Reading Technique Using Spatio-Temporal Templates and Support Vector Machines,
CIARP08(610-617).
Springer DOI 0809
BibRef

Shaikh, A.A.[Ayaz A.], Kumar, D.K.[Dinesh K.], Gubbi, J.[Jayavardhana],
Automatic visual speech segmentation and recognition using directional motion history images and Zernike moments,
VC(29), No. 10, October 2013, pp. 969-982.
WWW Link. 1310
BibRef

Yau, W.C.[Wai Chee], Kumar, D.K.[Dinesh Kant], Weghorn, H.[Hans],
Visual Speech Recognition Using Motion Features and Hidden Markov Models,
CAIP07(832-839).
Springer DOI 0708
BibRef

Seymour, R.[Rowan], Stewart, D.[Darryl], Ming, J.[Ji],
Comparison of Image Transform-Based Features for Visual Speech Recognition in Clean and Corrupted Videos,
JIVP(2008), No. 2008, pp. xx-yy.
DOI Link 0804
BibRef

Stewart, D., Seymour, R., Pass, A., Ming, J.[Ji],
Robust Audio-Visual Speech Recognition Under Noisy Audio-Video Conditions,
Cyber(44), No. 2, February 2014, pp. 175-184.
IEEE DOI 1403
audio streaming BibRef

Borgstrom, B.J., Alwan, A.[Abeer],
A Low-Complexity Parabolic Lip Contour Model With Speaker Normalization for High-Level Feature Extraction in Noise-Robust Audiovisual Speech Recognition,
SMC-A(38), No. 6, November 2008, pp. 1273-1280.
IEEE DOI 0811
BibRef

Wang, S.L., Liew, A.W.C., Lau, W.H., Leung, S.H.,
An Automatic Lipreading System for Spoken Digits With Limited Training Data,
CirSysVideo(18), No. 12, December 2008, pp. 1760-1765.
IEEE DOI 0812
BibRef
Earlier: A1, A3, A4, Only:
Automatic Lipreading with Limited Training Data,
ICPR06(III: 881-884).
IEEE DOI 0609
BibRef

Zhao, G., Barnard, M., Pietikäinen, M.[Matti],
Lipreading With Local Spatiotemporal Descriptors,
MultMed(11), No. 7, November 2009, pp. 1254-1265.
IEEE DOI 0911
BibRef

Yang, M.T.[Mau-Tsuen], You, Z.W.[Zhen-Wei], Shih, Y.C.[Ya-Chun],
Lip contour extraction for language learning in VEC3D,
MVA(21), No. 1, November 2009, pp. xx-yy.
Springer DOI 0911
BibRef

Shin, J.J.[Jong-Ju], Lee, J.[Jin], Kim, D.J.[Dai-Jin],
Real-time lip reading system for isolated Korean word recognition,
PR(44), No. 3, March 2011, pp. 559-571.
Elsevier DOI 1011
Lip reading; Two-stage lip tracking; Word classifier; Automatic speech recognition; Audio-visual ASR BibRef

Stillittano, S.[Sébastien], Girondel, V.[Vincent], Caplier, A.[Alice],
Lip contour segmentation and tracking compliant with lip-reading application constraints,
MVA(24), No. 1, January 2013, pp. 1-18.
WWW Link. 1301
BibRef
Earlier:
Inner and outer lip contour tracking using cubic curve parametric models,
ICIP09(2469-2472).
IEEE DOI 0911
BibRef

Zhou, Z.H.[Zi-Heng], Hong, X.P.[Xiao-Peng], Zhao, G.Y.[Guo-Ying], Pietikainen, M.[Matti],
A Compact Representation of Visual Speech Data Using Latent Variables,
PAMI(36), No. 1, 2014, pp. 181-187.
IEEE DOI 1312
BibRef
Earlier: A1, A3, A4, Only:
Towards a practical lipreading system,
CVPR11(137-144).
IEEE DOI 1106
BibRef
Earlier:
Lipreading: A Graph Embedding Approach,
ICPR10(523-526).
IEEE DOI 1008
Data models BibRef

Saitoh, T.[Takeshi], Zhou, Z.H.[Zi-Heng], Zhao, G.Y.[Guo-Ying], Pietikäinen, M.[Matti],
Concatenated Frame Image Based CNN for Visual Speech Recognition,
LipRead16(II: 277-289).
Springer DOI 1704

See also Image-Based Visual Speech Animation System, An. BibRef

Cheung, Y.M.[Yiu-Ming], Li, M.[Meng], Cao, X.C.[Xiao-Chun], You, X.G.[Xin-Ge],
Lip Segmentation under MAP-MRF Framework with Automatic Selection of Local Observation Scale and Number of Segments,
IP(23), No. 8, August 2014, pp. 3397-3411.
IEEE DOI 1408
BibRef
Earlier: A1, A2, Only:
MAP-MRF based lip segmentation without true segment number,
ICIP11(769-772).
IEEE DOI 1201
Markov processes BibRef

Zhou, Z.H.[Zi-Heng], Zhao, G.Y.[Guo-Ying], Hong, X.P.[Xiao-Peng], Pietikäinen, M.[Matti],
A review of recent advances in visual speech decoding,
IVC(32), No. 9, 2014, pp. 590-605.
Elsevier DOI 1408
Survey, Visual Speech. Visual speech decoding BibRef

Travieso, C.M.[Carlos M.], Zhang, J.G.[Jian-Guo], Miller, P.[Paul], Alonso, J.B.[Jesús B.],
Using a Discrete Hidden Markov Model Kernel for lip-based biometric identification,
IVC(32), No. 12, 2014, pp. 1080-1089.
Elsevier DOI 1412
Discrete Hidden Markov Model Kernel BibRef

Ibrahim, M.Z., Mulvaney, D.J.,
Geometrical-based lip-reading using template probabilistic multi-dimension dynamic time warping,
JVCIR(30), No. 1, 2015, pp. 219-233.
Elsevier DOI 1507
BibRef
Earlier:
Geometry based lip reading system using Multi Dimension Dynamic Time Warping,
VCIP12(1-6).
IEEE DOI 1302
Lip reading BibRef

Shin, J.[Jeyong], Kim, H.I.[Hong-In], Park, R.H.[Rae-Hong],
New interface for musical instruments using lip reading,
IET-IPR(9), No. 9, 2015, pp. 770-776.
DOI Link 1509
audio-visual systems BibRef

Le, T.H.N.[T. Hoang Ngan], Savvides, M.[Marios],
A novel Shape Constrained Feature-based Active Contour model for lips/mouth segmentation in the wild,
PR(54), No. 1, 2016, pp. 23-33.
Elsevier DOI 1603
Prior shape BibRef

Patrona, F., Iosifidis, A.[Alexandros], Tefas, A.[Anastasios], Nikolaidis, N., Pitas, I.,
Visual Voice Activity Detection in the Wild,
MultMed(18), No. 6, June 2016, pp. 967-977.
IEEE DOI 1605
Feature extraction. From facial videos. BibRef

Liu, X.[Xin], Cheung, Y.M.[Yiu-Ming], Tang, Y.Y.[Yuan Yan],
Lip event detection using oriented histograms of regional optical flow and low rank affinity pursuit,
CVIU(148), No. 1, 2016, pp. 153-163.
Elsevier DOI 1606
Lip event detection BibRef

Howell, D.[Dominic], Cox, S.[Stephen], Theobald, B.J.[Barry-John],
Visual units and confusion modelling for automatic lip-reading,
IVC(51), No. 1, 2016, pp. 1-12.
Elsevier DOI 1606
Lip-reading BibRef

Shaw, F., Theobald, B.J.[Barry-John],
Expressive Modulation of Neutral Visual Speech,
MultMedMag(23), No. 4, October 2016, pp. 68-78.
IEEE DOI 1612
computer animation BibRef

Zhang, H.P.[Hao-Peng], El-Gaaly, T.[Tarek], Elgammal, A.M.[Ahmed M.], Jiang, Z.G.[Zhi-Guo],
Factorization of view-object manifolds for joint object recognition and pose estimation,
CVIU(139), No. 1, 2015, pp. 89-103.
Elsevier DOI 1509
Homeomorphic manifold analysis. Object cateforization. BibRef

Bakry, A.[Amr], El-Gaaly, T.[Tarek], Elhoseiny, M.[Mohamed], Elgammal, A.M.[Ahmed M.],
Joint Object Recognition and Pose Estimation Using a Nonlinear View-Invariant Latent Generative Model,
WACV16(1-9)
IEEE DOI 1606
Computational modeling. Category recognition and pose. BibRef

Bakry, A.[Amr], Elgammal, A.M.[Ahmed M.],
Untangling Object-View Manifold for Multiview Recognition and Pose Estimation,
ECCV14(IV: 434-449).
Springer DOI 1408
BibRef
And:
MKPLS: Manifold Kernel Partial Least Squares for Lipreading and Speaker Identification,
CVPR13(684-691)
IEEE DOI 1309
AVLetters BibRef

Butt, W.U.[Waqqas Ur_Rehman],
Speech Recognition Supported by Lip Analysis,
ELCVIA(15), No. 2, 2016, pp. 30-32.
DOI Link 1611
BibRef

Georgakis, C., Petridis, S.[Stavros], Pantic, M.[Maja],
Discrimination Between Native and Non-Native Speech Using Visual Features Only,
Cyber(46), No. 12, December 2016, pp. 2758-2771.
IEEE DOI 1612
Databases BibRef

Wei, J.G.[Jian-Guo], Zhang, J.S.[Jing-Shu], Ji, Y.[Yan], Fang, Q.A.[Qi-Ang], Lu, W.H.[Wen-Huan],
Morphological normalization of vowel images for articulatory speech recognition,
JVCIR(41), No. 1, 2016, pp. 352-360.
Elsevier DOI 1612
Vocal tract normalization BibRef

Dungan, L., Karaali, A., Harte, N.,
The Impact of Reduced Video Quality on Visual Speech Recognition,
ICIP18(2560-2564)
IEEE DOI 1809
Degradation, Visualization, Hidden Markov models, Feature extraction, Transform coding, Databases, Lipreading BibRef

Chung, J.S.[Joon Son], Zisserman, A.[Andrew],
Learning to lip read words by watching videos,
CVIU(173), 2018, pp. 76-85.
Elsevier DOI 1901
BibRef
Lip Reading in the Wild,
ACCV16(II: 87-103).
Springer DOI 1704
Award, ACCV. Lip reading, Lip synchronisation, Active speaker detection, Large vocabulary, Dataset BibRef

Chung, J.S.[Joon Son], Senior, A., Vinyals, O., Zisserman, A.[Andrew],
Lip Reading Sentences in the Wild,
CVPR17(3444-3453)
IEEE DOI 1711
Decoding, Face, Lips, Speech recognition, Training, Videos, Visualization BibRef

Jha, A.[Abhishek], Namboodiri, V.P.[Vinay P.], Jawahar, C.V.,
Spotting words in silent speech videos: a retrieval-based approach,
MVA(30), No. 2, March 2019, pp. 217-229.
WWW Link. 1904
BibRef
Earlier:
Word Spotting in Silent Lip Videos,
WACV18(150-159)
IEEE DOI 1806
feature extraction, image retrieval, image segmentation, query processing, relevance feedback, speech recognition, Vocabulary BibRef

Zhang, J.[Jie], Fisher, R.B.[Robert B.],
3D Visual passcode: Speech-driven 3D facial dynamics for behaviometrics,
SP(160), No. 1, July 2019, pp. 164-177.
Elsevier DOI Dataset:
See also Dynamic 2D/3D Speaking Face Dataset with Synchronized Audio. BibRef 1907

Radha, N., Shahina, A., Prabha, P., Sri Preethi, B.T., Nayeemulla Khan, A.,
An analysis of the effect of combining standard and alternate sensor signals on recognition of syllabic units for multimodal speech recognition,
PRL(115), 2018, pp. 39-49.
Elsevier DOI 1812
Multimodal speech recognition, Throat microphone, Lip reading, Hidden Markov models BibRef

Mesbah, A.[Abderrahim], Berrahou, A.[Aissam], Hammouchi, H.[Hicham], Berbia, H.[Hassan], Qjidaa, H.[Hassan], Daoudi, M.[Mohamed],
Lip reading with Hahn Convolutional Neural Networks,
IVC(88), 2019, pp. 76-83.
Elsevier DOI 1908
Visual speech recognition, Lipreading, Laryngectomy, Hahn moments, Convolutional Neural Networks BibRef

Das, S.[Srijan], Muhammad, K.[Khan], Bakshi, S.[Sambit], Mukherjee, I.[Imon], Sa, P.K.[Pankaj K], Sangaiah, A.K.[Arun Kumar], Bruno, A.[Andrea],
Lip biometric template security framework using spatial steganography,
PRL(126), 2019, pp. 102-110.
Elsevier DOI 1909
Lip biometrics, Steganography, Privacy-preservation, Template security BibRef

Petridis, S.[Stavros], Wang, Y.J.[Yu-Jiang], Ma, P.C.[Ping-Chuan], Li, Z.W.[Zu-Wei], Pantic, M.[Maja],
End-to-end visual speech recognition for small-scale datasets,
PRL(131), 2020, pp. 421-427.
Elsevier DOI 2004
BibRef

Chen, X.J.[Xue-Juan], Du, J.X.[Ji-Xiang], Zhang, H.B.[Hong-Bo],
Lipreading with DenseNet and resBi-LSTM,
SIViP(14), No. 5, July 2020, pp. 981-989.
Springer DOI 2006
BibRef

Brahme, A.[Aparna], Bhadade, U.[Umesh],
Effect of Various Visual Speech Units on Language Identification Using Visual Speech Recognition,
IJIG(20), No. 4, October 2020, pp. 2050029.
DOI Link 2011
BibRef

He, L.[Lun], Ding, B.[Biyun], Wang, H.[Hao], Zhang, T.[Tao],
An Optimal 3D Convolutional Neural Network Based Lipreading Method,
IET-IPR(16), No. 1, 2022, pp. 113-122.
DOI Link 2112
BibRef

Sheng, C.C.[Chang-Chong], Zhu, X.Z.[Xin-Zhong], Xu, H.Y.[Hui-Ying], Pietikäinen, M.[Matti], Liu, L.[Li],
Adaptive Semantic-Spatio-Temporal Graph Convolutional Network for Lip Reading,
MultMed(24), 2022, pp. 3545-3557.
IEEE DOI 2207
Lips, Visualization, Feature extraction, Mouth, Task analysis, Convolution, Hidden Markov models, Lip reading, two-stream BibRef

Kim, M.[Minsu], Hong, J.[Joanna], Park, S.J.[Se Jin], Ro, Y.M.[Yong Man],
CroMM-VSR: Cross-Modal Memory Augmented Visual Speech Recognition,
MultMed(24), 2022, pp. 4342-4355.
IEEE DOI 2210
Visualization, Speech recognition, Lips, Training, Face recognition, Feature extraction, Lip-reading, visual speech recognition, visual-audio memory BibRef

Kim, M.[Minsu], Kim, H.I.[Hyung-Il], Ro, Y.M.[Yong Man],
Prompt Tuning of Deep Neural Networks for Speaker-Adaptive Visual Speech Recognition,
PAMI(47), No. 2, February 2025, pp. 1042-1055.
IEEE DOI 2501
Adaptation models, Tuning, Speech recognition, Visualization, Data models, Lips, Convolutional neural networks, Transformers, visual speech recognition BibRef

Preethi, S.J., Krupa, B.N.[B. Niranjana],
Analyzing lower half facial gestures for lip reading applications: Survey on vision techniques,
CVIU(233), 2023, pp. 103738.
Elsevier DOI 2307
Lip reading, Audio visual speech recognition, Silent speech recognition, Voice from lips, Lip HCI, Deep learning BibRef

Sun, B.S.[Bao-Sheng], Xie, D.L.[Dong-Liang], Shi, H.[Haoze],
MALip: Modal Amplification Lipreading based on reconstructed audio features,
SP:IC(117), 2023, pp. 117002.
Elsevier DOI 2308
Lipreading, Human-computer interaction, Mel-Spectrogram feature, Vocal tract features, U-Net BibRef

Nemani, P.[Praneeth], Krishna, G.S.[Ghanta Sai], Supriya, K.[Kundrapu], Kumar, S.[Santosh],
Speaker independent VSR: A systematic review and futuristic applications,
IVC(138), 2023, pp. 104787.
Elsevier DOI 2310
VSR, Speaker-independence, Lip-reading, Feature extraction, Spatio-temporal BibRef

Xue, F.[Feng], Li, Y.[Yu], Liu, D.[Deyin], Xie, Y.[Yincen], Wu, L.[Lin], Hong, R.C.[Ri-Chang],
LipFormer: Learning to Lipread Unseen Speakers Based on Visual-Landmark Transformers,
CirSysVideo(33), No. 9, September 2023, pp. 4507-4517.
IEEE DOI 2310
BibRef

Sheng, C.C.[Chang-Chong], Liu, L.[Li], Deng, W.X.[Wan-Xia], Bai, L.[Liang], Liu, Z.[Zhong], Lao, S.Y.[Song-Yang], Kuang, G.Y.[Gang-Yao], Pietikäinen, M.[Matti],
Importance-Aware Information Bottleneck Learning Paradigm for Lip Reading,
MultMed(25), 2023, pp. 6563-6574.
IEEE DOI 2311
BibRef

Choi, J.[Jeongsoo], Park, S.J.[Se Jin], Kim, M.[Minsu], Ro, Y.M.[Yong Man],
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation,
CVPR24(27315-27327)
IEEE DOI 2410
Visualization, Acoustic noise, Lips, Self-supervised learning, Oral communication, Web conferencing, Speech enhancement BibRef

Yeo, J.H.[Jeong Hun], Kim, M.[Minsu], Choi, J.[Jeongsoo], Kim, D.H.[Dae Hoe], Ro, Y.M.[Yong Man],
AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model,
MultMed(26), 2024, pp. 6462-6474.
IEEE DOI 2404
Visualization, Speech recognition, Linguistics, Predictive models, Lips, Adaptation models, Data models, Audio Knowledge via memory, VSR BibRef

Sheng, C.C.[Chang-Chong], Kuang, G.Y.[Gang-Yao], Bai, L.[Liang], Hou, C.P.[Chen-Ping], Guo, Y.L.[Yu-Lan], Xu, X.[Xin], Pietikäinen, M.[Matti], Liu, L.[Li],
Deep Learning for Visual Speech Analysis: A Survey,
PAMI(46), No. 9, September 2024, pp. 6001-6022.
IEEE DOI 2408
Visualization, Deep learning, Surveys, Task analysis, Feature extraction, Speech analysis, Lips, Deep learning, computer graphics BibRef

Xiao, Y.W.[Ye-Wei], Liu, X.M.[Xuan-Ming], Teng, L.[Lianwei], Zhu, A.[Aosu], Tian, P.[Picheng], Huang, J.[Jian],
Cantonese sentence dataset for lip-reading,
IET-IPR(18), No. 10, 2024, pp. 2645-2664.
DOI Link 2408
image processing, image recognition, neural nets BibRef

Chen, H.[Hang], Wang, Q.[Qing], Du, J.[Jun], Wan, G.S.[Gen-Shun], Xiong, S.F.[Shi-Fu], Yin, B.C.[Bao-Ci], Pan, J.[Jia], Lee, C.H.[Chin-Hui],
Collaborative Viseme Subword and End-to-End Modeling for Word-Level Lip Reading,
MultMed(26), 2024, pp. 9358-9371.
IEEE DOI 2409
Lips, Hidden Markov models, Feature extraction, Visualization, Task analysis, Convolutional neural networks, Training, multitask learning viseme BibRef

Panagos, I.I.[Iason Ioannis], Sfikas, G.[Giorgos], Nikou, C.[Christophoros],
Visual speech recognition using compact hypercomplex neural networks,
PRL(186), 2024, pp. 1-7.
Elsevier DOI Code:
WWW Link. 2412
Visual speech recognition, Lipreading, Hypercomplex multiplication BibRef

Lee, B.H.[Byung Hoon], Shin, W.[Wooseok], Han, S.W.[Sung Won],
TD3Net: A temporal densely connected multi-dilated convolutional network for lipreading,
JVCIR(111), 2025, pp. 104540.
Elsevier DOI Code:
WWW Link. 2509
Visual speech recognition, Lipreading, Temporal convolution, Dense connectivity, Multi-dilation BibRef

Yuan, H.[Hao], Zhang, Y.K.[Ya-Kun], Zhang, X.Y.[Xing-Yu], Xie, L.[Liang], Yin, E.[Erwei],
Lipvis: A Novel Transient Viseme Extraction Framework for Lip Reading,
SPLetters(32), 2025, pp. 4334-4338.
IEEE DOI 2512
Transient analysis, Lips, Videos, Visualization, Training, Feature extraction, Clustering algorithms BibRef

Zhang, D.J.[De-Jun], Jia, X.P.[Xu-Peng], Deng, J.[Jing], Zheng, R.[Rong],
Visual Keyword Spotting with Multi-Encoder for MAVSR 2025,
FG25(1-5)
IEEE DOI 2601
Visualization, Speech analysis, Tracking, Lips, Face recognition, Video sequences, Gesture recognition, Feature extraction, Videos BibRef

Arslan, O.A.[Oguz Ali], Uzgun, D.[Doruk], Cengiz, B.[Batuhan], Topal, C.[Cihan],
Landmark-Based Fast LIP Reading with CTC Loss,
IPTA25(1-6)
IEEE DOI 2601
Training, Visualization, Lips, Pipelines, Neural networks, Speech recognition, Network architecture, Real-time systems, deep learning BibRef

Sato, M.[Mitsuki], Zhang, H.B.[Hai-Bo], Saitoh, T.[Takeshi],
Sentence-Level Lip-Reading with Integrated Synthetic Data and Speaker Normalization,
IVCNZ25(1-6)
IEEE DOI 2601
Training, Systematics, Accuracy, Pipelines, Robustness, Data models, Decoding, Speech synthesis, Videos, Synthetic data, Lip-reading, sentence-level recognition BibRef

Xue, R.Y.[Ruo-Yao], Li, J.[Jiepan], Wu, Z.H.[Zhe-Hui], He, W.[Wei],
Advancing Chinese Lip Reading through Contextual Enhancement,
FG25(1-5)
IEEE DOI 2601
Visualization, Accuracy, Error analysis, Lips, Face recognition, Semantics, Speech recognition, Gesture recognition, Videos, Context modeling BibRef

Su, F.[Fei], Li, C.[Cancan], Liu, J.[Juan],
Lip Enhancement and Multi-View Simulation for Robust Visual Speech Recognition in MAVSR 2025,
FG25(1-5)
IEEE DOI Code:
WWW Link. 2601
Training, Visualization, Tracking, Lips, Lighting, Training data, Speech recognition, Robustness, Knowledge transfer BibRef

Dampfhoffer, M.[Manon], Mesquida, T.[Thomas],
Neuromorphic Lip-Reading with Signed Spiking Gated Recurrent Units,
ECVW24(2141-2151)
IEEE DOI 2410
Visualization, Accuracy, Neuromorphics, Gesture recognition, Spiking neural networks, Logic gates, Vision sensors, automatic lip-reading BibRef

King, S.[Sayde], Ebraheem, M.[Mohamed], Dang, P.[Phuong], Neal, T.[Tempestt],
Toward Emotion Recognition and Person Identification Using Lip Movement from Wireless Signals: A Preliminary Study,
FG24(1-5)
IEEE DOI 2408
Wireless communication, Emotion recognition, Lips, Frequency-domain analysis, Mouth, Speech recognition, Feature extraction BibRef

Varshney, M.[Munender], Mukherji, M.[Mayurakshi], Raja, G.S.[G. Senthil], Ganesh, A.[Ananth], Banerjee, K.[Kingshuk],
Lip and Speech Synchronization using Supervised Contrastive Learning and Cross-Modal Attention,
FG24(1-5)
IEEE DOI 2408
Measurement, Vocabulary, Lips, Face recognition, Contrastive learning, Speech recognition, Gesture recognition BibRef

Djilali, Y.A.D.[Yasser Abdelaziz Dahou], Narayan, S.[Sanath], Le Bihan, E.[Eustache], Boussaid, H.[Haithem], Almazrouei, E.[Ebtesam], Debbah, M.[Merouane],
Do VSR Models Generalize Beyond LRS3?,
WACV24(6621-6630)
IEEE DOI 2404
Lip Reading Sentences-3. visual speech recognition. Visualization, Analytical models, Error analysis, Lips, Computational modeling, Speech recognition, Algorithms, Video recognition and understanding BibRef

Arakane, T.[Taiki], Kai, C.[Chihiro], Saitoh, T.[Takeshi],
Can you read lips with a masked face?,
MVA23(1-5)
DOI Link 2403
Deep learning, Visualization, Image recognition, Pandemics, Face recognition, Machine vision, Lips BibRef

Kim, M.[Minsu], Yeo, J.H.[Jeong Hun], Choi, J.[Jeongsoo], Ro, Y.M.[Yong Man],
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge,
ICCV23(15313-15325)
IEEE DOI 2401
BibRef

Cascone, L.[Lucia], Nappi, M.[Michele], Narducci, F.[Fabio],
Language Identification as Improvement for Lip-Based Biometric Visual Systems,
ICIP23(1570-1574)
IEEE DOI 2312
BibRef

Hu, Z.K.[Zhi-Kai], Cheung, Y.M.[Yiu-Ming], Li, M.K.[Meng-Ke], Lan, W.C.[Wei-Chao],
Few-Shot Lip-Password Based Speaker Verification,
ICIP23(1960-1964)
IEEE DOI 2312
BibRef

Liu, X.[Xubo], Lakomkin, E.[Egor], Vougioukas, K.[Konstantinos], Ma, P.C.[Ping-Chuan], Chen, H.L.[Hong-Lie], Xie, R.M.[Rui-Ming], Doulaty, M.[Morrie], Moritz, N.[Niko], Kolar, J.[Jachym], Petridis, S.[Stavros], Pantic, M.[Maja], Fuegen, C.[Christian],
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision,
CVPR23(18806-18815)
IEEE DOI 2309
BibRef

Bulzomi, H.[Hugo], Schweiker, M.[Marcel], Gruel, A.[Amélie], Martinet, J.[Jean],
End-to-end Neuromorphic Lip Reading,
EventVision23(4101-4108)
IEEE DOI 2309
BibRef

Wang, J.[Jiadong], Qian, X.Y.[Xin-Yuan], Zhang, M.[Malu], Tan, R.T.[Robby T.], Li, H.Z.[Hai-Zhou],
Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert,
CVPR23(14653-14662)
IEEE DOI 2309
BibRef

Vajpayee, A.[Avijit], Zhang, Z.K.[Zhi-Kang], Jain, A.[Abhinav], Bhat, V.[Vimal],
A Simple and Efficient method for Dubbed Audio Sync Detection using Compressive Sensing,
VAQuality23(565-572)
IEEE DOI 2302
Lips, Conferences, Memory management, Media, Streaming media, Synchronization BibRef

Kim, M.[Minsu], Kim, H.[Hyunjun], Ro, Y.M.[Yong Man],
Speaker-Adaptive Lip Reading with User-Dependent Padding,
ECCV22(XXXVI:576-593).
Springer DOI 2211
BibRef

Ma, X.H.[Xing-Hua], Wang, S.L.[Shi-Lin],
Chinese Mandarin Lipreading using Cascaded Transformers with Multiple Intermediate Representations,
ICIP22(2561-2565)
IEEE DOI 2211
Visualization, Correlation, Shape, Databases, Lips, Information processing, Lipreading, Chinese Mandarin, Viseme, Cross-level attention BibRef

Tan, G.[Ganchao], Wang, Y.[Yang], Han, H.[Han], Cao, Y.[Yang], Wu, F.[Feng], Zha, Z.J.[Zheng-Jun],
Multi-grained Spatio-Temporal Features Perceived Network for Event-based Lip-Reading,
CVPR22(20062-20071)
IEEE DOI 2210
Visualization, Power demand, Lips, Network architecture, Cameras, Action and event recognition, Vision applications and systems BibRef

Prajwal, K.R., Afouras, T.[Triantafyllos], Zisserman, A.[Andrew],
Sub-word Level Lip Reading With Visual Attention,
CVPR22(5152-5162)
IEEE DOI 2210
Voice activity detection, Training, Visualization, Lips, Computational modeling, Benchmark testing, Data models, Vision + language BibRef

Zhang, J.[Jie], Fisher, R.B.[Robert B.],
3D Lip Event Detection via Interframe Motion Divergence at Multiple Temporal Resolutions,
3DV21(423-431)
IEEE DOI 2201
Solid modeling, Speech analysis, Event detection, Lips, Motion segmentation, Dynamics, 3D lip, activity detection, behaviometrics BibRef

Zhang, Q.[Qun], Wang, S.L.[Shi-Lin], Chen, G.L.[Gong-Liang],
Speaker-Independent Lipreading By Disentangled Representation Learning,
ICIP21(2493-2497)
IEEE DOI 2201
Deep learning, Training, Visualization, Lips, Speech recognition, Feature extraction, Image sequences, Lipreading, Deep Neural Network BibRef

Lahiri, A.[Avisek], Kwatra, V.[Vivek], Frueh, C.[Christian], Lewis, J.[John], Bregler, C.[Chris],
LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization,
CVPR21(2754-2763)
IEEE DOI 2111
Training, Measurement, Visualization, Shape, Lighting, Skin BibRef

Ren, S.[Sucheng], Du, Y.[Yong], Lv, J.M.[Jian-Ming], Han, G.Q.[Guo-Qiang], He, S.F.[Sheng-Feng],
Learning from the Master: Distilling Cross-modal Advanced Knowledge for Lip Reading,
CVPR21(13320-13328)
IEEE DOI 2111
Knowledge engineering, Fuses, Lips, Computational modeling, Education, Speech recognition BibRef

Shirakata, T.[Tatsuya], Saitoh, T.[Takeshi],
Japanese Sentence Dataset for Lip- reading,
MVA21(1-5)
DOI Link 2109
Target recognition, Databases, Lips, Speech recognition, Task analysis BibRef

Ma, P.C.[Ping-Chuan], Wang, Y.J.[Yu-Jiang], Shen, J.[Jie], Petridis, S.[Stavros], Pantic, M.[Maja],
Lip-reading with Densely Connected Temporal Convolutional Networks,
WACV21(2856-2865)
IEEE DOI 2106
Convolution, Lips, Task analysis BibRef

Shahid, M.[Muhammad], Beyan, C.[Cigdem], Murino, V.[Vittorio],
S-VVAD: Visual Voice Activity Detection by Motion Segmentation,
WACV21(2331-2340)
IEEE DOI 2106
Voice activity detection, Visualization, Privacy, Image segmentation, Motion segmentation, Lips BibRef

Wang, J.R.[Jian-Rong], Wu, T.[Tong], Wang, S.Y.[Shan-Yu], Yu, M.[Mei], Fang, Q.[Qiang], Zhang, J.[Ju], Liu, L.[Li],
Three-Dimensional Lip Motion Network for Text-Independent Speaker Recognition,
ICPR21(3380-3387)
IEEE DOI 2105
Convolutional codes, Solid modeling, Image recognition, Lips, Face recognition BibRef

Tzirakis, P., Papaioannou, A., Lattas, A., Tarasiou, M., Schuller, B., Zafeiriou, S.,
Synthesising 3D Facial Motion from 'In-the-Wild' Speech,
FG20(265-272)
IEEE DOI 2102
Shape, Solid modeling, Faces, Lips, Facial animation, Videos BibRef

Luo, M., Yang, S., Shan, S., Chen, X.,
Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence Lip-Reading,
FG20(273-280)
IEEE DOI 2102
Decoding, Measurement, Image sequences, Computational modeling, Task analysis, Optimization, Error analysis, lip reading, pseudo convolutional BibRef

Zhang, Y., Yang, S., Xiao, J., Shan, S., Chen, X.,
Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition,
FG20(356-363)
IEEE DOI 2102
Face recognition, Lips, Speech recognition, Mouth, Visualization, Task analysis, Agriculture, visual speech recognition BibRef

Xiao, J., Yang, S., Zhang, Y., Shan, S., Chen, X.,
Deformation Flow Based Two-Stream Network for Lip Reading,
FG20(364-370)
IEEE DOI 2102
Strain, Lips, Face recognition, Task analysis, Training, Decoding, Gray-scale, lip reading, visual speech recognition BibRef

Zhao, X., Yang, S., Shan, S., Chen, X.,
Mutual Information Maximization for Effective Lip Reading,
FG20(420-427)
IEEE DOI 2102
Lips, Hidden Markov models, Mutual information, Task analysis, Visualization, Feature extraction, Deep learning, lip reading, deep learning BibRef

Ma, J., Wang, S., Zhang, A., Liew, A.W.C.,
Feature Extraction For Visual Speaker Authentication Against Computer-Generated Video Attacks,
ICIP20(1326-1330)
IEEE DOI 2011
Visual speaker authentication, Lip feature extraction, Computer-generated video, Deep neural network BibRef

Yang, C., Wang, S., Zhang, X., Zhu, Y.,
Speaker-Independent Lipreading With Limited Data,
ICIP20(2181-2185)
IEEE DOI 2011
Lips, Feature extraction, Training, Speech recognition, Visualization, Hidden Markov models, Neural networks, Lipreading, Multi-Task Learning BibRef

Prajwal, K.R., Mukhopadhyay, R., Namboodiri, V.P., Jawahar, C.V.,
Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis,
CVPR20(13793-13802)
IEEE DOI 2008
Lips, Vocabulary, Videos, Speech synthesis, Face, Natural languages, Task analysis BibRef

Zhang, X., Cheng, F., Shilin, W.,
Spatio-Temporal Fusion Based Convolutional Sequence Learning for Lip Reading,
ICCV19(713-722)
IEEE DOI 2004
convolutional neural nets, feature extraction, image segmentation, learning (artificial intelligence), Decoding BibRef

Ivanko, D., Ryumin, D., Karpov, A.,
Automatic Lip-reading of Hearing Impaired People,
PTVSBB19(97-101).
DOI Link 1912
BibRef

Sharma, R., Somandepalli, K., Narayanan, S.,
Toward Visual Voice Activity Detection for Unconstrained Videos,
ICIP19(2991-2995)
IEEE DOI 1910
Cross-modal learning, visualization, localization, Visual-VAD BibRef

Mattos, A.B.[Andrea Britto], Borges Oliveira, D.A.[Dario Augusto], da Silva Morais, E.[Edmilson],
Towards View-Independent Viseme Recognition Based on CNNS and Synthetic Data,
ICIP18(589-593)
IEEE DOI 1809
Speech recognition, Training, Mouth, Task analysis, Solid modeling, Hidden Markov models, Machine learning BibRef

Spyridonos, P., Saint, A.F., Likas, A., Gaitanis, G., Bassukas, I.,
Multi-Threshold LIP Contour Detection,
ICIP18(1912-1916)
IEEE DOI 1809
Lips, Skin, Image color analysis, Hair, Robustness, Image segmentation, Lighting, Lip detection, Lip contour, Multi-threshold, threshold, selection BibRef

Sterpu, G., Saam, C., Harte, N.,
Can DNNs Learn to Lipread Full Sentences?,
ICIP18(16-20)
IEEE DOI 1809
Hidden Markov models, Visualization, Decoding, Discrete cosine transforms, Training, TCD-TIMIT BibRef

Xu, K., Li, D., Cassimatis, N., Wang, X.,
LCANet: End-to-End Lipreading with Cascaded Attention-CTC,
FG18(548-555)
IEEE DOI 1806
Decoding, Feature extraction, Hidden Markov models, Neural networks, Road transportation, Speech recognition, highway network BibRef

Sadoughi, N., Busso, C.,
Expressive Speech-Driven Lip Movements with Multitask Learning,
FG18(409-415)
IEEE DOI 1806
Emotion recognition, Face, Feature extraction, Hidden Markov models, Lips, Task analysis, Training, multitask learning BibRef

Ryumin, D., Karpov, A.A.,
Parametric Representation of the Speaker's Lips for Multimodal Sign Language And Speech Recognition,
PTVSBB17(155-161).
DOI Link 1805
BibRef

Han, H., Kang, S., Yoo, C.D.,
Multi-view visual speech recognition based on multi task learning,
ICIP17(3983-3987)
IEEE DOI 1803
Lips, Speech, Speech recognition, Task analysis, Training, Visualization, Visual Speech Recognition, lipreading, multi task, pose invariant BibRef

Rahmani, M.H., Almasganj, F.,
Lip-reading via a DNN-HMM hybrid system using combination of the image-based and model-based features,
IPRIA17(195-199)
IEEE DOI 1712
Gaussian processes, audio signal processing, computational geometry, feature extraction, hidden Markov models, lip-reading BibRef

Ra, R., Aihara, R., Takiguchi, T., Ariki, Y.,
Visual-to-speech conversion based on maximum likelihood estimation,
MVA17(518-521)
DOI Link 1708
Feature extraction, Lips, Maximum likelihood estimation, Speech, Training, Visualization BibRef

Iwasaki, M., Kubokawa, M., Saitoh, T.,
Two features combination with gated recurrent unit for visual speech recognition,
MVA17(326-329)
DOI Link 1708
Feature extraction, Hidden Markov models, Lips, Logic gates, Mouth, Speech recognition, Visualization BibRef

Wielgat, R., Mik, L., Lorenc, A., Truchan, A., Szostek, M.,
Choice of optimal measurement conditions for calculating the correlation between EMA sensor and video marker position coordinates in electromagnetic articulography,
WSSIP17(1-5)
IEEE DOI 1707
Cameras, Correlation, Lips, Magnetic heads, Speech, Tongue, correlation, electormagnetic, articulography BibRef

Fernandez-Lopez, A., Martinez, O., Sukno, F.M.[Federico M.],
Towards Estimating the Upper Bound of Visual-Speech Recognition: The Visual Lip-Reading Feasibility Database,
FG17(208-215)
IEEE DOI 1707
Context, Decoding, Speech, Speech recognition, Visual databases, Visualization BibRef

Špetlík, R.[Radim], Cech, J.[Jan], Franc, V.[Vojtech], Matas, J.G.[Jirí G.],
Visual Language Identification from Facial Landmarks,
SCIA17(II: 389-400).
Springer DOI 1706
BibRef

Zimmermann, M.[Marina], Ghazi, M.M.[Mostafa Mehdipour], Ekenel, H.K.[Hazim Kemal], Thiran, J.P.[Jean-Philippe],
Visual Speech Recognition Using PCA Networks and LSTMs in a Tandem GMM-HMM System,
LipRead16(II: 264-276).
Springer DOI 1704
BibRef

Lee, D.[Daehyun], Lee, J.M.[Jong-Min], Kim, K.E.[Kee-Eung],
Multi-view Automatic Lip-Reading Using Neural Network,
LipRead16(II: 290-302).
Springer DOI 1704
BibRef

Watanabe, T.[Takuya], Katsurada, K.[Kouichi], Kanazawa, Y.S.[Yasu-Shi],
Lip Reading from Multi View Facial Images Using 3D-AAM,
LipRead16(II: 303-316).
Springer DOI 1704
BibRef

Shi, X.X., Wang, S.L., Lai, J.Y.,
Visual speaker authentication by ensemble learning over static and dynamic lip details,
ICIP16(3942-3946)
IEEE DOI 1610
Adaptation models BibRef

Aung, Z.H.[Zaw Htet], Ritthipravat, P.[Panrasee],
Robust Visual Voice Activity Detection Using Long Short-Term Memory Recurrent Neural Network,
PSIVT15(380-391).
Springer DOI 1602
BibRef

Patrona, F.[Foteini], Iosifidis, A.[Alexandros], Tefas, A.[Anastasios], Nikolaidis, N.[Nikolaos], Pitas, I.[Ioannis],
Visual voice activity detection based on spatiotemporal information and bag of words,
ICIP15(2334-2338)
IEEE DOI 1512
Bag of Words model BibRef

Liu, H.[Hong], Zhang, X.W.[Xue-Wu], Wu, P.P.[Ping-Ping],
Two-Level Multi-Task Metric Learning with Application to Multi-Classification,
ICIP15(2756-2760)
IEEE DOI 1512
Face Identification; Lipreading; Metric Learning; Multi-task Learning BibRef

Liu, H.[Hong], Zhang, X.W.[Xue-Wu], Wu, P.P.[Ping-Ping],
Regression based landmark estimation and multi-feature fusion for visual speech recognition,
ICIP15(808-812)
IEEE DOI 1512
Bayes Combination BibRef

Anina, I., Zhou, Z.H.[Zi-Heng], Zhao, G.Y.[Guo-Ying], Pietikainen, M.,
OuluVS2: A multi-view audiovisual database for non-rigid mouth motion analysis,
FG15(1-5)
IEEE DOI 1508
cameras BibRef

Antonakos, E., Roussos, A., Zafeiriou, S.P.[Stefanos P.],
A survey on mouth modeling and analysis for Sign Language recognition,
FG15(1-7)
IEEE DOI 1508
Internet BibRef

Shiraishi, J., Saitoh, T.,
Optical flow based lip reading using non rectangular ROI and head motion reduction,
FG15(1-6)
IEEE DOI 1508
face recognition BibRef

Ichino, M.[Masatsugu], Yamazaki, Y.S.[Yasu-Shi], Jian-Gang, W.[Wang], Yun, Y.W.[Yau Wei],
Text independent speaker gender recognition using lip movement,
ICARCV12(176-181).
IEEE DOI 1304
BibRef

Bear, H.L.[Helen L.], Harvey, R.W.[Richard W.], Theobald, B.J.[Barry-John], Lan, Y.X.[Yu-Xuan],
Resolution limits on visual speech recognition,
ICIP14(1371-1375)
IEEE DOI 1502
Accuracy BibRef
And:
Which Phoneme-to-Viseme Maps Best Improve Visual-Only Computer Lip-Reading?,
ISVC14(II: 230-239).
Springer DOI 1501
BibRef

Sad, G.D.[Gonzalo D.], Reyes, F.[Facundo], Alvarez, J.[Julián],
Asymmetric 3D face model for Speech Language Pathologist applications,
FG21(01-08)
IEEE DOI 2303
Solid modeling, Tracking, Face recognition, Psychology, Medical services BibRef

Sad, G.D.[Gonzalo D.], Terissi, L.D.[Lucas Daniel], Gómez, J.C.[Juan Carlos],
Decision Level Fusion for Audio-Visual Speech Recognition in Noisy Conditions,
CIARP16(360-367).
Springer DOI 1703
BibRef

Sad, G.D.[Gonzalo D.], Terissi, L.D.[Lucas D.], Gómez, J.C.[Juan C.],
Class Confusability Reduction in Audio-Visual Speech Recognition Using Random Forests,
CIARP17(584-592).
Springer DOI 1802
BibRef

Terissi, L.D.[Lucas Daniel], Sad, G.D.[Gonzalo D.], Gómez, J.C.[Juan Carlos], Parodi, M.[Marianela],
Audio-Visual Speech Recognition Scheme Based on Wavelets and Random Forests Classification,
CIARP15(567-574).
Springer DOI 1511
BibRef
Earlier: A1, A4, A3, Only:
Lip Reading Using Wavelet-Based Features and Random Forests Classification,
ICPR14(791-796)
IEEE DOI 1412
Hidden Markov models BibRef

Rekik, A.[Ahmed], Ben-Hamadou, A.[Achraf], Mahdi, W.[Walid],
A New Visual Speech Recognition Approach for RGB-D Cameras,
ICIAR14(II: 21-28).
Springer DOI 1410
BibRef

Kawasaki, T., Ukai, N., Takumi, S., Tamura, S., Hayamizu, S.,
Improvement of Lip Reading Performance in Real Environments Using Speaker and Environmental Adaptation,
ACPR13(346-350)
IEEE DOI 1408
image recognition BibRef

Agarwal, S., Mukherjee, D.P.,
Lip tracking under varying expressions utilizing domain knowledge,
NCVPRIPG13(1-4)
IEEE DOI 1408
annealing BibRef

Pei, Y.R.[Yu-Ru], Kim, T.K.[Tae-Kyun], Zha, H.B.[Hong-Bin],
Unsupervised Random Forest Manifold Alignment for Lipreading,
ICCV13(129-136)
IEEE DOI 1403
Lipreading; Manifold Alignment; RFMA; Unsupervised Random Forest BibRef

Pei, Y.R.[Yu-Ru], Zha, H.B.[Hong-Bin],
Visyllable-specific facial transition motion embedding and extraction,
ICIP09(1809-1812).
IEEE DOI 0911
BibRef

Shi, F.H.[Fu-Hao], Pei, Y.R.[Yu-Ru], Zha, H.B.[Hong-Bin],
Interactive modeling of 3D facial expressions with hierarchical Gaussian process latent variable models,
ICIP09(2477-2480).
IEEE DOI 0911
BibRef

Lopes, C.B.O., Goncalves, A.L., Scharcanski, J., Jung, C.R.,
Color-based lips extraction applied to voice activity detection,
ICIP11(1057-1060).
IEEE DOI 1201
BibRef

Prajapati, G.I.[Ghanshyam I.], Patel, N.M.[Narendra M.],
DToLIP: Detection and tracking of lip contours from human facial images using Snake's method,
ICIIP11(1-6).
IEEE DOI 1112
BibRef

Koller, O.[Oscar], Ney, H.[Hermann], Bowden, R.[Richard],
Read My Lips: Continuous Signer Independent Weakly Supervised Viseme Recognition,
ECCV14(I: 281-296).
Springer DOI 1408

See also Deep Sign: Hybrid CNN-HMM for Continuous Sign Language Recognition. BibRef

Ong, E.J.[Eng-Jon], Bowden, R.[Richard],
Learning temporal signatures for Lip Reading,
ARTEMIS11(958-965).
IEEE DOI 1201
BibRef
And:
Learning Sequential Patterns for Lipreading,
BMVC11(xx-yy).
HTML Version. 1110

See also Learning multi-kernel distance functions using relative comparisons. BibRef

Sheerman-Chase, T.[Tim], Ong, E.J.[Eng-Jon], Bowden, R.[Richard],
Cultural factors in the regression of non-verbal communication perception,
HICV11(1242-1249).
IEEE DOI 1201
BibRef

Pass, A.[Adrian], Zhang, J.G.[Jian-Guo], Stewart, D.[Darryl],
AN investigation into features for multi-view lipreading,
ICIP10(2417-2420).
IEEE DOI 1009
BibRef

Li, K.L.[Kun-Lun], Wang, M.[Miao], Liu, M.[Ming], Zhao, A.[Aimin],
Improved level set method for lip contour detection,
ICIP10(673-676).
IEEE DOI 1009
BibRef

Nascimento, J.C.[Jacinto C.], Silva, J.S.[Jorge S.],
Lip contour tracking using multiple dynamic models on a manifold,
ICIP11(2321-2324).
IEEE DOI 1201
BibRef

Carneiro, G.[Gustavo], Nascimento, J.C.[Jacinto C.],
The Fusion of Deep Learning Architectures and Particle Filtering Applied to Lip Tracking,
ICPR10(2065-2068).
IEEE DOI 1008
BibRef
Earlier: A2, A1:
Efficient search methods and deep belief networks with particle filtering for non-rigid tracking: Application to lip tracking,
ICIP10(3817-3820).
IEEE DOI 1009

See also Combining Multiple Dynamic Models and Deep Learning Architectures for Tracking the Left Ventricle Endocardium in Ultrasound Data. BibRef

Pass, A.[Adrian], Ming, J.[Ji], Hanna, P.[Philip], Zhang, J.G.[Jian-Guo], Stewart, D.[Darryl],
Inter-frame contextual modelling for visual speech recognition,
ICIP10(93-96).
IEEE DOI 1009
BibRef

Saitoh, T.[Takeshi], Kato, T.[Tomoya], Konishi, R.[Ryosuke],
A Novel Transducer: From Lip Motion to Voice Message,
MVA09(410-).
PDF File. 0905
BibRef

Liu, X.[Xin], Cheung, Y.M.[Yiu-Ming], Li, M.[Meng], Liu, H.L.[Hai-Lin],
A Lip Contour Extraction Method Using Localized Active Contour Model with Automatic Parameter Selection,
ICPR10(4332-4335).
IEEE DOI 1008
BibRef

Heracleous, P.[Panikos], Hagita, N.[Norihiro], Beautemps, D.[Denis],
Gestures and Lip Shape Integration for Cued Speech Recognition,
ICPR10(2238-2241).
IEEE DOI 1008
BibRef

Estellers, V., Gurban, M., Thiran, J.P.,
Selecting relevant visual features for speechreading,
ICIP09(1433-1436).
IEEE DOI 0911
BibRef

Gastelum, A., Krueger, M., Marquez, J., Gimel'farb, G.L., Delmas, P.,
Automatic 3D lip shape segmentation and modelling,
IVCNZ08(1-6).
IEEE DOI 0811
BibRef

Saitoh, T.[Takeshi], Morishita, K.[Kazutoshi], Konishi, R.[Ryosuke],
Analysis of efficient lip reading method for various languages,
ICPR08(1-4).
IEEE DOI 0812
BibRef

Saitoh, T.[Takeshi], Konishi, R.[Ryosuke],
Profile Lip Reading for Vowel and Word Recognition,
ICPR10(1356-1359).
IEEE DOI 1008
BibRef
Earlier:
Lip Reading Based on Sampled Active Contour Model,
ICIAR05(507-515).
Springer DOI 0509
BibRef

Fanelli, G.[Gabriele], Gall, J.[Jürgen], Van Gool, L.J.[Luc J.],
Hough transform-based mouth localization for audio-visual speech recognition,
BMVC09(xx-yy).
PDF File. 0909
BibRef

Terry, L.H.[Louis H.], Shiell, D.J.[Derek J.], Katsaggelos, A.K.[Aggelos K.],
Vector quantization with memory and multi-labeling for isolated video-only automatic speech recognition,
ICIP08(1320-1323).
IEEE DOI 0810
BibRef

Wu, G.Y.[Guan-Yong], Zhu, J.[Jie],
Modular BDPCA based visual feature representation for lip-reading,
ICIP08(1328-1331).
IEEE DOI 0810
BibRef

de la Cuesta, A.G., Zhang, J.G.[Jian-Guo], Miller, P.,
Biometric Identification Using Motion History Images of a Speaker's Lip Movements,
IMVIP08(83-88).
IEEE DOI 0809
BibRef

Pachoud, S.[Samuel], Gong, S.G.[Shao-Gang], Cavallaro, A.[Andrea],
Macro-cuboïd based probabilistic matching for lip-reading digits,
CVPR08(1-8).
IEEE DOI 0806
BibRef

Kumar, K.[Kshitiz], Chen, T.H.[Tsu-Han], and Stern, R.M.[Richard M.],
Profile View Lip Reading,
ICASSP07(IV: 429-432).
PDF File. Intro to profile view lip reading, compares to frontal, and combines with audio for comprenhensive system. BibRef 0700

Faraj, M.I.[Maycel Isaac], Bigun, J.[Josef],
Speaker and Digit Recognition by Audio-Visual Lip Biometrics,
ICB07(1016-1024).
Springer DOI 0708
BibRef

Faraj, M.I.[Maycel Isaac], Bigun, J.[Josef],
Lip Biometrics for Digit Recognition,
CAIP07(360-365).
Springer DOI 0708
BibRef
Earlier:
Motion Features from Lip Movement for Person Authentication,
ICPR06(III: 1059-1062).
IEEE DOI 0609
BibRef
And:
Person Verification by Lip-Motion,
Biometrics06(37).
IEEE DOI 0609
BibRef

Fu, Y.[Yun], Zhou, X.[Xi], Liu, M.[Ming], Hasegawa-Johnson, M.[Mark], Huang, T.S.[Thomas S.],
Lipreading by Locality Discriminant Graph,
ICIP07(III: 325-328).
IEEE DOI 0709
BibRef

Gómez, J.B.[Juan B.], Hernández, J.E.[Jorge E.], Prieto, F.[Flavio], Redarce, T.[Tanneguy],
Real-Time Robot Manipulation Using Mouth Gestures in Facial Video Sequences,
BVAI07(224-233).
Springer DOI 0710
BibRef

Yu, D.H.[Da-Hai], Ghita, O.[Ovidiu], Sutherland, A.[Alistair], Whelan, P.F.[Paul F.],
A Novel Visual Speech Representation and HMM Classification for Visual Speech Recognition,
PSIVT09(398-409).
Springer DOI 0901
BibRef
Earlier:
A New Manifold Representation for Visual Speech Recognition,
IMVIP07(210-210).
IEEE DOI 0709
BibRef
And: CAIP07(374-382).
Springer DOI 0708
BibRef

Kricke, R.[Ralph], Gernoth, T.[Thorsten], Grigat, R.R.[Rolf-Rainer],
Local binary patterns for lip motion analysis,
ICIP08(1472-1475).
IEEE DOI 0810
BibRef

Shafait, F., Kricke, R., Shdaifat, I., Grigat, R.R.,
Real Time Lip Motion Analysis for a Person Authentication System using Near Infrared Illumination,
ICIP06(1957-1960).
IEEE DOI 0610
BibRef

Kumatani, K.[Kenichi], Stiefelhagen, R.[Rainer],
Mouth Region Localization Method Based on Gaussian Mixture Model,
IWICPAS06(115-124).
Springer DOI 0608
BibRef

Ichino, M., Sakano, H., Komatsu, N.,
Multimodal Biometrics of Lip Movements and Voice using Kernel Fisher Discriminant Analysis,
ICARCV06(1-6).
IEEE DOI 0612
BibRef

Tsunekawa, T.[Takuya], Hotta, K.[Kazuhiro], Takahashi, H.[Haruhisa],
Lipreading Using Recurrent Neural Prediction Model,
ICIAR04(II: 405-412).
Springer DOI 0409
BibRef

Yin, P.[Pei], Essa, I.A., Rehg, J.M.,
Asymmetrically boosted HMM for speech reading,
CVPR04(II: 755-761).
IEEE DOI 0408
BibRef
Earlier:
Boosted audio-visual HMM for speech reading,
AMFG03(68-73).
IEEE DOI 0311
BibRef

Yao, H.X.[Hong-Xun], Gao, W.[Wen], Shan, W.[Wei], Xu, M.H.[Ming-Hui],
Visual Features Extracting and Selecting for Lipreading,
AVBPA03(251-259).
Springer DOI 0310
BibRef

Chindaro, S.[Samuel], Deravi, F.[Farzin],
Directional Properties of Colour Co-occurrence Features for Lip Location and Segmentation,
AVBPA01(84).
Springer DOI 0310
BibRef

Auckenthaler, R., Brand, J.D., Mason, J.S., Deravi, F., Chibelushi, C.C.,
Lip Signatures for Automatic Person Recognition,
AVBPA99(xx-yy). BibRef 9900

Brand, J.D., Mason, J.S., Colomb, S.[Sylvain],
Visual Speech: A Physiological or Behavioural Biometric?,
AVBPA01(157).
Springer DOI 0310
BibRef

Roach, M.J., Brand, J.D., Mason, J.S.D.,
Acoustic and Facial Features for Speaker Recognition,
ICPR00(Vol III: 258-261).
IEEE DOI
IEEE DOI 0009
BibRef

Lucey, S.[Simon],
An Evaluation of Visual Speech Features for the Tasks of Speech and Speaker Recognition,
AVBPA03(260-267).
Springer DOI 0310
BibRef

Kalberer, G.A.[Gregor A.], Müller, P.[Pascal], Van Gool, L.J.[Luc J.],
Biological Motion of Speech,
BMCV02(199 ff.).
Springer DOI 0303
People are sensitive to lip motion in speech. Analyze detailed motion of the face. BibRef

Delmas, P., Eveno, N., Lievin, M.,
Towards robust lip tracking,
ICPR02(II: 528-531).
IEEE DOI 0211
BibRef

Uda, K., Tagawa, N., Minagawa, A., Moriya, T.,
Effectiveness evaluation of word characteristics obtained from 3D image information for lipreading,
CIAP01(296-301).
IEEE DOI 0210
BibRef

Murakami, H., Baba, H., Noma, T.,
MLSLib: A Lip Sync Library for Multi Agents and Languages,
WSCG02(295).
PDF File.
HTML Version. 0209
BibRef

Seguier, R., Cladel, N., Foucher, C., Mercier, D.,
Lipreading with Spiking Neurons: One Pass Learning,
WSCG02(397).
WWW Link.
HTML Version. 0209
BibRef

Mujal, M., Kirlin, R.L.,
Compression enhancement of video motion of mouth region using joint audio and video coding,
Southwest02(82-86).
IEEE Top Reference. 0208
BibRef

Arya, A., Hamidzadeh, B.,
Talking Face: Using Facial Feature Detection and Image Transformations for Visual Speech,
ICIP01(III: 943-946).
IEEE DOI 0108
BibRef

Potamianos, G., Neti, C.,
Improved ROI and Within Frame Discriminant Features for Lipreading,
ICIP01(III: 250-253).
IEEE DOI 0108
BibRef

Kshirsagar, S.[Sumedha], Magnenat-Thalmann, N.[Nadia],
Lip Synchronization Using Linear Predictive Analysis,
ICME00(TP8). 0007
BibRef

Caplier, A., Delmas, P., Lam, D.,
Robust Initialisation for Lips Edges Detection,
SCIA99(Image Analysis). BibRef 9900

Vanegas, O.[Oscar], Tokuda, K.[Keiichi], Kitamura, T.[Tadashi],
Location Normalization of HMM-Based Lip Reading: Experiments for the M2VTS Database,
ICIP99(II:343-347).
IEEE DOI BibRef 9900

Gao, L.[Lei], Mukaigawa, Y., Ohta, Y.,
Synthesis of Facial Images with Lip Motion from Several Real Views,
AFGR98(181-186).
IEEE DOI BibRef 9800

Kumar, V.P.[Vinay P.], Oren, M.[Mike], Osuna, E.[Edgar], Poggio, T.[Tomaso],
Real Time Analysis and Tracking of Mouths for Expression Recognition,
DARPA98(151-155). BibRef 9800

Kumar, V.P.[Vinay P.], Poggio, T.[Tomaso],
Recognizing Expressions by Direct Estimation of the Parameters of a Pixel Morphable Model,
BMCV02(519 ff.).
Springer DOI 0303
BibRef

Kumar, V.P.[Vinay P.], Poggio, T.[Tomaso],
Learning-Based Approach to Estimation of Morphable Model Parameters,
MIT AI Memo-1696, September, 2000. This paper describes a method for estimating the parameters of a linear morphable model (LMM) that models mouth images.
WWW Link. 0105
BibRef

Kumar, V.P.[Vinay P.],
Towards Man-Machine Interfaces: Combining Top-down Constraints with Bottom-up Learning in Facial Analysis,
MIT AI-TR-2002-008, September 2002.
WWW Link. BibRef 0209

Kumar, V.P.[Vinay P.], Poggio, T.[Tomaso],
Learning-Based Approach to Real Time Tracking and Analysis of Faces,
AFGR00(96-101).
IEEE DOI 0003
BibRef

Yu, K., Jiang, X., Bunke, H.,
Automatic Lipreading of Sentences Combining Hidden Markov Models and Grammars,
AVBPA99(xx-yy). BibRef 9900

Baig, A.R., Seguier, R., Vaucher, G.,
Image sequence analysis using a spatio-temporal coding for automatic lipreading,
CIAP99(544-549).
IEEE DOI 9909
BibRef

Sridharan, S.[Sridha], Wark, T.J.[Timothy J.], Chandran, V.,
An Approach to Statistical Lip Modelling for Speaker Identification via Chromatic Feature Extraction,
ICPR98(Vol I: 123-125).
IEEE DOI 9808
BibRef

Wark, T.J., Sridharan, S., Chandran, V.,
Robust Speaker Verification via Asynchronous Fusion of Speech and Lip Information,
AVBPA99(xx-yy). BibRef 9900

Potamianos, G., Graf, H.P., Cosatto, E.,
An image transform approach for HMM based automatic lipreading,
ICIP98(III: 173-177).
IEEE DOI 9810
BibRef

Jung, J.Y.[Jae Y.], Kim, M.H.[Moon H.],
Motion Estimation of Lips in Pronouncing Korean Vowels Based on Fuzzy Constraint Line Clustering,
ICIP96(III: 507-510).
IEEE DOI BibRef 9600

Bregler, C.[Christopher], and Omohundro, S.M.[Stephen M.],
Learning Visual Models for Lipreading,
MBR97(Chapter 13), Berkeley, and NEC. BibRef 9700

Bregler, C.[Christopher], Covell, M.[Michele], and Slaney, M.[Malcolm],
Video Rewrite: Driving Visual Speech with Audio,
SIGGraph-97(xx-yy).
WWW Link. BibRef 9700

Bregler, C.[Christoph], Omohundro, S.[Stephen],
Nonlinear Manifold Learning for Visual Speech Recognition,
ICCV95(494-499).
IEEE DOI BibRef 9500

Stork, D.G., Hennecke, M.E.,
Speechreading: an overview of image processing, feature extraction, sensory integration and pattern recognition techniques,
AFGR96(xvi-xxvi).
IEEE DOI 9610
BibRef

Chapter on Face Recognition, Human Pose, Detection, Tracking, Gesture Recognition, Fingerprints, Biometrics continues in
Combined Audio Visual Recognition and Analysis .

Last update:Mar 28, 2026 at 17:09:41