26.1.12 Speech Recognition, Speech Analysis, Signal Processing

Chapter Contents (Back)
These are mostly included since they are in the full ToC for journals that are taken completely. There is no attempt to have anywhere near complete speech recognition coverage. Speech.
See also Speech Recognition, Neural Networks, CNN.
See also Emotion Recognition, from Other Than Faces.

Dragon Voice,
2005 Speech Recognition
WWW Link. Vendor, Speech Recognition. Developed from the original Dragon speech system.

Hanson, A.R., Riseman, E.M., Fisher, E.,
Context in word recognition,
PR(8), No. 1, January 1976, pp. 35-45.
Elsevier DOI 0309
BibRef

de Mori, R., Laface, P., Makhonine, V.A., Mezzalama, M.,
A syntactic procedure for the recognition of glottal pulses in continuous speech,
PR(9), No. 4, 1977, pp. 181-189.
Elsevier DOI 0309
BibRef

Maroy, J.P., Berthod, M.,
Natural language understanding by a robot: A pattern recognition problem,
PR(10), No. 2, 1978, pp. 63-71.
Elsevier DOI 0309
BibRef

Pal, S.K., Datta, A.K., Majumder, D.D.[D. Dutta],
A self-supervised vowel recognition system,
PR(12), No. 1, 1980, pp. 27-34.
Elsevier DOI 0309
BibRef

Pathak, A.[Amita], Pal, S.K.[Sankar K.],
On the convergence of 'A self-supervised vowel recognition system',
PR(20), No. 2, 1987, pp. 237-244.
Elsevier DOI 0309
BibRef

de Mori, R.[Renato], Giordano, G.[Giovanna],
Algorithms for syllabic hypothesization in continuous speech,
PR(14), No. 1-6, 1981, pp. 245-260.
Elsevier DOI 0309
BibRef

Tanaka, E.[Eiichi], Toyama, T.[Takanori], Kawai, S.[Sachiko],
High speed error correction of phoneme sequences,
PR(19), No. 5, 1986, pp. 407-412.
Elsevier DOI 0309
BibRef

Lee, L.S., Tseng, C.Y., Chen, K.J., Huang, J., Hwang, C.H., Ting, P.Y., Lin, L.J., Chen, C.C.,
A Mandarin dictation machine based upon a hierarchical recognition approach and Chinese natural language analysis,
PAMI(12), No. 7, July 1990, pp. 695-704.
IEEE DOI 0401
BibRef

Kenny, P., Lennig, M., Mermelstein, P.,
Speaker adaptation in a large-vocabulary Gaussian HMM recognizer,
PAMI(12), No. 9, September 1990, pp. 917-920.
IEEE DOI 0401
BibRef

Casacuberta, F.,
Some relations among stochastic finite state networks used in automatic speech recognition,
PAMI(12), No. 7, July 1990, pp. 691-695.
IEEE DOI 0401
BibRef

Yannakoudakis, E.J., Tsomokos, I., Hutton, P.J.,
n-Grams and their implication to natural language understanding,
PR(23), No. 5, 1990, pp. 509-528.
Elsevier DOI 0401
BibRef

Ney, H.[Hermann],
A comparative study of two search strategies for connected word recognition: dynamic programming and heuristic search,
PAMI(14), No. 5, May 1992, pp. 586-595.
IEEE DOI 0401
BibRef

Ney, H.[Hermann],
Stochastic Modelling: From Pattern Classification to Speech Recognition and Translation,
ICPR00(Vol III: 21-28).
IEEE DOI 0009
BibRef

Liu, L.C.[Lih-Cherng], Chiou, D.[Denis], Wang, H.C.[Hsiao-Chuan],
A speech recognition method based on feature distributions,
PR(24), No. 8, 1991, pp. 717-722.
Elsevier DOI 0401
BibRef

Pinkowski, B.[Ben],
Multiscale fourier descriptors for classifying semivowels in spectrograms,
PR(26), No. 10, October 1993, pp. 1593-1602.
Elsevier DOI 0401
BibRef

Pinkowski, B.[Ben],
Principal Component Analysis of Speech Spectrogram Images,
PR(30), No. 5, May 1997, pp. 777-787.
Elsevier DOI 9705
BibRef

Mast, M., Kummert, F., Ehrlich, U., Fink, G.A., Kuhn, T., Niemann, H., Sagerer, G.F.,
A speech understanding and dialog system with a homogeneous linguistic knowledge base,
PAMI(16), No. 2, February 1994, pp. 179-194.
IEEE DOI 0401
BibRef

Huo, Q.A.[Qi-Ang], Chan, C.[Chorkin],
Contextual vector quantization for speech recognition with discrete hidden Markov model,
PR(28), No. 4, April 1995, pp. 513-517.
Elsevier DOI 0401
BibRef

Pham, T.D.[Tuan D.], Wagner, M.[Michael],
A geostatistical model for linear prediction analysis of speech,
PR(31), No. 12, December 1998, pp. 1981-1991.
Elsevier DOI 0401
BibRef

Han, J.Q.[Ji-Qing], Gao, W.[Wen],
Robust telephone speech recognition based on channel compensation,
PR(32), No. 6, June 1999, pp. 1061-1067.
Elsevier DOI 0401
BibRef

Deng, S.[Shiwen], Han, J.Q.[Ji-Qing],
Sparse Decomposition for Signal Periodic Model Over Complex Exponential Dictionary,
SPLetters(23), No. 12, December 2016, pp. 1858-1861.
IEEE DOI 1612
signal representation BibRef
And:
Voice Activity Detection Based on Complex Exponential Atomic Decomposition and Likelihood Ratio Test,
ICPR10(89-92).
IEEE DOI 1008
BibRef

Lewis, M.A.[Michael A.], Ramachandran, R.P.[Ravi P.],
Cochannel speaker count labelling based on the use of cepstral and pitch prediction derived features,
PR(34), No. 2, February 2001, pp. 499-507.
Elsevier DOI 0011
BibRef

Kant, S.[Shri], Verma, N.[Neelam],
An Effective Source Recognition Algorithm: Extraction of Significant Binary Words,
PRL(21), No. 11, October 2000, pp. 981-988. 0010
BibRef

Kwong, S., He, Q.H., Man, K.F., Tang, K.S.,
A maximum model distance approach for HMM-based speech recognition,
PR(31), No. 3, March 1998, pp. 219-229.
Elsevier DOI 0401
BibRef

He, Q.H., Kwong, S., Man, K.F., Tang, K.S.,
An improved maximum model distance approach for HMM-based speech recognition systems,
PR(33), No. 10, October 2000, pp. 1749-1758.
Elsevier DOI 0006
BibRef

Wu, C.H., Chen, Y.J., Yan, G.L.,
Integration of phonetic and prosodic information for robust utterance verification,
VISP(147), No. 1, February 2000, pp. 55. 0005
BibRef

Kim, W.[Wooil], Kang, S.[Sunmee], Ko, H.S.[Han-Seok],
Spectral subtraction based on phonetic dependency and masking effects,
VISP(147), No. 5, October 2000, pp. 423-427. 0101
BibRef

Hussain, A., Campbell, D.R.,
Intelligibility improvements using binaural diverse sub-band processing applied to speech corrupted with automobile noise,
VISP(148), No. 2, April 2001, pp. 127-132. 0106
BibRef

Bohez, E.L.J.[Erik L.J.], Senevirathne, T.R.,
Speech recognition using fractals,
PR(34), No. 11, November 2001, pp. 2227-2243.
Elsevier DOI 0108
BibRef

Chen, S.H., Wang, J.F.,
Application of wavelet transforms for C/V segmentation on Mandarin speech signals,
VISP(148), No. 2, April 2001, pp. 133-139. 0106
BibRef

Mouria-Beji, F.[Fériel],
A hierarchical Bayesian model for continuous speech recognition,
PRL(23), No. 7, May 2002, pp. 773-781.
Elsevier DOI 0203
BibRef

Chen, F.K., Yang, J.F., Yan, Y.L.,
Candidate scheme for fast ACELP search,
VISP(149), No. 1, February 2002, pp. 10-16.
IEEE Top Reference. 0205
Algebraic code excited linear prediction. Speech coding. BibRef

Liu, J.W.[Jing-Wei], Cheng, Q.S.[Qian-Sheng], Zheng, Z.G.[Zhong-Guo], Qian, M.P.[Min-Ping],
A DTW-based probability model for speaker feature analysis and data mining,
PRL(23), No. 11, September 2002, pp. 1271-1276.
Elsevier DOI 0206
BibRef

Huang, C.S.[Chao-Shih], Wang, H.C.[Hsiao-Chuan],
Bandwidth-adjusted LPC analysis for robust speech recognition,
PRL(24), No. 9-10, June 2003, pp. 1583-1587.
Elsevier DOI 0304
BibRef

Juang, Y.T.[Yau-Tarng], Huang, K.C.[Kuo-Chang], Ding, I.J.[Ing-Jr],
Speaker adaptation based on MAP estimation using fuzzy controller,
PRL(24), No. 15, November 2003, pp. 2807-2813.
Elsevier DOI 0308
BibRef

Ding, I.J.[Ing-Jr],
Incremental MLLR speaker adaptation by fuzzy logic control,
PR(40), No. 11, November 2007, pp. 3110-3119.
Elsevier DOI 0707
Speech recognition; Speaker adaptation; Hidden Markov model; Maximum likelihood linear regression; T-S fuzzy logic controller BibRef

Li, T.F.[Tze Fen],
Speech Recognition of Mandarin Monosyllables,
PR(36), No. 11, November 2003, pp. 2713-2721.
Elsevier DOI 0309
BibRef

Farooq, O., Datta, S.,
Wavelet based robust sub-band features for phoneme recognition,
VISP(151), No. 3, June 2004, pp. 187-193.
IEEE Abstract. 0409
BibRef

Ricotti, L.P.,
Multitapering and a wavelet variant of MFCC in speech recognition,
VISP(152), No. 1, February 2005, pp. 29-35.
IEEE Abstract. 0501
BibRef

Chen, K.[Ke],
On the use of different speech representations for speaker modeling,
SMC-C(35), No. 3, August 2005, pp. 301-314.
IEEE DOI 0508
BibRef

Zhong, W., Li, S., Tai, H.M.,
Signal subspace approach for narrowband noise reduction in speech,
VISP(152), No. 6, December 2005, pp. 800-805.
DOI Link 0512
BibRef

Chen, B.[Berlin],
Exploring the use of latent topical information for statistical Chinese spoken document retrieval,
PRL(27), No. 1, 1 January 2006, pp. 9-18.
Elsevier DOI 0512
BibRef

Chen, B.[Berlin], Chen, Y.T.[Yi-Ting],
Extractive spoken document summarization for information retrieval,
PRL(29), No. 4, 1 March 2008, pp. 426-437.
Elsevier DOI 0711
Extractive summarization; Information retrieval; Topical mixture model; Spoken documents; Speech recognition BibRef

Wan, C.[Chunru], Liu, M.C.[Ming-Chun],
Content-based audio retrieval with relevance feedback,
PRL(27), No. 2, 15 January 2006, pp. 85-92.
Elsevier DOI 0512
BibRef

Radhakrishnan, R.[Regunathan], Divakaran, A.[Ajay], Xiong, Z.Y.[Zi-You], Otsuka, I.[Isao],
A Content-Adaptive Analysis and Representation Framework for Audio Event Discovery from 'Unscripted' Multimedia,
JASP(2006), 2006, pp. 1-24.
DOI Link 0603
BibRef

Chu, W.T.[Wei-Ta], Cheng, W.H.[Wen-Huang], Wu, J.L.[Ja-Ling],
Semantic Context Detection Using Audio Event Fusion,
JASP(2006), 2006, pp. 1-12.
WWW Link. 0603
BibRef

Liu, J.W.[Jing-Wei], Wang, Z.Y.[Zuo-Ying], Xiao, X.[Xi],
A hybrid SVM/DDBHMM decision fusion modeling for robust continuous digital speech recognition,
PRL(28), No. 8, 1 June 2007, pp. 912-920.
Elsevier DOI 0704
Speech recognition; Gaussian mixture model; Duration distribution based hidden Markov model (DDBHMM); Support vector machine BibRef

Leavitt, N.,
Two technologies vie for recognition in speech market,
Computer(36), No. 6, June 2003, pp. 13-16.
IEEE DOI 0306
BibRef

Paulson, L.D.,
Speech Recognition Moves from Software to Hardware,
Computer(39), No. 11, November 2006, pp. 15-18.
IEEE DOI 0611
BibRef

Araujo, L.[Lourdes], Serrano, J.I.[J. Ignacio],
Highly accurate error-driven method for noun phrase detection,
PRL(29), No. 4, 1 March 2008, pp. 547-557.
Elsevier DOI 0711
Noun phrase detection; Evolutionary programming; Grammar induction; Information retrieval BibRef

Zhang, Y.X.[Yong-Xin], Scordilis, M.S.[Michael S.],
Effective online unsupervised adaptation of Gaussian mixture models and its application to speech classification,
PRL(29), No. 6, 15 April 2008, pp. 735-744.
Elsevier DOI 0803
Gaussian mixture model; Speech classification; Online adaptation; Unsupervised adaptation BibRef

O'Shaughnessy, D.[Douglas],
Invited paper: Automatic speech recognition: History, methods and challenges,
PR(41), No. 10, October 2008, pp. 2965-2979.
Elsevier DOI 0808
Automatic speech recognition; Hidden Markov models; Adaptation; Compensation; Pattern recognition; Spectral representation BibRef

Zeng, J.[Jia], Xie, L.[Lei], Liu, Z.Q.[Zhi-Qiang],
Type-2 fuzzy Gaussian mixture models,
PR(41), No. 12, December 2008, pp. 3636-3643.
Elsevier DOI 0810
BibRef
Earlier: A1, A3, Only:
Type-2 fuzzy hidden markov models to phoneme recognition,
ICPR04(I: 192-195).
IEEE DOI 0409
Type-2 fuzzy sets; Gaussian mixture models; Hidden Markov models BibRef

Chen, B.[Berlin], Liu, S.H.[Shih-Hung], Chu, F.H.[Fang-Hui],
Training data selection for improving discriminative training of acoustic models,
PRL(30), No. 13, 1 October 2009, pp. 1228-1235.
Elsevier DOI 0909
Continuous speech recognition; Discriminative training; Acoustic models; Data selection; Phone accuracy; Entropy BibRef

Kang, S.W.[Sang-Woo], Kim, H.[Harksoo], Seo, J.Y.[Jung-Yun],
A reliable multidomain model for speech act classification,
PRL(31), No. 1, 1 January 2010, pp. 71-74.
Elsevier DOI 1001
Speech act classification; Dialogue domain detection; Multidomain dialogue BibRef

Kang, S.W.[Sang-Woo], Seo, J.Y.[Jung-Yun],
Two-phase reanalysis model for understanding user intention,
PRL(42), No. 1, 2014, pp. 35-39.
Elsevier DOI 1404
Natural language processing BibRef

Milone, D.H.[Diego H.], di Persia, L.E.[Leandro E.], Torres, M.E.[Maria E.],
Denoising and recognition using hidden Markov models with observation distributions modeled by hidden Markov trees,
PR(43), No. 4, April 2010, pp. 1577-1589.
Elsevier DOI 1002
Sequence learning; EM algorithm; Wavelets; Speech recognition BibRef

Lu, Y.[Yong], Wu, H.Y.[Hai-Yang], Zhou, L.[Lin], Wu, Z.Y.[Zhen-Yang],
Multi-environment model adaptation based on vector Taylor series for robust speech recognition,
PR(43), No. 9, September 2010, pp. 3093-3099.
Elsevier DOI 1006
Model adaptation; Vector Taylor series; Multi-environment model; Speech recognition BibRef

Hong, H., Zhao, Z., Wang, X., Tao, Z.,
Detection of Dynamic Structures of Speech Fundamental Frequency in Tonal Languages,
SPLetters(17), No. 10, October 2010, pp. 843-846.
IEEE DOI 1008
BibRef

Heracleous, P.[Panikos], Badin, P.[Pierre], Bailly, G.[Gerard], Hagita, N.[Norihiro],
A pilot study on augmented speech communication based on Electro-Magnetic Articulography,
PRL(32), No. 8, 1 June 2011, pp. 1119-1125.
Elsevier DOI 1101
Augmented speech; Electro-Magnetic Articulography (EMA); Automatic speech recognition; Hidden Markov model (HMMs); Fusion; Noise robustness BibRef

Chen, B.[Berlin], Chen, W.H.[Wei-Hau], Lin, S.H.[Shih-Hsiang], Chu, W.Y.[Wen-Yi],
Robust speech recognition using spatial-temporal feature distribution characteristics,
PRL(32), No. 7, 1 May 2011, pp. 919-926.
Elsevier DOI 1101
Speech recognition, Noise robustness, Histogram equalization, Spatial-temporal distribution characteristics, Aurora-2 BibRef

Zamani, B.[Behzad], Akbari, A.[Ahmad], Nasersharif, B.[Babak], Jalalvand, A.[Azarakhsh],
Optimized discriminative transformations for speech features based on minimum classification error,
PRL(32), No. 7, 1 May 2011, pp. 948-955.
Elsevier DOI 1101
Minimum classification error; Principal Component Analysis; Linear Discriminant Analysis; Feature transformation; Hidden Markov Model BibRef

Lo, H.Y., Wang, J.C., Wang, H.M., Lin, S.D.,
Cost-Sensitive Multi-Label Learning for Audio Tag Annotation and Retrieval,
MultMed(13), No. 3, 2011, pp. 518-529.
IEEE DOI 1106
BibRef

Lu, L., Ghoshal, A., Renals, S.,
Regularized Subspace Gaussian Mixture Models for Speech Recognition,
SPLetters(18), No. 7, July 2011, pp. 419-422.
IEEE DOI 1101
BibRef

Lu, L., Renals, S.,
Probabilistic Linear Discriminant Analysis for Acoustic Modeling,
SPLetters(21), No. 6, June 2014, pp. 702-706.
IEEE DOI 1404
Analytical models BibRef

Remes, U., Palomaki, K.J., Raiko, T., Honkela, A., Kurimo, M.,
Missing-Feature Reconstruction With a Bounded Nonlinear State-Space Model,
SPLetters(18), No. 10, October 2011, pp. 563-566.
IEEE DOI 1109
Speech recognition. BibRef

He, Y., Han, J.,
Gaussian Specific Compensation for Channel Distortion in Speech Recognition,
SPLetters(18), No. 10, October 2011, pp. 599-602.
IEEE DOI 1109
BibRef

Roupakia, Z., Gales, M.,
Kernel Eigenvoices (Revisited) for Large-Vocabulary Speech Recognition,
SPLetters(18), No. 12, December 2011, pp. 709-712.
IEEE DOI 1112
BibRef

Kim, S.[Seonho], Yoon, J.[Juntae], Seo, J.Y.[Jung-Yun], Park, S.[Seog],
Improving Korean verb-verb morphological disambiguation using lexical knowledge from unambiguous unlabeled data and selective web counts,
PRL(33), No. 1, 1 January 2012, pp. 62-70.
Elsevier DOI 1112
POS tagging; Verb-verb morphological disambiguation; Unlabeled corpora; Automatic annotation; Web counts; Hard example-based selective sampling BibRef

Geller, T.[Tom],
Talking to Machines,
CACM(55), No. 4, April 2012, pp. 14-16.
DOI Link 1204
Voice recognition programs like Siri are now capable of understanding spoken commands, recognizing a conversation's context, and answering questions in a personable manner. BibRef

Norrenbrock, C.R., Hinterleitner, F., Heute, U., Moller, S.,
Instrumental Assessment of Prosodic Quality for Text-to-Speech Signals,
SPLetters(19), No. 5, May 2012, pp. 255-258.
IEEE DOI 1204
BibRef

Seon, C.N.[Choong-Nyoung], Kim, H.[Harksoo], Seo, J.Y.[Jung-Yun],
A statistical prediction model of speakers' intentions using multi-level features in a goal-oriented dialog system,
PRL(33), No. 10, 15 July 2012, pp. 1397-1404.
Elsevier DOI 1205
Speech act prediction; Concept sequence prediction; Multi-level feature BibRef

Kang, S.W.[Sang-Woo], Ko, Y.J.[Young-Joong], Seo, J.Y.[Jung-Yun],
Hierarchical speech-act classification for discourse analysis,
PRL(34), No. 10, 15 July 2013, pp. 1119-1124.
Elsevier DOI 1306
Natural language processing; Discourse analysis; Speech act classification; Hierarchical structure; Dialogue system BibRef

Dehzangi, O.[Omid], Ma, B.[Bin], Chng, E.S.[Eng Siong], Li, H.Z.[Hai-Zhou],
Discriminative feature extraction for speech recognition using continuous output codes,
PRL(33), No. 13, 1 October 2012, pp. 1703-1709.
Elsevier DOI 1208
BibRef
Earlier:
Fuzzy rule selection using Iterative Rule Learning for speech data classification,
ICPR08(1-4).
IEEE DOI 0812
Speech recognition; Feature transformation; Generalized discriminant analysis; Output coding BibRef

Schroder, M.[Marc], Bevacqua, E.[Elisabetta], Cowie, R.[Roddy], Eyben, F.[Florian], Gunes, H.[Hatice], Heylen, D.[Dirk], ter Maat, M.[Mark], McKeown, G.[Gary], Pammi, S.[Sathish], Pantic, M.[Maja], Pelachaud, C.[Catherine], Schuller, B.[Bjorn], de Sevin, E.[Etienne], Valstar, M.F.[Michel F.], Wollmer, M.[Martin],
Building Autonomous Sensitive Artificial Listeners,
AffCom(3), No. 2, 2012, pp. 165-183.
IEEE DOI 1208
BibRef

Furui, S., Deng, L., Gales, M., Ney, H., Tokuda, K.,
Fundamental Technologies in Modern Speech Recognition,
SPMag(29), No. 3, 2012, pp. 16-17.
IEEE DOI 1210
From the Guest Editors. Survey of speech recognition, intro to special issue BibRef

Saon, G., Chien, J.T.,
Large-Vocabulary Continuous Speech Recognition Systems: A Look at Some Recent Advances,
SPMag(29), No. 3, 2012, pp. 18-33.
IEEE DOI 1210
Survey, Speech Recognition. BibRef

Wang, H.P.[Hai-Peng], Leung, C.C.[Cheung-Chi], Lee, T.[Tan], Ma, B.[Bin], Li, H.Z.[Hai-Zhou],
Shifted-Delta MLP Features for Spoken Language Recognition,
SPLetters(20), No. 1, January 2013, pp. 15-18.
IEEE DOI 1212
BibRef

Edwards, J.,
Researchers Push Speech Recognition Toward the Mainstream,
SPMag(30), No. 1, 2012, pp. 8-11.
IEEE DOI 1212
[Special Reports] BibRef

Das, B.[Biswajit], Mandal, S.[Sandipan], Mitra, P.[Pabitra], Basu, A.[Anupam],
Aging speech recognition with speaker adaptation techniques: Study on medium vocabulary continuous Bengali speech,
PRL(34), No. 3, 1 February 2013, pp. 335-343.
Elsevier DOI 1301
Aging speech recognition; Vocal tract length normalization (VTLN); Maximum likelihood linear transform (MLLT); Maximum likelihood linear regression (MLLR); Maximum a posteriori (MAP); Maximum mutual information estimation (MMIE) BibRef

Keefer, R., Liu, Y., Bourbakis, N.,
The Development and Evaluation of an Eyes-Free Interaction Model for Mobile Reading Devices,
HMS(43), No. 1, January 2013, pp. 76-91.
IEEE DOI 1301
Voice user interface. BibRef

O'Shaughnessy, D., Deng, L., Li, H.,
Speech Information Processing: Theory and Applications,
PIEEE(100), No. 5, May 2013, pp. 1034-1037.
IEEE DOI 1305
[Scanning the Issue], Introduction to special issue. BibRef

O'Shaughnessy, D.,
Acoustic Analysis for Automatic Speech Recognition,
PIEEE(100), No. 5, May 2013, pp. 1038-1053.
IEEE DOI 1305
BibRef

Fosler-Lussier, E., He, Y., Jyothi, P., Prabhavalkar, R.,
Conditional Random Fields in Speech, Audio, and Language Processing,
PIEEE(100), No. 5, May 2013, pp. 1054-1075.
IEEE DOI 1305
BibRef

Hermansky, H.,
Multistream Recognition of Speech: Dealing With Unknown Unknowns,
PIEEE(100), No. 5, May 2013, pp. 1076-1088.
IEEE DOI 1305
BibRef

Lee, C.H., Siniscalchi, S.M.,
An Information-Extraction Approach to Speech Processing: Analysis, Detection, Verification, and Recognition,
PIEEE(100), No. 5, May 2013, pp. 1089-1115.
IEEE DOI 1305
BibRef

He, X., Deng, L.,
Speech-Centric Information Processing: An Optimization-Oriented Approach,
PIEEE(100), No. 5, May 2013, pp. 1116-1135.
IEEE DOI 1305
BibRef

Young, S., Gasic, M., Thomson, B., Williams, J.D.,
POMDP-Based Statistical Spoken Dialog Systems: A Review,
PIEEE(100), No. 5, May 2013, pp. 1160-1179.
IEEE DOI 1305
Survey, Speech. BibRef

Li, W.F.[Wei-Feng], Zhou, Y.C.[Yi-Cong], Poh, N., Zhou, F.[Fei], Liao, Q.M.[Qing-Min],
Feature Denoising Using Joint Sparse Representation for In-Car Speech Recognition,
SPLetters(20), No. 7, 2013, pp. 681-684.
IEEE DOI cepstral analysis 1307
BibRef

Hermansky, H., Cohen, J.R., Stern, R.M.,
Perceptual Properties of Current Speech Recognition Technology,
PIEEE(101), No. 9, 2013, pp. 1968-1985.
IEEE DOI 1309
Auditory system BibRef

Kolossa, D., Zeiler, S., Saeidi, R., Astudillo, R.F.[R. Fernandez],
Noise-Adaptive LDA: A New Approach for Speech Recognition Under Observation Uncertainty,
SPLetters(20), No. 11, 2013, pp. 1018-1021.
IEEE DOI 1310
speech recognition BibRef

Saeidi, R., Astudillo, R.F., Kolossa, D.,
Uncertain LDA: Including Observation Uncertainties in Discriminative Transforms,
PAMI(38), No. 7, July 2016, pp. 1479-1488.
IEEE DOI 1606
Estimation BibRef

Cho, J.W., Park, H.M.,
An Efficient HMM-Based Feature Enhancement Method With Filter Estimation for Reverberant Speech Recognition,
SPLetters(20), No. 12, 2013, pp. 1199-1202.
IEEE DOI 1311
Bayes methods BibRef

Lee, L.M.[Lee-Min], Jean, F.R.,
Adaptation of Hidden Markov Models for Recognizing Speech of Reduced Frame Rate,
Cyber(43), No. 6, 2013, pp. 2114-2121.
IEEE DOI 1312
hidden Markov models BibRef

Kim, K.T.[Kyung-Tae], Lin, K.H.[Kai-Hsiang], Walther, D.B.[Dirk B.], Hasegawa-Johnson, M.A.[Mark A.], Huang, T.S.[Tomas S.],
Automatic detection of auditory salience with optimized linear filters derived from human annotation,
PRL(38), No. 1, 2014, pp. 78-85.
Elsevier DOI 1402
Auditory salience BibRef

Huang, X.D.[Xue-Dong], Baker, J.[James], Reddy, R.[Raj],
A Historical Perspective of Speech Recognition,
CACM(57), No. 1, January 2014, pp. 94-103.
DOI Link 1402
Survey, Speech Recognition. What do we know now that we did not know 40 years ago? BibRef

Shi, Y.Z.[Yong-Zhe], Zhang, W.Q.[Wei-Qiang], Cai, M.[Meng], Liu, J.[Jia],
Efficient One-Pass Decoding with NNLM for Speech Recognition,
SPLetters(21), No. 4, April 2014, pp. 377-381.
IEEE DOI 1403
decoding BibRef

Zhang, W.B.[Wei-Bin], Fung, P.,
Efficient Sparse Banded Acoustic Models for Speech Recognition,
SPLetters(21), No. 3, March 2014, pp. 280-283.
IEEE DOI 1403
covariance matrices BibRef

Triefenbach, F., Demuynck, K., Martens, J.P.,
Large Vocabulary Continuous Speech Recognition With Reservoir-Based Acoustic Models,
SPLetters(21), No. 3, March 2014, pp. 311-315.
IEEE DOI 1403
error statistics BibRef

Diez, M.[Mireia], Varona, A.[Amparo], Penagarikano, M.[Mikel], Rodriguez-Fuentes, L.J.[Luis Javier], Bordel, G.[German],
On the Complementarity of Phone Posterior Probabilities for Improved Speaker Recognition,
SPLetters(21), No. 6, June 2014, pp. 649-652.
IEEE DOI 1404
BibRef
Earlier: A1, A3, A2, A4, A5:
On the Use of Dot Scoring for Speaker Diarization,
IbPRIA11(612-619).
Springer DOI 1106
audio databases BibRef

Räsänen, O.[Okko], Laine, U.K.[Unto K.],
A method for noise-robust context-aware pattern discovery and recognition from categorical sequences,
PR(45), No. 1, 2012, pp. 606-616.
Elsevier DOI 1410
Speech recognition BibRef

Liu, N.H.[Ning-Han],
Effective Results Ranking for Mobile Query by Singing/Humming Using a Hybrid Recommendation Mechanism,
MultMed(16), No. 5, August 2014, pp. 1407-1420.
IEEE DOI 1410
audio signal processing BibRef

Schneiderman, R.,
Accuracy, Apps Advance Speech Recognition,
SPMag(32), No. 1, January 2015, pp. 12-125.
IEEE DOI 1502
Special Reports. Commercialization BibRef

Ban, S.M., Kim, H.S.,
Weight-Space Viterbi Decoding Based Spectral Subtraction for Reverberant Speech Recognition,
SPLetters(22), No. 9, September 2015, pp. 1424-1428.
IEEE DOI 1503
Decoding BibRef

Sakano, T.[Toshihiro], Kobayashi, Y.[Yosuke], Kondo, K.[Kazuhiro],
A Speech Intelligibility Estimation Method Using a Non-reference Feature Set,
IEICE(E98-D), No. 1, January 2015, pp. 21-28.
WWW Link. 1503
BibRef

Khaldi, K.[Kais], Boudraa, A.O.[Abdel-Ouahab], Torresani, B.[Bruno], Chonavel, T.[Thierry],
HHT-based audio coding,
SIViP(9), No. 1, January 2015, pp. 107-115.
Springer DOI 1503
BibRef

Savchenko, A.V.[Andrey V.], Savchenko, L.V.[Liudmila V.],
Towards the creation of reliable voice control system based on a fuzzy approach,
PRL(65), No. 1, 2015, pp. 145-151.
Elsevier DOI 1511
Signal processing BibRef

Suh, Y.J.[Young-Joo], Kim, H.[Hoirin],
Probabilistic Class Histogram Equalization Based on Posterior Mean Estimation for Robust Speech Recognition,
SPLetters(22), No. 12, December 2015, pp. 2421-2424.
IEEE DOI 1512
maximum likelihood estimation BibRef

Wang, X.Y.[Xiao-Yun], Yamamoto, S.[Seiichi],
Speech Recognition of English by Japanese Using Lexicon Represented by Multiple Reduced Phoneme Sets,
IEICE(E98-D), No. 12, December 2015, pp. 2271-2279.
WWW Link. 1601
BibRef

Tohidypour, H.R.[Hamid Reza], Banitalebi-Dehkordi, A.[Amin],
Speech frame recognition based on less shift sensitive wavelet filter banks,
SIViP(10), No. 4, April 2016, pp. 633-637.
WWW Link. 1604
BibRef

Chung, Y.J.[Yong-Joo],
Vector Taylor series based model adaptation using noisy speech trained hidden Markov models,
PRL(75), No. 1, 2016, pp. 36-40.
Elsevier DOI 1604
Noisy speech recognition BibRef

Ansari, J.A., Sathyamurthy, A., Balasubramanyam, R.,
An Open Voice Command Interface Kit,
HMS(46), No. 3, June 2016, pp. 467-473.
IEEE DOI 1605
Hardware BibRef

Cho, B.J., Kwon, H., Cho, J.W., Kim, C., Stern, R.M., Park, H.M.,
A Subband-Based Stationary-Component Suppression Method Using Harmonics and Power Ratio for Reverberant Speech Recognition,
SPLetters(23), No. 6, June 2016, pp. 780-784.
IEEE DOI 1606
maximum likelihood estimation BibRef

Ren, H., Yan, Y.,
Structural Optimization and Online Evolutionary Learning for Spoken Dialog Management,
SPLetters(23), No. 7, July 2016, pp. 1013-1017.
IEEE DOI 1608
Monte Carlo methods BibRef

Khoubrouy, S.A., Hansen, J.H.L.,
Microphone Array Processing Strategies for Distant-Based Automatic Speech Recognition,
SPLetters(23), No. 10, October 2016, pp. 1344-1348.
IEEE DOI 1610
microphone arrays BibRef

Lamberti, F., Manuri, F., Paravati, G., Piumatti, G., Sanna, A.,
Using Semantics to Automatically Generate Speech Interfaces for Wearable Virtual and Augmented Reality Applications,
HMS(47), No. 1, February 2017, pp. 152-164.
IEEE DOI 1702
augmented reality BibRef

Ganapathy, S.,
Multivariate Autoregressive Spectrogram Modeling for Noisy Speech Recognition,
SPLetters(24), No. 9, September 2017, pp. 1373-1377.
IEEE DOI 1708
Discrete cosine transforms, Estimation, Feature extraction, Noise measurement, Spectrogram, Speech, Speech recognition, Feature extraction, Riesz envelopes, multivariate autoregressive (MAR) models, speech, recognition BibRef

Shahnawazuddin, S., Adiga, N., Kathania, H.K.,
Effect of Prosody Modification on Children's ASR,
SPLetters(24), No. 11, November 2017, pp. 1749-1753.
IEEE DOI 1710
Hidden Markov models, Mel frequency cepstral coefficient, Speech, Speech recognition, Training, Acoustic mismatch, pitch-adaptive features, prosody modification, speech recognition, zero-frequency, filter BibRef

Monroe, D.[Don],
Digital Hearing,
CACM(60), No. 10, October 2017, pp. 18-20.
DOI Link 1710
BibRef

Kim, J., Hahn, M.,
Voice Activity Detection Using an Adaptive Context Attention Model,
SPLetters(25), No. 8, August 2018, pp. 1181-1185.
IEEE DOI 1808
speech recognition, adaptive context attention model, voice activity detection, speech-related applications, voice activity detection (VAD) BibRef

Edwards, J.,
Something to Talk About: Signal Processing in Speech and Audiology Research: Promising Investigations Explore New Opportunities in Human Communication,
SPMag(35), No. 6, November 2018, pp. 8-12.
IEEE DOI 1812
Special Reports. Mice, Research and development, Microphones, Acoustics, Time-frequency analysis, Auditory system BibRef

Baltrušaitis, T.[Tadas], Ahuja, C., Morency, L.P.[Louis-Philippe],
Multimodal Machine Learning: A Survey and Taxonomy,
PAMI(41), No. 2, February 2019, pp. 423-443.
IEEE DOI 1901
Speech recognition, Visualization, Media, Speech, Multimedia communication, Streaming media, Hidden Markov models, survey BibRef

Shin, Y., Yoo, K.M., Lee, S.,
Utterance Generation With Variational Auto-Encoder for Slot Filling in Spoken Language Understanding,
SPLetters(26), No. 3, March 2019, pp. 505-509.
IEEE DOI 1903
learning (artificial intelligence), natural language processing, speech processing, travel industry, slot filling BibRef

Yang, B.H.[Bo-Hong], Yao, Z.P.[Ze-Ping], Lu, H.[Hong], Zhou, Y.Q.[Ya-Qian], Xu, J.K.[Jin-Kai],
In-classroom learning analytics based on student behavior, topic and teaching characteristic mining,
PRL(129), 2020, pp. 224-231.
Elsevier DOI 2001
Student behavior analysis, Topic modeling, Audio analysis, Sequential mining BibRef

Chandrakala, S., Jayalakshmi, S.L.,
Generative Model Driven Representation Learning in a Hybrid Framework for Environmental Audio Scene and Sound Event Recognition,
MultMed(22), No. 1, January 2020, pp. 3-14.
IEEE DOI 2001
Sound event recognition, environmental audio scene recognition, audio surveillance, adapted Gaussian mixture model BibRef

Yadav, I.C., Pradhan, G.,
Significance of Pitch-Based Spectral Normalization for Children's Speech Recognition,
SPLetters(26), No. 12, December 2019, pp. 1822-1826.
IEEE DOI 2001
acoustic correlation, feature extraction, fuzzy set theory, speech recognition, pitch-based spectral normalization, DLSTM BibRef

Shahnawazuddin, S., Adiga, N.[Nagaraj], Kathania, H.K.[Hemant Kumar], Sai, B.T.[B. Tarun],
Creating speaker independent ASR system through prosody modification based data augmentation,
PRL(131), 2020, pp. 213-218.
Elsevier DOI 2004
BibRef

Park, T.J., Han, K.J., Kumar, M., Narayanan, S.,
Auto-Tuning Spectral Clustering for Speaker Diarization Using Normalized Maximum Eigengap,
SPLetters(27), 2020, pp. 381-385.
IEEE DOI 2004
Auto-Tuning, spectral clustering, Eigengap heuristic, speaker diarization BibRef

Deb, S., Dandapat, S., Krajewski, J.,
Analysis and Classification of Cold Speech Using Variational Mode Decomposition,
AffCom(11), No. 2, April 2020, pp. 296-307.
IEEE DOI 2006
Speech, Databases, Pathology, Speech recognition, Feature extraction, Nose, Mel frequency cepstral coefficient, Cold speech, SVM classifier BibRef

Sánchez-Junquera, J.[Javier], Villaseñor-Pineda, L.[Luis], Montes-y-Gómez, M.[Manuel], Rosso, P.[Paolo], Stamatatos, E.[Efstathios],
Masking domain-specific information for cross-domain deception detection,
PRL(135), 2020, pp. 122-130.
Elsevier DOI 2006
Deception detection, Domain adaptation, Masking information BibRef

Rill-García, R.[Rodrigo], Villaseñor-Pineda, L.[Luis], Reyes-Meza, V.[Verónica], Escalante, H.J.[Hugo Jair],
From Text to Speech: A Multimodal Cross-Domain Approach for Deception Detection,
MIPPSNA18(164-177).
Springer DOI 1901
BibRef

Lim, H., Kim, Y., Kim, H.,
Cross-Informed Domain Adversarial Training for Noise-Robust Wake-Up Word Detection,
SPLetters(27), 2020, pp. 1769-1773.
IEEE DOI 2010
Training, Noise robustness, Encoding, Optimization, Training data, Domain adversarial training, noise robustness, wake-up word detection BibRef

Zhao, L.[Ling], Zhang, A.[Ailian], Liu, Y.[Ying], Fei, H.[Hao],
Encoding multi-granularity structural information for joint Chinese word segmentation and POS tagging,
PRL(138), 2020, pp. 163-169.
Elsevier DOI 2010
Chinese word segmentation, POS tagging, Joint model, Lattice model, Graph model BibRef

Hsiao, R., Can, D., Ng, T., Travadi, R., Ghoshal, A.,
Online Automatic Speech Recognition With Listen, Attend and Spell Model,
SPLetters(27), 2020, pp. 1889-1893.
IEEE DOI 2011
Hidden Markov models, Decoding, Training, Earth Observing System, Computational modeling, Acoustics, Automatic speech recognition, online recognition BibRef

Bang, J.[Jeesoo], Han, S.[Sangdo], Lee, J.H.[Jong-Hyeok],
Listening-oriented response generation by exploiting user responses,
PRL(140), 2020, pp. 230-237.
Elsevier DOI 2012
Natural language processing, Dialogue system, Response generation, Listening-oriented dialogue, Affective computing BibRef

Zhou, J.T.Y.[Joey Tian-Yi], Zhang, H.[Hao], Jin, D.[Di], Peng, X.[Xi],
Dual Adversarial Transfer for Sequence Labeling,
PAMI(43), No. 2, February 2021, pp. 434-446.
IEEE DOI 2101
Labeling, Task analysis, Training, Feature extraction, Tagging, Natural language processing, adversarial training BibRef

Qiu, J.Y.[Jia-Yan], Wang, X.C.[Xin-Chao], Fua, P.[Pascal], Tao, D.C.[Da-Cheng],
Matching Seqlets: An Unsupervised Approach for Locality Preserving Sequence Matching,
PAMI(43), No. 2, February 2021, pp. 745-752.
IEEE DOI 2101
Hidden Markov models, Task analysis, Annotations, Pattern matching, Speech recognition, Optimization, Coherence, Sequence matching, joint optimization BibRef

Chen, N., Watanabe, S., Villalba, J., Zelasko, P., Dehak, N.,
Non-Autoregressive Transformer for Speech Recognition,
SPLetters(28), 2021, pp. 121-125.
IEEE DOI 2101
Training, Computational modeling, Speech recognition, Mathematical model, Predictive models, Iterative decoding, History, non-autoregressive BibRef

Haeb-Umbach, R., Heymann, J., Drude, L., Watanabe, S., Delcroix, M., Nakatani, T.,
Far-Field Automatic Speech Recognition,
PIEEE(109), No. 2, February 2021, pp. 124-148.
IEEE DOI 2101
Speech recognition, Microphones, Speech enhancement, Reverberation, Robustness, Array signal processing, Acoustic systems, speech enhancement BibRef

Fritsch, J., Magimai-Doss, M.,
Utterance Verification-Based Dysarthric Speech Intelligibility Assessment Using Phonetic Posterior Features,
SPLetters(28), 2021, pp. 224-228.
IEEE DOI 2102
Databases, Phonetics, Correlation, Testing, Speech coding, Estimation, Aerospace electronics, Dysarthric speech, utterance verification BibRef

Lu, L.[Liang], Kanda, N.[Naoyuki], Li, J.[Jinyu], Gong, Y.F.[Yi-Fan],
Streaming End-to-End Multi-Talker Speech Recognition,
SPLetters(28), 2021, pp. 803-807.
IEEE DOI 2105
Speech recognition, Training, Heating systems, Computational modeling, Transducers, Delays, Shape, heuristic error assignment training BibRef

Yi, C.[Cheng], Zhou, S.Y.[Shi-Yu], Xu, B.[Bo],
Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-Resource Speech Recognition,
SPLetters(28), 2021, pp. 788-792.
IEEE DOI 2105
Acoustics, Bit error rate, Linguistics, Task analysis, Training, Decoding, Data models, BERT, end-to-end modeling, low-resource ASR, wav2vec BibRef

Xu, P.[Peng], Huang, Y.[Yongye], Yuan, T.[Tongtong], Xiang, T.[Tao], Hospedales, T.M.[Timothy M.], Song, Y.Z.[Yi-Zhe], Wang, L.[Liang],
On Learning Semantic Representations for Large-Scale Abstract Sketches,
CirSysVideo(31), No. 9, September 2021, pp. 3366-3379.
IEEE DOI 2109
Semantics, Visualization, Task analysis, Games, Feature extraction, Quantization (signal), Speech recognition, edge-map dataset BibRef

Kim, J.[Juntae], Lee, Y.[Yoonhan],
Improving End-to-End Contextual Speech Recognition via a Word-Matching Algorithm With Backward Search,
SPLetters(28), 2021, pp. 2087-2091.
IEEE DOI 2112
Sugar, Phonetics, Decoding, Context modeling, Training, Signal processing algorithms, Tagging, Speech recognition, biasing, context BibRef

Zhu, S.[Shirong], Zhang, Y.[Ying], He, K.[Kai], Zhao, L.[Lasheng],
Acoustic Word Embedding Based on Multi-Head Attention Quadruplet Network,
SPLetters(29), 2022, pp. 184-188.
IEEE DOI 2202
Acoustics, Training, Vocabulary, Linear programming, Task analysis, Speech recognition, Phonetics, Acoustic word embedding, attention mechanism BibRef

Tiwari, R.[Rajdev], Sharma, V.[Vidha], Sahoo, R.C.[Ramesh Chandra],
Isolated spoken word recognition using packed-MFCC on padded-voice signal for unscripted languages,
IJCVR(12), No. 2, 2022, pp. 120-140.
DOI Link 2203
BibRef

Tian, Z.K.[Zheng-Kun], Yi, J.[Jiangyan], Tao, J.H.[Jian-Hua], Zhang, S.[Shuai], Wen, Z.Q.[Zheng-Qi],
Hybrid Autoregressive and Non-Autoregressive Transformer Models for Speech Recognition,
SPLetters(29), 2022, pp. 762-766.
IEEE DOI 2204
Decoding, Transformers, Acoustics, Predictive models, Training, Speech recognition, Linguistics, Autoregressive BibRef

Xiao, F.Y.[Fei-Yang], Guan, J.[Jian], Lan, H.Y.[Hai-Yan], Zhu, Q.[Qiaoxi], Wang, W.W.[Wen-Wu],
Local Information Assisted Attention-Free Decoder for Audio Captioning,
SPLetters(29), 2022, pp. 1604-1608.
IEEE DOI 2208
Decoding, Feature extraction, Wind forecasting, Interference, Convolution, Transformers, Task analysis, attention-free transformer BibRef

de Souza, D.B.[Douglas Baptista], Bakri, K.J.[Khaled Jamal], de Souza Ferreira, F.[Fernanda], Inacio, J.[Juliana],
Multitaper-Mel Spectrograms for Keyword Spotting,
SPLetters(29), 2022, pp. 2028-2032.
IEEE DOI 2210
Spectrogram, Hidden Markov models, Feature extraction, Speech recognition, Internet, Computational modeling, Training, mel spectrograms BibRef

Perochon, S.[Sam],
A Presentation and Short Discussion of rVAD-fast, a Fast Voice Activity Detector,
IPOL(12), 2022, pp. 404-419.
DOI Link 2210
BibRef

Huang, H.J.[Hao-Jing], Huang, P.J.[Pei-Jie], Zhu, Z.B.[Zhan-Biao], Li, J.[Jia], Lin, P.[Piyuan],
CLID: A Chunk-Level Intent Detection Framework for Multiple Intent Spoken Language Understanding,
SPLetters(29), 2022, pp. 2123-2127.
IEEE DOI 2211
Filling, Task analysis, Semantics, Decoding, Training, Predictive models, Testing, Chunk-level, intent detection, spoken language understanding BibRef

Du, X.[Xia], Pun, C.M.[Chi-Man],
Robust Audio Patch Attacks Using Physical Sample Simulation and Adversarial Patch Noise Generation,
MultMed(24), 2022, pp. 4381-4393.
IEEE DOI 2212
Perturbation methods, Speech recognition, Robustness, Signal to noise ratio, Training, Detectors, ensemble method BibRef

Kim, H.[Hoki], Park, J.[Jinseong], Lee, J.W.[Jae-Wook],
Generating Transferable Adversarial Examples for Speech Classification,
PR(137), 2023, pp. 109286.
Elsevier DOI 2302
Speech classification, Adversarial attack, Transferability BibRef

Wei, G.Y.[Guang-Yong], Duan, Z.K.[Zhi-Kui], Li, S.[Shiren], Yu, X.M.[Xin-Mei], Yang, G.G.[Guang-Guang],
LFEformer: Local Feature Enhancement Using Sliding Window With Deformability for Automatic Speech Recognition,
SPLetters(30), 2023, pp. 180-184.
IEEE DOI 2303
Feature extraction, Transformers, Decoding, Mathematical models, Data mining, Acoustics, Data preprocessing, Speech Recognition, Local Feature BibRef

Xiao, F.Y.[Fei-Yang], Guan, J.[Jian], Zhu, Q.[Qiaoxi], Wang, W.W.[Wen-Wu],
Graph Attention for Automated Audio Captioning,
SPLetters(30), 2023, pp. 413-417.
IEEE DOI 2305
Feature extraction, Decoding, Transformers, Semantics, Acoustics, Noise measurement, Matrix converters, Audio modelling, temporal information BibRef

Chang, C.M.[Chun-Min], Lee, C.C.[Chi-Chun],
Learning Enhanced Acoustic Latent Representation for Small Scale Affective Corpus with Adversarial Cross Corpora Integration,
AffCom(14), No. 2, April 2023, pp. 1308-1321.
IEEE DOI 2306
Databases, Emotion recognition, Acoustics, Training, Speech recognition, Transfer learning, Task analysis, cross corpus learning BibRef

Qu, H.L.[Hong-Lin], Su, X.D.[Xiang-Dong], Wang, Y.[Yonghe], Hao, X.[Xiang], Gao, G.L.[Guang-Lai],
Noise-Separated Adaptive Feature Distillation for Robust Speech Recognition,
SPLetters(30), 2023, pp. 763-767.
IEEE DOI 2307
Speech recognition, Noise measurement, Adaptation models, Task analysis, Training, Propagation losses, Knowledge transfer, speech recognition BibRef

Nga, C.H.[Cao Hong], Vu, D.Q.[Duc-Quang], Luong, H.H.[Huong Hoang], Huang, C.L.[Chien-Lin], Wang, J.C.[Jia-Ching],
Cyclic Transfer Learning for Mandarin-English Code-Switching Speech Recognition,
SPLetters(30), 2023, pp. 1387-1391.
IEEE DOI 2310
BibRef

Dong, F.[Fang], Qian, Y.Y.[Yi-Yang], Wang, T.L.[Tian-Lei], Liu, P.[Peng], Cao, J.W.[Jiu-Wen],
A Transformer-Based End-to-End Automatic Speech Recognition Algorithm,
SPLetters(30), 2023, pp. 1592-1596.
IEEE DOI 2311
BibRef

Fan, P.[Peng], Shan, C.[Changhao], Sun, S.[Sining], Yang, Q.[Qing], Zhang, J.W.[Jian-Wei],
Key Frame Mechanism for Efficient Conformer Based End-to-End Speech Recognition,
SPLetters(30), 2023, pp. 1612-1616.
IEEE DOI 2311
BibRef

Mahmoudi, H.[Homeyra], Camboim, S.[Silvana], Brovelli, M.A.[Maria Antonia],
Development of a Voice Virtual Assistant for the Geospatial Data Visualization Application on the Web,
IJGI(12), No. 11, 2023, pp. xx-yy.
DOI Link 2312
BibRef

Vitolo, P.[Paola], Liguori, R.[Rosalba], di Benedetto, L.[Luigi], Rubino, A.[Alfredo], Licciardo, G.D.[Gian Domenico],
Automatic Audio Feature Extraction for Keyword Spotting,
SPLetters(31), 2024, pp. 161-165.
IEEE DOI 2401
BibRef

Li, J.[Junhua], Duan, Z.K.[Zhi-Kui], Li, S.[Shiren], Yu, X.[Xinmei], Yang, G.[Guangguang],
ESAformer: Enhanced Self-Attention for Automatic Speech Recognition,
SPLetters(31), 2024, pp. 471-475.
IEEE DOI 2402
Feature extraction, Transformers, Convolution, Logic gates, Testing, Tensors, Training, Speech recognition, transformer, multi-order interaction BibRef

Nie, W.Z.[Wei-Zhi], Bao, Y.[Yuru], Zhao, Y.[Yue], Liu, A.[Anan],
Long Dialogue Emotion Detection Based on Commonsense Knowledge Graph Guidance,
MultMed(26), 2024, pp. 514-528.
IEEE DOI 2402
Emotion recognition, Commonsense reasoning, Oral communication, Correlation, Transformers, Speech recognition, topic module BibRef

Sun, T.L.[Tian-Li], Chen, H.N.[Hao-Nan], Hu, G.S.[Guo-Sheng], He, L.H.[Liang-Hua], Zhao, C.R.[Cai-Rong],
Explainability of Speech Recognition Transformers via Gradient-Based Attention Visualization,
MultMed(26), 2024, pp. 1395-1406.
IEEE DOI 2402
Transformers, Analytical models, Visualization, Predictive models, Data models, Computational modeling, Training, Explainability, attention visualization BibRef

Jacobs, C.[Christiaan], Kamper, H.[Herman],
Leveraging Multilingual Transfer for Unsupervised Semantic Acoustic Word Embeddings,
SPLetters(31), 2024, pp. 311-315.
IEEE DOI 2402
Semantics, Phonetics, Training, Data models, Task analysis, Acoustics, Decoding, Acoustic word embeddings, query-by-example search, semantic retrieval BibRef

Wang, F.Y.[Fang-Yuan], Xu, B.[Bo], Xu, B.[Bo],
SSCFormer: Push the Limit of Chunk-Wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal Convolution,
SPLetters(31), 2024, pp. 421-425.
IEEE DOI 2402
Convolution, Complexity theory, Computational modeling, Decoding, Training, Kernel, Transformers, Conformer, streaming ASR, linear complexity BibRef

Fan, R.[Ruchao], Shankar, N.B.[Natarajan Balaji], Alwan, A.[Abeer],
UniEnc-CASSNAT: An Encoder-Only Non-Autoregressive ASR for Speech SSL Models,
SPLetters(31), 2024, pp. 711-715.
IEEE DOI 2403
Decoding, Feature extraction, Acoustics, Iterative decoding, Transformers, Training, Task analysis, Non-autoregressive ASR, speech foundation model BibRef

Singh, S.[Shubhr], Steinmetz, C.J.[Christian J.], Benetos, E.[Emmanouil], Phan, H.[Huy], Stowell, D.[Dan],
ATGNN: Audio Tagging Graph Neural Network,
SPLetters(31), 2024, pp. 825-829.
IEEE DOI 2404
Spectrogram, Tagging, Correlation, Convolution, Transformers, Training, Feature extraction, Audio tagging, graph neural networks, computational sound scene analysis BibRef

Xing, B.[Bowen], Tsang, I.W.[Ivor W.],
Co-Guiding for Multi-Intent Spoken Language Understanding,
PAMI(46), No. 5, May 2024, pp. 2965-2980.
IEEE DOI 2404
Task analysis, Semantics, Filling, Predictive models, Adaptation models, Decoding, Analytical models, Dialog system, spoken language understanding BibRef

Ng, H.W.[Han Wei], Guan, C.T.[Cun-Tai],
Efficient Representation Learning for Inner Speech Domain Generalization,
CAIP23(I:131-141).
Springer DOI 2312
BibRef

Oneata, D.[Dan], Cucu, H.[Horia],
Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations,
MULA22(4578-4587)
IEEE DOI 2210
Training, Couplings, Visualization, Image recognition, Keyword search, Speech recognition, Machine learning BibRef

Tapia, L.S.[Luis Sanchez], Gomez, A.[Antonio], Esparza, M.[Mario], Jatla, V.[Venkatesh], Pattichis, M.[Marios], Celedón-Pattichis, S.[Sylvia], López Leiva, C.[Carlos],
Bilingual Speech Recognition by Estimating Speaker Geometry from Video Data,
CAIP21(I:79-89).
Springer DOI 2112
BibRef

Qiao, F.C.[Feng-Chun], Peng, X.[Xi],
Uncertainty-guided Model Generalization to Unseen Domains,
CVPR21(6786-6796)
IEEE DOI 2111
Training, Image segmentation, Uncertainty, Perturbation methods, Text categorization, Semantics, Speech recognition BibRef

Ngantcha, P.[Patricia], Amith, M.[Muhammad], Tao, C.[Cui], Roberts, K.[Kirk],
Patient-Provider Communication Training Models for Interactive Speech Devices,
DHM21(I:250-268).
Springer DOI 2108
BibRef

Wu, Y.C.[Yi-Chieh], Liao, W.H.[Wen-Hung],
Toward Text-independent Cross-lingual Speaker Recognition Using English-Mandarin-Taiwanese Dataset,
ICPR21(8515-8522)
IEEE DOI 2105
Sociology, Speech recognition, Data collection, Acoustics, Data models, Speaker recognition, Speaker recognition, Cross-lingual dataset BibRef

Chen, Y.[Yangbin], Ma, Y.[Yun], Ko, T.[Tom], Wang, J.P.[Jian-Ping], Li, Q.[Qing],
MetaMix: Improved Meta-Learning with Interpolation-based Consistency Regularization,
ICPR21(407-414)
IEEE DOI 2105
Training, Adaptation models, Training data, Speech recognition, Classification algorithms, Task analysis BibRef

Zhou, L.X.[Li-Xia], Zhang, J.[Jun],
From Bottom to Top: A Coordinated Feature Representation Method for Speech Recognition,
MMDLCA20(396-403).
Springer DOI 2103
BibRef

Zhao, J., Parry, C.J., dos Anjos, R., Anslow, C., Rhee, T.,
Voice Interaction for Augmented Reality Navigation Interfaces with Natural Language Understanding,
IVCNZ20(1-6)
IEEE DOI 2012
Productivity, Image recognition, Navigation, Natural languages, Human-robot interaction, Speech recognition, Augmented reality, intelligent interface BibRef

Ezzine, A., Satori, H., Hamidi, M., Satori, K.,
Moroccan Dialect Speech Recognition System Based on CMU SphinxTools,
ISCV20(1-5)
IEEE DOI 2011
feature extraction, Gaussian processes, hidden Markov models, natural language processing, speaker recognition, Artificial intelligence BibRef

ABAKARIM, F., ABENAOU, A.,
Amazigh isolated word speech recognition system using the Adaptive Orthogonal Transform Method.,
ISCV20(1-6)
IEEE DOI 2011
discrete wavelet transforms, feature extraction, principal component analysis, speech recognition, voice signals, DWT BibRef

Pérez, A.F., Sanguineti, V., Morerio, P., Murino, V.,
Audio-Visual Model Distillation Using Acoustic Images,
WACV20(2843-2852)
IEEE DOI 2006
Acoustics, Visualization, Data models, Training, Microphones, Machine learning, Synchronization BibRef

Tapu, R., Mocanu, B., Zaharia, T.,
Dynamic Subtitles: A Multimodal Video Accessibility Enhancement Dedicated to Deaf and Hearing Impaired Users,
ACVR19(2558-2566)
IEEE DOI 2004
audio signal processing, feature extraction, handicapped aids, hearing, speaker recognition, video signal processing, deaf users, active speaker detection BibRef

Roberto, A.[Antonio], Saggese, A.[Alessia], Vento, M.[Mario],
A Challenging Voice Dataset for Robotic Applications in Noisy Environments,
CAIP19(II:354-364).
Springer DOI 1909
BibRef

Naszádi, K.[Kata], Oualil, Y.[Youssef], Klakow, D.[Dietrich],
Image-Sensitive Language Modeling for Automatic Speech Recognition,
VL18(IV:173-179).
Springer DOI 1905
BibRef

Gauvain, J.[Jodie], Lamel, L.[Lori], Le, V.B.[Viet Bac], Despres, J.[Julien], Gauvain, J.L.[Jean-Luc], Messaoudi, A.[Abdel], Vieru, B.[Bianca], Ben Kheder, W.[Waad],
Challenges in Audio Processing of Terrorist-Related Data,
MMMod19(II:80-92).
Springer DOI 1901
BibRef

Jorrín, J.[Jesús], Buera, L.[Luis],
DANTE Speaker Recognition Module. An Efficient and Robust Automatic Speaker Searching Solution for Terrorism-Related Scenarios,
MMMod19(I:704-715).
Springer DOI 1901
BibRef

Galanopoulos, D.[Damianos], Mezaris, V.[Vasileios],
Temporal Lecture Video Fragmentation Using Word Embeddings,
MMMod19(II:254-265).
Springer DOI 1901
BibRef

Shahin, M., Ji, J.X., Ahmed, B.,
One-Class SVMs Based Pronunciation Verification Approach,
ICPR18(2881-2886)
IEEE DOI 1812
Feature extraction, Hidden Markov models, Training, Support vector machines, Error analysis, Lattices, Acoustics, speech attributes BibRef

Mukherjee, H., Obaidullah, S.M., Phadikar, S., Roy, K.,
A Dravidian Language Identification System,
ICPR18(2654-2657)
IEEE DOI 1812
Feature extraction, Speech recognition, Videos, Databases, NIST, Language Identification, Dravidian Language, LSP-G, FURIA BibRef

Galiotou, E.[Eleni], Karanikolas, N.[Nikitas], Ralli, A.[Angela],
Preservation and Management of Greek Dialectal Data,
EuroMed18(I:752-761).
Springer DOI 1811
Text and oral, dialects. BibRef

Li, R., Yu, J.,
Multimodal 3D visible articulation system for syllable based Mandarin Chinese training,
VCIP17(1-4)
IEEE DOI 1804
computer animation, computer based training, data visualisation, linguistics, mean square error methods, speech processing, multimodal human-computer interface BibRef

Le, N., Odobez, J.M.,
Improving Speaker Turn Embedding by Crossmodal Transfer Learning from Face Embedding,
CVAVM17(428-437)
IEEE DOI 1802
Acoustics, Face, Speech, Speech recognition, TV, Training BibRef

Arandjelovic, R.[Relja], Zisserman, A.[Andrew],
Look, Listen and Learn,
ICCV17(609-617)
IEEE DOI 1802
Audio-visual. learning (artificial intelligence), object recognition, video signal processing, audio networks, audio representations, Visualization BibRef

Muniandy, T.[Thagirarani], Alvar, T.A.[Thamilvaani Arvaree], Boon, C.J.[Chong Jiang],
Mandarin Language Learning System for Nasal Voice User,
IVIC17(376-388).
Springer DOI 1711
BibRef

Madhavi, M.C.[Maulik C.], Patil, H.A.[Hemant A.], Bhendawade, N.[Nikhil],
Spoken Keyword Retrieval Using Source and System Features,
PReMI17(333-341).
Springer DOI 1711
BibRef

Addarrazi, I., Satori, H., Satori, K.,
Amazigh audiovisual speech recognition system design,
ISCV17(1-5)
IEEE DOI 1710
Face, Feature extraction, Hidden Markov models, Lips, Mouth, Speech recognition, Visualization, Audio-visual recognition, Automatic Speech Recognition, HMM, lip, reading BibRef

Wu, C., Ng, R.W.M., Torralba, O.S., Hain, T.,
Analysing acoustic model changes for active learning in automatic speech recognition,
WSSIP17(1-5)
IEEE DOI 1707
Acoustics, Adaptation models, Analytical models, Computational modeling, Data models, Hidden Markov models, Measurement, Active learning, confidence measures, data selection, speaker, adaptation BibRef

Kacprzak, S.,
Spoken language clustering in the i-vectors space,
WSSIP17(1-5)
IEEE DOI 1707
Clustering algorithms, Data visualization, Impurities, NIST, Speech, Training, Training data, i-vectors, language clustering, language, recognition BibRef

Pironkov, G., Dupont, S., Dutoit, T.,
Speaker-aware Multi-Task Learning for automatic speech recognition,
ICPR16(2900-2905)
IEEE DOI 1705
Acoustics, Automatic speech recognition, Feature extraction, Machine learning, Speech, Training BibRef

Zhao, Y., Zhao, R.[Rui], Wang, X.Y.[Xiao-Yang], Ji, Q.,
Multilingual articulatory features augmentation learning,
ICPR16(2895-2899)
IEEE DOI 1705
Dictionaries, Encoding, Feature extraction, Mel frequency cepstral coefficient, Semantics, Speech, Speech recognition, latent attribute learning, multilingual articulatory features, phone recognition, sparse coding, speech, attributes BibRef