Sistema para identificación de hablantes robusto a cambios en la voz
Main Article Content
Abstract
Los sistemas de reconocimiento de hablante se componen de tres partes principales: preprocesamiento, extracción de características y clasificación de vectores. En el trabajo presente se considera la cuestión de los cambios en la voz, voluntarios e involuntarios, y cómo esto afecta al reconocimiento de hablante. Para este proyecto se detalla todo el pre procesamiento que se realiza sobre la señal y cómo se obtienen los segmentos vocalizados de la misma. También se aplica un modelo de elaboración de vectores característicos basados en ciertas propiedades de la voz, y en Coeficientes Cepstrales en la Frecuencia de Mel (MFCC), así como una Máquina de Soporte Vectorial (SVM) y una Red Neuronal Artificial (ANN) como clasificadores, posteriormente se comparan los resultados obtenidos. Las pruebas realizadas consisten en analizar la trama que se le presenta al sistema, detectar el segmento vocalizado e indicarle al sistema de qué vocal se trata, para posteriormente, identificar a qué persona pertenece dicha vocal. Los resultados muestran que la elaboración de estos vectores conjuntando propiedades y coeficientes MFCC tienen un alto índice de reconocimiento.
Keywords
References
Y. Hong-wu, L. Ya-li, and H. De-zhi, “Speaker recognition based on weighted mel-cepstrum,” in Fourth International Conference on Computer Sciences and Convergence Information Technology. ICCIT’09. IEEE, 2009, pp. 200–203.
J. Padrell-Sendra, D. Mart?n-Iglesias, and F. D?azde Mar?a, “Support vector machines for continuous speech recognition,” in Proceedings of the 14th European Signal Processing Conference, Florence, Italy, vol. 160, 2006.
M. Kesarkar, “Feature extraction for speech recognition,” Electronic Systems, EE. Dept., IIT Bombay, 2003.
X. Sun, “A pitch determination algorithm based on subharmonic-to-harmonic ratio,” in Proceedings of the 6th International Conference on Spoken Language Processing, Beijing, China., vol. 1000. Citeseer, October, 2000, pp. 676–679.
——, “Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio,” in International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 1. IEEE, 2002, pp. 333–336.
M. Farrús, J. Hernando, and P. Ejarque, “Jitter and shimmer measurements for speaker recognition,” in 8th Annual Conference of the International Speech Communication Association, Antwerp, Belgium, August 27-31, 2007, pp. 778–781.
P. Del Pino, I. Granadillo, M. Miranda, C. Jiménez, and J. Díaz, “Diseño de un sistema de medición de parámetros característicos y de calidad de señales de voz,” Revista Ingeniería UC, vol. 15, no. 2, pp. 13–20, 2008.
A. V. Mantilla C, “Análisis, reconocimiento y síntesis de voz esofágica,” Ph.D. dissertation, Sección de Estudios de Posgrado e Investigación, Escuela Superior de Ingeniería Mecánica y Eléctrica, Instituto Politécnico Nacional, Agosto, 2007.
L. Siegel and A. Bessey, “Voiced / unvoiced / mixed excitation classification of speech,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 30, no. 3, pp. 451–460, 1982.
B. Boser, I. Guyon, and V. Vapnik, “A training algorithm for optimal margin classifiers,” in Proceedings of the 5th annual workshop on Computational Learning Theory. ACM, 1992, pp. 144– 152.
R. Solera-Urena, J. Padrell-Sendra, D. MartínIglesias, A. Gallardo-Antolín, C. Peláez-Moreno, and F. Díaz-De-María, “Svms for automatic speech recognition: a survey,” Progress in nonlinear speech processing, pp. 190–216, 2007.
L. Cruz-Beltrán and M. Acevedo-Mosqueda, “Reconocimiento de voz usando redes neuronales artificiales backpropagation y coeficientes lpc,” in 6to Congreso Internacional de Cómputo en Optimización y Software. CiCos, 2008, pp. 89–99.
J. Padrell-Sendra, D. Mart?n-Iglesias, and F. D?azde Mar?a, “Support vector machines for continuous speech recognition,” in Proceedings of the 14th European Signal Processing Conference, Florence, Italy, vol. 160, 2006.
M. Kesarkar, “Feature extraction for speech recognition,” Electronic Systems, EE. Dept., IIT Bombay, 2003.
X. Sun, “A pitch determination algorithm based on subharmonic-to-harmonic ratio,” in Proceedings of the 6th International Conference on Spoken Language Processing, Beijing, China., vol. 1000. Citeseer, October, 2000, pp. 676–679.
——, “Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio,” in International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 1. IEEE, 2002, pp. 333–336.
M. Farrús, J. Hernando, and P. Ejarque, “Jitter and shimmer measurements for speaker recognition,” in 8th Annual Conference of the International Speech Communication Association, Antwerp, Belgium, August 27-31, 2007, pp. 778–781.
P. Del Pino, I. Granadillo, M. Miranda, C. Jiménez, and J. Díaz, “Diseño de un sistema de medición de parámetros característicos y de calidad de señales de voz,” Revista Ingeniería UC, vol. 15, no. 2, pp. 13–20, 2008.
A. V. Mantilla C, “Análisis, reconocimiento y síntesis de voz esofágica,” Ph.D. dissertation, Sección de Estudios de Posgrado e Investigación, Escuela Superior de Ingeniería Mecánica y Eléctrica, Instituto Politécnico Nacional, Agosto, 2007.
L. Siegel and A. Bessey, “Voiced / unvoiced / mixed excitation classification of speech,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 30, no. 3, pp. 451–460, 1982.
B. Boser, I. Guyon, and V. Vapnik, “A training algorithm for optimal margin classifiers,” in Proceedings of the 5th annual workshop on Computational Learning Theory. ACM, 1992, pp. 144– 152.
R. Solera-Urena, J. Padrell-Sendra, D. MartínIglesias, A. Gallardo-Antolín, C. Peláez-Moreno, and F. Díaz-De-María, “Svms for automatic speech recognition: a survey,” Progress in nonlinear speech processing, pp. 190–216, 2007.
L. Cruz-Beltrán and M. Acevedo-Mosqueda, “Reconocimiento de voz usando redes neuronales artificiales backpropagation y coeficientes lpc,” in 6to Congreso Internacional de Cómputo en Optimización y Software. CiCos, 2008, pp. 89–99.