Basic approaches to speech recognition (Part I)
Keywords:
speech recognition, noise reduction, speech signal segmentation, voiced signal, phoneme, mel scale, formant, allophone, statistical analysis, correlation analysis, hidden markov models, gaussian mixture models, likelihood ratioAbstract
This paper is devoted to describing and classification of the nowadays available speech processing and recognition techniques. Initial stages of speech signal processing are investigated and speech recognition systems are classified. Various approaches of processing, treatment and recognition of speech signal are analyzed. Speech signal noise reduction, segmentation and parameterization methods are also come into question. Great attention dedicated to the comparison of the different methods of speech recognition. Correlation analysis, phoneme-reference method, expert systems, hidden Markov models and Gaussian mixture models are considered.References
1. Плотников В. Н. Речевой диалог в системах управления / В. Н. Плотников, В. А. Суханов, Ю. Н. Жигулевцев. — М. : Машиностроение, 1988. — 223 с. — ISBN 5-217-00148-8.
2. Аграновский А. В. Теоретические аспекты алгоритмов обработки и классификации сигналов / А. В. Аграновский, Д. А. Леднов. — М. : Радио и связь, 2004. — 164 с.
3. Большаков И. А. Статистические проблемы выделения потока сигналов из шума / И. А. Большаков. — М. : Советское радио, 1969. — 464 с.
4. Jakobson R. Preliminaries to speech analysis. The distinctive features and their correlates / R. Jakobson, C. Gunnar,
М. Fant, M. Halle. — Cambridge : Massachusetts Institute of Technology, 1961. — ISBN 978-0-262-60001-9.
5. Фант Г. Акустическая теория речеобразования / Гуннар Фант. — М. : Наука, 1964. — 284 с.
6. Рабинер Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд. — М. : Мир, 1978. — 848 с.
7. Биков М. Дикторонезалежне описання образів в системах розпізнавання сигналів мови / Микола Биков, Абдурахман Раїмі, Максим Биков // Вимірювальна техніка та метрологія. Збірник наукових праць. — 2006. — № 66. —
С. 13—17.
8. Waheed K. A robust algorithm for detecting speech segments using an entropy contrast : праці міжн. конф. 45th IEEE International Midwest Symposium on Circuits and Systems MWSCAS'2002, 4-7 серп. 2002, Oklahoma (USA). — С. 328—331, III.
9. Shen J.-L., Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments : праці міжн. конф., 30 лист. — 4 груд. 1998, 5th International Conference on Spoken Language Processing, Sydney (Australia).
10. M. Fujimoto. Evaluation of noisy speech recognition based on noise reduction and acoustic model adaptation on the AURORA2 tasks : праці міжн.конф., вер. 2002, Spoken Lang. Processing' ICSLP'2002, Denver (USA), 2000 — С. 465—468, I.
11. Рабинер Р. Л. Цифровая обработка речевых сигналов / Р. Л. Рабинер. — М. : Радио и связь, 1981. — 495 с.
12. Itakura F. Minimum Prediction Residual Principle Applied to Speech Recognition : праці наук. конф., Лютий 1975, IEEE Trans. Acoustics, Speech, and Signal Proc, 1975. — Т. 23, № 1. — С. 67—72.
13. Потапова Р. К. Речевое управление роботом / P. K. Потапова. — М : Радио и связь, 1989. — 328 с.
14. Бовбель Е. И. Статистические методы распознавания речи: скрытые Марковские модели / Е. И. Бовбель,
И. Э. Хейдеров // Зарубежная радиоэлектроника. Успехи современной радиоэлектроники. — 1998. — № 3. — С. 45—65.
15. Reynolds D. Speaker verification using adapted gaussian mixture models / Douglas A. Reynolds, Thomas F. Quatieri, Robert B. Dunn // Digital Signal Processing. — 2000. — № 10. — С. 19—41.
16. Rose R. Text-independent speaker identification using automatic acoustic segmentation : праці міжн. конф., 3 — 6 квіт. 1990, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 1990. — С. 293—296, I.
17. Reynolds D. Speaker identification and verification using Gaussian mixture speaker models / D. A. Reynolds // Speech Communication. — 1995. — № 17. — С. 91—108.
18. Matsui T. Likelihood normalization for speaker verification using a phoneme and speaker-independent model / T. Matsui, S.Furui // Speech Commun. — 1995. — № 17. — С. 109—116.
19. Rosenberg A. E. Speaker background models for connected digit password speaker verification : праці міжн. конф. International Conference on Acoustics, Speech, and Signal Processing, 1996. С. 81—84.
20. Quatieri Т. Magnitude-only estimation of handset nonlinearity with application to speaker recognition : праці міжн. конф. International Conference on Acoustics, Speech, and Signal Processing, May 1998.
2. Аграновский А. В. Теоретические аспекты алгоритмов обработки и классификации сигналов / А. В. Аграновский, Д. А. Леднов. — М. : Радио и связь, 2004. — 164 с.
3. Большаков И. А. Статистические проблемы выделения потока сигналов из шума / И. А. Большаков. — М. : Советское радио, 1969. — 464 с.
4. Jakobson R. Preliminaries to speech analysis. The distinctive features and their correlates / R. Jakobson, C. Gunnar,
М. Fant, M. Halle. — Cambridge : Massachusetts Institute of Technology, 1961. — ISBN 978-0-262-60001-9.
5. Фант Г. Акустическая теория речеобразования / Гуннар Фант. — М. : Наука, 1964. — 284 с.
6. Рабинер Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд. — М. : Мир, 1978. — 848 с.
7. Биков М. Дикторонезалежне описання образів в системах розпізнавання сигналів мови / Микола Биков, Абдурахман Раїмі, Максим Биков // Вимірювальна техніка та метрологія. Збірник наукових праць. — 2006. — № 66. —
С. 13—17.
8. Waheed K. A robust algorithm for detecting speech segments using an entropy contrast : праці міжн. конф. 45th IEEE International Midwest Symposium on Circuits and Systems MWSCAS'2002, 4-7 серп. 2002, Oklahoma (USA). — С. 328—331, III.
9. Shen J.-L., Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments : праці міжн. конф., 30 лист. — 4 груд. 1998, 5th International Conference on Spoken Language Processing, Sydney (Australia).
10. M. Fujimoto. Evaluation of noisy speech recognition based on noise reduction and acoustic model adaptation on the AURORA2 tasks : праці міжн.конф., вер. 2002, Spoken Lang. Processing' ICSLP'2002, Denver (USA), 2000 — С. 465—468, I.
11. Рабинер Р. Л. Цифровая обработка речевых сигналов / Р. Л. Рабинер. — М. : Радио и связь, 1981. — 495 с.
12. Itakura F. Minimum Prediction Residual Principle Applied to Speech Recognition : праці наук. конф., Лютий 1975, IEEE Trans. Acoustics, Speech, and Signal Proc, 1975. — Т. 23, № 1. — С. 67—72.
13. Потапова Р. К. Речевое управление роботом / P. K. Потапова. — М : Радио и связь, 1989. — 328 с.
14. Бовбель Е. И. Статистические методы распознавания речи: скрытые Марковские модели / Е. И. Бовбель,
И. Э. Хейдеров // Зарубежная радиоэлектроника. Успехи современной радиоэлектроники. — 1998. — № 3. — С. 45—65.
15. Reynolds D. Speaker verification using adapted gaussian mixture models / Douglas A. Reynolds, Thomas F. Quatieri, Robert B. Dunn // Digital Signal Processing. — 2000. — № 10. — С. 19—41.
16. Rose R. Text-independent speaker identification using automatic acoustic segmentation : праці міжн. конф., 3 — 6 квіт. 1990, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 1990. — С. 293—296, I.
17. Reynolds D. Speaker identification and verification using Gaussian mixture speaker models / D. A. Reynolds // Speech Communication. — 1995. — № 17. — С. 91—108.
18. Matsui T. Likelihood normalization for speaker verification using a phoneme and speaker-independent model / T. Matsui, S.Furui // Speech Commun. — 1995. — № 17. — С. 109—116.
19. Rosenberg A. E. Speaker background models for connected digit password speaker verification : праці міжн. конф. International Conference on Acoustics, Speech, and Signal Processing, 1996. С. 81—84.
20. Quatieri Т. Magnitude-only estimation of handset nonlinearity with application to speaker recognition : праці міжн. конф. International Conference on Acoustics, Speech, and Signal Processing, May 1998.
Downloads
-
PDF (Українська)
Downloads: 2772
Abstract views: 243
Published
2010-11-12
How to Cite
[1]
H. O. Dobrushkin and V. Y. Danylov, “Basic approaches to speech recognition (Part I)”, Вісник ВПІ, no. 4, pp. 50–64, Nov. 2010.
Issue
Section
Information technologies and computer sciences
License
Authors who publish with this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgment of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).