Basic approaches to speech recognition (Part I)

Authors

  • H. O. Dobrushkin Національний університет України «Київський політехнічний інститут»
  • V. Ya. Danylov Національний університет України «Київський політехнічний інститут»

Keywords:

speech recognition, noise reduction, speech signal segmentation, voiced signal, phoneme, mel scale, formant, allophone, statistical analysis, correlation analysis, hidden markov models, gaussian mixture models, likelihood ratio

Abstract

This paper is devoted to describing and classification of the nowadays available speech processing and recognition techniques. Initial stages of speech signal processing are investigated and speech recognition systems are classified. Various approaches of processing, treatment and recognition of speech signal are analyzed. Speech signal noise reduction, segmentation and parameterization methods are also come into question. Great attention dedicated to the comparison of the different methods of speech recognition. Correlation analysis, phoneme-reference method, expert systems, hidden Markov models and Gaussian mixture models are considered.

Author Biographies

H. O. Dobrushkin, Національний університет України «Київський політехнічний інститут»

аспірант кафедри математичних методів системного аналізу

V. Ya. Danylov, Національний університет України «Київський політехнічний інститут»

професор кафедри математичних методів системного аналізу

References

1. Плотников В. Н. Речевой диалог в системах управления / В. Н. Плотников, В. А. Суханов, Ю. Н. Жигулевцев. — М. : Машиностроение, 1988. — 223 с. — ISBN 5-217-00148-8.
2. Аграновский А. В. Теоретические аспекты алгоритмов обработки и классификации сигналов / А. В. Аграновский, Д. А. Леднов. — М. : Радио и связь, 2004. — 164 с.
3. Большаков И. А. Статистические проблемы выделения потока сигналов из шума / И. А. Большаков. — М. : Советское радио, 1969. — 464 с.
4. Jakobson R. Preliminaries to speech analysis. The distinctive features and their correlates / R. Jakobson, C. Gunnar,
М. Fant, M. Halle. — Cambridge : Massachusetts Institute of Technology, 1961. — ISBN 978-0-262-60001-9.
5. Фант Г. Акустическая теория речеобразования / Гуннар Фант. — М. : Наука, 1964. — 284 с.
6. Рабинер Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд. — М. : Мир, 1978. — 848 с.
7. Биков М. Дикторонезалежне описання образів в системах розпізнавання сигналів мови / Микола Биков, Абдурахман Раїмі, Максим Биков // Вимірювальна техніка та метрологія. Збірник наукових праць. — 2006. — № 66. —
С. 13—17.
8. Waheed K. A robust algorithm for detecting speech segments using an entropy contrast : праці міжн. конф. 45th IEEE International Midwest Symposium on Circuits and Systems MWSCAS'2002, 4-7 серп. 2002, Oklahoma (USA). — С. 328—331, III.
9. Shen J.-L., Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments : праці міжн. конф., 30 лист. — 4 груд. 1998, 5th International Conference on Spoken Language Processing, Sydney (Australia).
10. M. Fujimoto. Evaluation of noisy speech recognition based on noise reduction and acoustic model adaptation on the AURORA2 tasks : праці міжн.конф., вер. 2002, Spoken Lang. Processing' ICSLP'2002, Denver (USA), 2000 — С. 465—468, I.
11. Рабинер Р. Л. Цифровая обработка речевых сигналов / Р. Л. Рабинер. — М. : Радио и связь, 1981. — 495 с.
12. Itakura F. Minimum Prediction Residual Principle Applied to Speech Recognition : праці наук. конф., Лютий 1975, IEEE Trans. Acoustics, Speech, and Signal Proc, 1975. — Т. 23, № 1. — С. 67—72.
13. Потапова Р. К. Речевое управление роботом / P. K. Потапова. — М : Радио и связь, 1989. — 328 с.
14. Бовбель Е. И. Статистические методы распознавания речи: скрытые Марковские модели / Е. И. Бовбель,
И. Э. Хейдеров // Зарубежная радиоэлектроника. Успехи современной радиоэлектроники. — 1998. — № 3. — С. 45—65.
15. Reynolds D. Speaker verification using adapted gaussian mixture models / Douglas A. Reynolds, Thomas F. Quatieri, Robert B. Dunn // Digital Signal Processing. — 2000. — № 10. — С. 19—41.
16. Rose R. Text-independent speaker identification using automatic acoustic segmentation : праці міжн. конф., 3 — 6 квіт. 1990, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 1990. — С. 293—296, I.
17. Reynolds D. Speaker identification and verification using Gaussian mixture speaker models / D. A. Reynolds // Speech Communication. — 1995. — № 17. — С. 91—108.
18. Matsui T. Likelihood normalization for speaker verification using a phoneme and speaker-independent model / T. Matsui, S.Furui // Speech Commun. — 1995. — № 17. — С. 109—116.
19. Rosenberg A. E. Speaker background models for connected digit password speaker verification : праці міжн. конф. International Conference on Acoustics, Speech, and Signal Processing, 1996. С. 81—84.
20. Quatieri Т. Magnitude-only estimation of handset nonlinearity with application to speaker recognition : праці міжн. конф. International Conference on Acoustics, Speech, and Signal Processing, May 1998.

Downloads

Abstract views: 243

Published

2010-11-12

How to Cite

[1]
H. O. Dobrushkin and V. Y. Danylov, “Basic approaches to speech recognition (Part I)”, Вісник ВПІ, no. 4, pp. 50–64, Nov. 2010.

Issue

Section

Information technologies and computer sciences

Metrics

Downloads

Download data is not yet available.