REALIZATION OF ONLINE SYSTEMS FOR AUTOMATIC SPEECH RECOGNITION

Авторы

  • Dina Oralbekova Satbayev University
  • Mamyrbayev Orken Zhumazhanovich Институт информационных и вычислительных технологий
  • Alimhan Keylan Евразийский национальный университет имени Л.Н. Гумилева
  • Mohamed Othman Universiti Putra Malaysia
  • Zhumazhanov Bagashar Институт информационных и вычислительных технологий

DOI:

https://doi.org/10.32014/2021.2518-1726.103

Ключевые слова:

автоматическое распознавание речи, интегральная модель, рекуррентный преобразователь, нейронный преобразователь, монотонное внимание по частям.

Аннотация

Автоматическое распознавание речи является стремительно развивающей областью в машинном обучении. Обычные системы автоматического распознавания речи строились на основе независимых компонентов, это – акустическая модель, языковая модель и лексикон, которые настраивались и обучались по-отдельности. Акустическая модель применяется для предсказания контекстно-зависимых состояний фонем, языковая модель и лексикон определяют наиболее возможные последовательности произносимых фраз. Развитие технологий глубокого обучения способствовало к улучшению других научных направлений, в который и входит распознавание речи. Сегодня наиболее популярными системами распознавания речи на являются системы на основе интегральной (end-to-end) структуры, которая обучает компоненты традиционной модели одновременно без выделения отдельных элементов, представляя систему одной нейронной сетью.  Интегральная структура представляет систему как один целый элемент в отличие от традиционной, которая имеет несколько независимых элементов. Интегральная система осуществляет прямое отображение акустических сигналов в последовательности меток без промежуточных состояний, без необходимости выполнять последующую обработку на выходе что делает ее легкой для реализации. На сегодняшний день популярными становятся те модели, которые напрямую выводят последовательность слов с учетом входного звука в режиме реального времени, что представляют собой онлайновые модели end-to-end. В данной статье рассмотрен подробный обзор популярных онлайн моделей для интегральных систем, такие как RNN-T, нейронный преобразователь (Neural Transducer; NT), монотонное внимание по фрагментам (Monotonic Chunkwise Attention; MoChA). Системы на основе этих моделей были обучены для распознавания казахской речи. Полученные результаты показали, что все три модели хорошо работают для распознавания казахской речи без применения внешних дополнений.

Загрузки

Опубликован

2021-12-15

Как цитировать

Oralbekova, D., Mamyrbayev, O., Alimhan, K., Othman , M. ., & Zhumazhanov , B. . (2021). REALIZATION OF ONLINE SYSTEMS FOR AUTOMATIC SPEECH RECOGNITION. Известия НАН РК. Серия физико-математическая, (6), 66–72. https://doi.org/10.32014/2021.2518-1726.103