REALIZATION OF ONLINE SYSTEMS FOR AUTOMATIC SPEECH RECOGNITION
DOI:
https://doi.org/10.32014/2021.2518-1726.103Ключевые слова:
автоматическое распознавание речи, интегральная модель, рекуррентный преобразователь, нейронный преобразователь, монотонное внимание по частям.Аннотация
Автоматическое распознавание речи является стремительно развивающей областью в машинном обучении. Обычные системы автоматического распознавания речи строились на основе независимых компонентов, это – акустическая модель, языковая модель и лексикон, которые настраивались и обучались по-отдельности. Акустическая модель применяется для предсказания контекстно-зависимых состояний фонем, языковая модель и лексикон определяют наиболее возможные последовательности произносимых фраз. Развитие технологий глубокого обучения способствовало к улучшению других научных направлений, в который и входит распознавание речи. Сегодня наиболее популярными системами распознавания речи на являются системы на основе интегральной (end-to-end) структуры, которая обучает компоненты традиционной модели одновременно без выделения отдельных элементов, представляя систему одной нейронной сетью. Интегральная структура представляет систему как один целый элемент в отличие от традиционной, которая имеет несколько независимых элементов. Интегральная система осуществляет прямое отображение акустических сигналов в последовательности меток без промежуточных состояний, без необходимости выполнять последующую обработку на выходе что делает ее легкой для реализации. На сегодняшний день популярными становятся те модели, которые напрямую выводят последовательность слов с учетом входного звука в режиме реального времени, что представляют собой онлайновые модели end-to-end. В данной статье рассмотрен подробный обзор популярных онлайн моделей для интегральных систем, такие как RNN-T, нейронный преобразователь (Neural Transducer; NT), монотонное внимание по фрагментам (Monotonic Chunkwise Attention; MoChA). Системы на основе этих моделей были обучены для распознавания казахской речи. Полученные результаты показали, что все три модели хорошо работают для распознавания казахской речи без применения внешних дополнений.