ПРИМЕНЕНИЕ ГИБРИДНОЙ ИНТЕГРАЛЬНОЙ МОДЕЛИ ДЛЯ РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ

Авторы

  • Дина Оралбекова Satbayev University
  • Оркен Мамырбаев Институт информационных и вычислительных технологий
  • Кейлан Алимхан Евразийский национальный университет имени Л.Н. Гумилева
  • Mohamed Othman Universiti Putra Malaysia
  • Багашар Жумажанов Институт информационных и вычислительных технологий

DOI:

https://doi.org/10.32014/2022.2518-1726.117

Ключевые слова:

автоматическое распознавание речи, интегральная модель, CTC, механизм внимания, малоресурсные языки

Аннотация

Распознавание речи играет значимую роль при взаимодействии человека с машиной и техникой. Целью распознавания речи является конвертирование человеческой речи в машиночитаемый формат. Технология speech to text применяется в широких кругах задач, как управление интерфейсом, голосовой поиск, синтез речи и т.д. Данные системы отличаются со своей дружелюбности к пользователю, что помогает управлять устройством без дополнительных механизмов. Современные системы автоматического распознавания речи на основе интегральных моделей показывают очень хорошие результаты с точки зрения точности распознавания языков, которые имеют большие корпусы на несколько тысяч часов речи для обучения системы. Такие модели требуют очень большой объем тренировочных данных, что является проблематичным для мало-ресурсных языков, как казахский язык. Однако, во многих исследованиях было показано что совместное использование CTC с другими интегральными моделями улучшает показатели систем даже с ограниченными обучающими данными. В связи с этим был собран речевой корпус казахского языка с объемом 250 часов речи. В нашей работе впервые была построена совместная модель СТС и кодер-декодер на основе механизма внимания для распознавания казахской речи. В этой модели был применен гибридный тип механизма внимания. Полученные результаты продемонстрировали, что предлагаемая интегральная модель при использовании внешних языковых моделей улучшило показателей системы и показала лучший результат на нашем наборе данных для казахского языка. В результате эксперимента система достигла 5.9% CER, что является конкурентноспособным результатом по распознаванию казахской речи.

Загрузки

Опубликован

2022-03-15

Как цитировать

Oralbekova, D., Мамырбаев, О., Алимхан , К. ., Othman , M. ., & Жумажанов , Б. . (2022). ПРИМЕНЕНИЕ ГИБРИДНОЙ ИНТЕГРАЛЬНОЙ МОДЕЛИ ДЛЯ РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ . Известия НАН РК. Серия физико-математическая, (1), 58–68. https://doi.org/10.32014/2022.2518-1726.117