HYBRIDKAZASR: ГИБРИДНАЯ СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ НА ОСНОВЕ МНОГОМОДЕЛЬНОГО ОБЪЕДИНЕНИЯ ROVER И МОРФЕМНО-ОРИЕНТИРОВАННОГО ЯЗЫКОВОГО МОДЕЛИРОВАНИЯ

Авторы

  • Карабалиев Е. докторант, Международный университет информационных технологий, Алматы, Казахстан
  • Колесникова К. доктор технических наук, профессор, Международный университет информационных технологий, Алматы, Казахстан
  • Хлевна Ю. доктор технических наук, профессор, кафедра управления технологиями, Киевский национальный университет имени Тараса Шевченко, Киев, Украина

DOI:

https://doi.org/10.32014/2026.2518-1726.434

Ключевые слова:

распознавание казахской речи; автоматическое распознавание речи; гибридный конвейер ASR; морфемная языковая модель; объединение ROVER; FastConformer; MMS; адаптер-замена; агглютинативная морфология

Аннотация

В данной статье представлена HybridKazASR – гибридная система автоматического распознавания речи для казахского языка, объединяющая три акустические модели в многоступенчатом конвейере. Система сочетает NVIDIA FastConformer (115M параметров, декодер RNNT) с двумя доменно-адаптированными вариантами Meta MMS-1B (965M параметров, декодер CTC): один дообучен на FLEURS (чтение), другой на KSD (естественная речь). Ключевое техническое новшество – механизм адаптер-замены, переключающий между вариантами MMS путем замены только 138 348 параметров (около 542 КБ) в выходном слое CTC. Три гипотезы объединяются через 3-стороннюю систему ROVER и подвергаются двухэтапной переоценке: сначала словесной моделью KenLM, затем морфемной моделью KazMorphLM. На тестовом наборе FLEURS (100 образцов) HybridKazASR достигает WER 6,30%, нормализованного WER 4,18% и CER 1,90%. Абляционные исследования подтверждают вклад каждого компонента, при этом KazMorphLM обеспечивает 31,1% относительного улучшения по сравнению с KenLM.

Загрузки

Опубликован

2026-06-18

Как цитировать

Karabaliyev, Y. ., Kolesnikova, K., & Khlevnaya , Y. (2026). HYBRIDKAZASR: ГИБРИДНАЯ СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ НА ОСНОВЕ МНОГОМОДЕЛЬНОГО ОБЪЕДИНЕНИЯ ROVER И МОРФЕМНО-ОРИЕНТИРОВАННОГО ЯЗЫКОВОГО МОДЕЛИРОВАНИЯ. Academic Scientific Journal of Computer Science, (2), 198–211. https://doi.org/10.32014/2026.2518-1726.434

Выпуск

Раздел

Информационно-коммуникационные технологии