HYBRIDKAZASR: ГИБРИДНАЯ СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ НА ОСНОВЕ МНОГОМОДЕЛЬНОГО ОБЪЕДИНЕНИЯ ROVER И МОРФЕМНО-ОРИЕНТИРОВАННОГО ЯЗЫКОВОГО МОДЕЛИРОВАНИЯ
DOI:
https://doi.org/10.32014/2026.2518-1726.434Ключевые слова:
распознавание казахской речи; автоматическое распознавание речи; гибридный конвейер ASR; морфемная языковая модель; объединение ROVER; FastConformer; MMS; адаптер-замена; агглютинативная морфологияАннотация
В данной статье представлена HybridKazASR – гибридная система автоматического распознавания речи для казахского языка, объединяющая три акустические модели в многоступенчатом конвейере. Система сочетает NVIDIA FastConformer (115M параметров, декодер RNNT) с двумя доменно-адаптированными вариантами Meta MMS-1B (965M параметров, декодер CTC): один дообучен на FLEURS (чтение), другой на KSD (естественная речь). Ключевое техническое новшество – механизм адаптер-замены, переключающий между вариантами MMS путем замены только 138 348 параметров (около 542 КБ) в выходном слое CTC. Три гипотезы объединяются через 3-стороннюю систему ROVER и подвергаются двухэтапной переоценке: сначала словесной моделью KenLM, затем морфемной моделью KazMorphLM. На тестовом наборе FLEURS (100 образцов) HybridKazASR достигает WER 6,30%, нормализованного WER 4,18% и CER 1,90%. Абляционные исследования подтверждают вклад каждого компонента, при этом KazMorphLM обеспечивает 31,1% относительного улучшения по сравнению с KenLM.




