ОЦЕНКА ЭФФЕКТИВНОСТИ СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ АРХИТЕКТУР VAD ПРИ НИЗКОМ ОТНОШЕНИИ СИГНАЛ/ШУМ
DOI:
https://doi.org/10.32014/2025.2518-1726.392Ключевые слова:
детекторы голосовой активности, отношение сигнал/шум, рекуррентные нейронные сети, сверточные нейронные сети, машинное обучениеАннотация
В настоящей работе рассмотрена задача повышения устойчивости систем обнаружения голосовой активности VAD к воздействию акустических помех, что особенно актуально для практического применения в мобильных устройствах и телекоммуникационных системах. Проведено экспериментальное сравнение пяти гибридных нейросетевых архитектур (CNN+BiGRU, CNN+GRU, CNN+LSTM, CNN+BiLSTM и CNN+TDNN) на большом корпусе казахской речи Kazakh Speech Corpus (KSC2), дополненном синтетическим и реальным шумом из базы ESC-50 при уровне ОСШ от –20 до +30 дБ. Для формирования признакового пространства использовались мел-частотные кепстральные коэффициенты (MFCC), что обеспечило информативное представление аудиосигналов для последующего машинного обучения.
Экспериментальные результаты показали, что все протестированные архитектуры достигают высоких значений Accuracy и F1-score (более 99,3%) во всем диапазоне акустических условий. Архитектура CNN+BiGRU продемонстрировала наилучший баланс между точностью, полнотой и устойчивостью к шуму, тогда как CNN+TDNN выделяется минимальными вычислительными затратами при сопоставимых показателях качества. Анализ матриц ошибок подтвердил способность моделей надежно различать речь и шум даже при низких уровнях отношения сигнал/шум.
Полученные результаты свидетельствуют о высокой пригодности гибридных нейросетевых архитектур для решения задачи VAD в реальных, зашумленных условиях. Наиболее перспективными для практического внедрения являются CNN+BiGRU и CNN+TDNN, что открывает возможности для использования таких моделей в мобильных, встраиваемых и облачных речевых системах.




