ОЦЕНКА ЭФФЕКТИВНОСТИ СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ АРХИТЕКТУР VAD ПРИ НИЗКОМ ОТНОШЕНИИ СИГНАЛ/ШУМ

А. Кулакаева; Е. Дайнеко; Б. Медетов; А. Нурланкызы

doi:10.32014/2025.2518-1726.392

Авторы

А. Кулакаева PhD, Ассоциированный профессор Международного университета информационных технологий, Алматы, Казахстан
Е. Дайнеко PhD, Ассоциированный-профессор, Проректор по глобальному партнерству и дополнительному образованию Алматы, Казахстан
Б. Медетов PhD, Ассоциированный профессор Евразийского национального университета им. Л.Н. Гумилева, Астана, Казахстан
А. Нурланкызы PhD, старший преподаватель, Сатпаев университет; Алматинский университет энергетики и связи им. Гумарбека Даукеева, Алматы, Казахстан

DOI:

https://doi.org/10.32014/2025.2518-1726.392

Ключевые слова:

детекторы голосовой активности, отношение сигнал/шум, рекуррентные нейронные сети, сверточные нейронные сети, машинное обучение

Аннотация

В настоящей работе рассмотрена задача повышения устойчивости систем обнаружения голосовой активности VAD к воздействию акустических помех, что особенно актуально для практического применения в мобильных устройствах и телекоммуникационных системах. Проведено экспериментальное сравнение пяти гибридных нейросетевых архитектур (CNN+BiGRU, CNN+GRU, CNN+LSTM, CNN+BiLSTM и CNN+TDNN) на большом корпусе казахской речи Kazakh Speech Corpus (KSC2), дополненном синтетическим и реальным шумом из базы ESC-50 при уровне ОСШ от –20 до +30 дБ. Для формирования признакового пространства использовались мел-частотные кепстральные коэффициенты (MFCC), что обеспечило информативное представление аудиосигналов для последующего машинного обучения.

Экспериментальные результаты показали, что все протестированные архитектуры достигают высоких значений Accuracy и F1-score (более 99,3%) во всем диапазоне акустических условий. Архитектура CNN+BiGRU продемонстрировала наилучший баланс между точностью, полнотой и устойчивостью к шуму, тогда как CNN+TDNN выделяется минимальными вычислительными затратами при сопоставимых показателях качества. Анализ матриц ошибок подтвердил способность моделей надежно различать речь и шум даже при низких уровнях отношения сигнал/шум.

Полученные результаты свидетельствуют о высокой пригодности гибридных нейросетевых архитектур для решения задачи VAD в реальных, зашумленных условиях. Наиболее перспективными для практического внедрения являются CNN+BiGRU и CNN+TDNN, что открывает возможности для использования таких моделей в мобильных, встраиваемых и облачных речевых системах.

ОЦЕНКА ЭФФЕКТИВНОСТИ СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ АРХИТЕКТУР VAD ПРИ НИЗКОМ ОТНОШЕНИИ СИГНАЛ/ШУМ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu