ОБНАРУЖЕНИЕ ИСКУССТВЕННОГО ГОЛОСА DEEPFAKE. СРАВНЕНИЕ ЭФФЕКТИВНОСТИ МОДЕЛЕЙ LSTM И CNN

Авторы

  • Абен А.Б. докторант по образовательной программе «Информационные системы», Международный казахско-турецкий университет имени Ходжи Ахмеда Ясави, Туркестан, Казахстан
  • Жунисов Н.М. PhD, старший преподаватель, Международный казахскотурецкий университет имени Ходжи Ахмеда Ясави, Туркестан, Казахстан
  • Казбекова Г.Н. кандидат технических наук, и.о. доцента, Международный казахско-турецкий университет имени Ходжи Ахмеда Ясави, Туркестан, Казахстан
  • Аманов А.Н. PhD, старший преподаватель, Международный казахскотурецкий университет имени Ходжи Ахмеда Ясави, Туркестан, Казахстан
  • Абибуллаева А.А. PhD, старший преподаватель, Международный казахско-турецкий университет имени Ходжи Ахмеда Ясави, Туркестан, Казахстан

DOI:

https://doi.org/10.32014/2025.2518-1726.323

Ключевые слова:

DeepFake, классификация голосов, аудиосигналы, мелчастотные кепстральные коэффициенты (MFCC), нулевая частота пересечения (ZCR), модель LSTM, модель CNN

Аннотация

Данное исследование представляет новую методику для обнаружения голосов DeepFake, основанную на эффективной классификации фейковых и реальных аудиосигналов. С целью улучшения оценки информации в аудитории были собраны аудиозаписи голосов 58 политиков и публичных фигур, содержащие как реальные, так и фейковые аудиофайлы.
В исследовании фейковые аудиопримеры были искусственно созданы, в то время как реальные образцы были получены из достоверных источников. Для анализа структуры аудиосигналов использовались коэффициенты мел-частотного кепстра (MFCC), метрика нулевого пересечения (ZCR) и визуализация данных, включая столбчатые диаграммы и гистограммы.
В ходе исследования была проанализирована распределение числовых значений, длины, особенности MFCC и значения ZCR фейковых и реальных аудиопримеров. Модели LSTM и CNN были протестированы для обнаружения голосов DeepFake, в результате чего модель LSTM достигла 100% точности, а модель CNN была оценена на уровне 97,50% точности. Полученные результаты продемонстрировали, что модель LSTM может точно и надежно различать фейковые и реальные аудиозаписи, подчеркивая важность оценки подлинности аудиосигналов с учетом опасностей, связанных с технологией DeepFake.

Данное исследование предлагает функциональные методологии, направленные на разработку систем с визуальными методами анализа данных, а также открывает новые способы определения подлинности аудиосигналов и демонстрирует эффективность применения современных технологий глубокого обучения. Исследование подчеркивает, что DeepFake
играет важную роль в оценке и идентификации информации в аудитории и предоставляет основы для будущих исследований и практики.

Загрузки

Опубликован

2025-03-20

Как цитировать

Aben, A., Zhunissov, N., Kazbekova, G., Amanov, A., & Abibullayeva, A. (2025). ОБНАРУЖЕНИЕ ИСКУССТВЕННОГО ГОЛОСА DEEPFAKE. СРАВНЕНИЕ ЭФФЕКТИВНОСТИ МОДЕЛЕЙ LSTM И CNN. Известия НАН РК. Серия физико-математическая, (1), 32–48. https://doi.org/10.32014/2025.2518-1726.323