АНАЛИЗ И КЛАССИФИКАЦИЯ ТЕЛЕФОННОГО МОШЕННИЧЕСТВА НА ОСНОВЕ ЛЕКСИЧЕСКИХ ПРИЗНАКОВ РЕЧЕВЫХ ТРАНСКРИПЦИЙ

Авторы

  • Серек А. PhD, ассоциированный профессор, Астана IT Университет, Астана, Казахстан
  • Шойынбек А. PhD, профессор, Университет Нархоз, Алматы, Казахстан
  • Шарипов К. магистрант, Университет Нархоз, Алматы, Казахстан
  • Куанышбай Д. PhD, ассистент-профессор, Университет Нархоз, Алматы, Казахстан
  • Мухаметжанов А. магистрант, SDU Университет, Каскелен, Казахстан

DOI:

https://doi.org/10.32014/2026.2518-1726.418

Ключевые слова:

телефонное мошенничество, вишинг, машинное обучение, обработка естественного языка, распознавание речи, TF–IDF, классификация текстов

Аннотация

Телефонное мошенничество (вишинг) является одной из наиболее распространённых форм социального инжиниринга, наносящей значительный финансовый и психологический ущерб. В условиях постоянной смены номеров и сценариев мошенников традиционные методы защиты оказываются недостаточно эффективными, что обусловливает необходимость автоматического анализа содержимого телефонных разговоров. В данной работе продемонстрированы эксперименты с методами машинного обучения для поиска ложных звонков. Исследование показывает, как машина может находить мошенников по тексту разговора. Для этого эксперимента собрали русский набор данных. В него вошли 1400 телефонных разговоров. В наборе есть как мошеннические, так и обычные звонки. Все разговоры взяли из открытого источника YouTube. Аудиозаписи были автоматически транскрибированы с использованием нейросетевой модели распознавания речи Whisper, после чего тексты подвергались нормализации и лемматизации. В качестве признакового представления использовались TF–IDF униграммы и биграммы. На полученных данных были обучены и сравнены несколько классических моделей машинного обучения, включая Logistic Regression, Linear SVM, Multinomial Naive Bayes, Random Forest и XGBoost. Экспериментальные результаты показали, что все рассмотренные модели достигают высокой точности классификации, при этом наилучшие показатели продемонстрировали линейные модели и классификатор Multinomial Naive Bayes с минимальным сглаживанием (accuracy до 94%, ROC–AUC до 0.99). Анализ слов помог найти чёткие признаки, по которым можно узнать речь мошенника. Эти признаки часто встречаются в обычных схемах социального обмана. Устойчивость и обобщающая способность моделей были подтверждены с использованием k-кратной кросс-валидации и анализа ROC–AUC. Эти результаты показывают, что этот способ помогает находить телефонное мошенничество в жизни.

Загрузки

Опубликован

2026-03-27

Как цитировать

Серек , А., Шойынбек , А., Шарипов, К., Куанышбай , Д., & Мухаметжанов, А. (2026). АНАЛИЗ И КЛАССИФИКАЦИЯ ТЕЛЕФОННОГО МОШЕННИЧЕСТВА НА ОСНОВЕ ЛЕКСИЧЕСКИХ ПРИЗНАКОВ РЕЧЕВЫХ ТРАНСКРИПЦИЙ. Academic Scientific Journal of Computer Science, 357(1), 373–392. https://doi.org/10.32014/2026.2518-1726.418

Выпуск

Раздел

Информационно-коммуникационные технологии