АНАЛИЗ И КЛАССИФИКАЦИЯ ТЕЛЕФОННОГО МОШЕННИЧЕСТВА НА ОСНОВЕ ЛЕКСИЧЕСКИХ ПРИЗНАКОВ РЕЧЕВЫХ ТРАНСКРИПЦИЙ
DOI:
https://doi.org/10.32014/2026.2518-1726.418Ключевые слова:
телефонное мошенничество, вишинг, машинное обучение, обработка естественного языка, распознавание речи, TF–IDF, классификация текстовАннотация
Телефонное мошенничество (вишинг) является одной из наиболее распространённых форм социального инжиниринга, наносящей значительный финансовый и психологический ущерб. В условиях постоянной смены номеров и сценариев мошенников традиционные методы защиты оказываются недостаточно эффективными, что обусловливает необходимость автоматического анализа содержимого телефонных разговоров. В данной работе продемонстрированы эксперименты с методами машинного обучения для поиска ложных звонков. Исследование показывает, как машина может находить мошенников по тексту разговора. Для этого эксперимента собрали русский набор данных. В него вошли 1400 телефонных разговоров. В наборе есть как мошеннические, так и обычные звонки. Все разговоры взяли из открытого источника YouTube. Аудиозаписи были автоматически транскрибированы с использованием нейросетевой модели распознавания речи Whisper, после чего тексты подвергались нормализации и лемматизации. В качестве признакового представления использовались TF–IDF униграммы и биграммы. На полученных данных были обучены и сравнены несколько классических моделей машинного обучения, включая Logistic Regression, Linear SVM, Multinomial Naive Bayes, Random Forest и XGBoost. Экспериментальные результаты показали, что все рассмотренные модели достигают высокой точности классификации, при этом наилучшие показатели продемонстрировали линейные модели и классификатор Multinomial Naive Bayes с минимальным сглаживанием (accuracy до 94%, ROC–AUC до 0.99). Анализ слов помог найти чёткие признаки, по которым можно узнать речь мошенника. Эти признаки часто встречаются в обычных схемах социального обмана. Устойчивость и обобщающая способность моделей были подтверждены с использованием k-кратной кросс-валидации и анализа ROC–AUC. Эти результаты показывают, что этот способ помогает находить телефонное мошенничество в жизни.




