АНАЛИЗ И КЛАССИФИКАЦИЯ ТЕЛЕФОННОГО МОШЕННИЧЕСТВА НА ОСНОВЕ ЛЕКСИЧЕСКИХ ПРИЗНАКОВ РЕЧЕВЫХ ТРАНСКРИПЦИЙ

А. Серек; А. Шойынбек; К. Шарипов; Д. Куанышбай; А. Мухаметжанов

doi:10.32014/2026.2518-1726.418

Авторы

Серек А. PhD, ассоциированный профессор, Астана IT Университет, Астана, Казахстан
Шойынбек А. PhD, профессор, Университет Нархоз, Алматы, Казахстан
Шарипов К. магистрант, Университет Нархоз, Алматы, Казахстан
Куанышбай Д. PhD, ассистент-профессор, Университет Нархоз, Алматы, Казахстан
Мухаметжанов А. магистрант, SDU Университет, Каскелен, Казахстан

DOI:

https://doi.org/10.32014/2026.2518-1726.418

Ключевые слова:

телефонное мошенничество, вишинг, машинное обучение, обработка естественного языка, распознавание речи, TF–IDF, классификация текстов

Аннотация

Телефонное мошенничество (вишинг) является одной из наиболее распространённых форм социального инжиниринга, наносящей значительный финансовый и психологический ущерб. В условиях постоянной смены номеров и сценариев мошенников традиционные методы защиты оказываются недостаточно эффективными, что обусловливает необходимость автоматического анализа содержимого телефонных разговоров. В данной работе продемонстрированы эксперименты с методами машинного обучения для поиска ложных звонков. Исследование показывает, как машина может находить мошенников по тексту разговора. Для этого эксперимента собрали русский набор данных. В него вошли 1400 телефонных разговоров. В наборе есть как мошеннические, так и обычные звонки. Все разговоры взяли из открытого источника YouTube. Аудиозаписи были автоматически транскрибированы с использованием нейросетевой модели распознавания речи Whisper, после чего тексты подвергались нормализации и лемматизации. В качестве признакового представления использовались TF–IDF униграммы и биграммы. На полученных данных были обучены и сравнены несколько классических моделей машинного обучения, включая Logistic Regression, Linear SVM, Multinomial Naive Bayes, Random Forest и XGBoost. Экспериментальные результаты показали, что все рассмотренные модели достигают высокой точности классификации, при этом наилучшие показатели продемонстрировали линейные модели и классификатор Multinomial Naive Bayes с минимальным сглаживанием (accuracy до 94%, ROC–AUC до 0.99). Анализ слов помог найти чёткие признаки, по которым можно узнать речь мошенника. Эти признаки часто встречаются в обычных схемах социального обмана. Устойчивость и обобщающая способность моделей были подтверждены с использованием k-кратной кросс-валидации и анализа ROC–AUC. Эти результаты показывают, что этот способ помогает находить телефонное мошенничество в жизни.

АНАЛИЗ И КЛАССИФИКАЦИЯ ТЕЛЕФОННОГО МОШЕННИЧЕСТВА НА ОСНОВЕ ЛЕКСИЧЕСКИХ ПРИЗНАКОВ РЕЧЕВЫХ ТРАНСКРИПЦИЙ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu