КИБЕРНАСИХАТТЫҚ КОНТЕНТТІ АНЫҚТАУ ҮШІН МАШИНАЛЫҚ ОҚЫТУ ЖӘНЕ СЕМАНТИКАЛЫҚ МОДЕЛЬДЕР ҚОЛДАНУ

Ж.А. Бимолдина; Ш.Ж. Мусиралиева; К.Б. Багитова; Л. Терейковская

doi:10.32014/2026.2518-1726.404

Авторы

Бимолдина Ж.А. докторант кафедры «Кибербезопасность и криптология» Казахского национального университета имени аль-Фараби, Алматы, Казахстан
Мусиралиева Ш.Ж. кандидат физико-математических наук, профессор кафедры «Кибербезопасность и криптология» Казахского национального университета имени аль- Фараби, Алматы, Казахстан
Багитова К.Б. Ph.D., заведующий кафедрой «Информатика» Атырауского университета имени Халела Досмухамедова, Атырау, Казахстан
Терейковская Л. доктор технических наук, профессор Киевского национального университета архитектуры и строительства, Киев, Украина

DOI:

https://doi.org/10.32014/2026.2518-1726.404

Ключевые слова:

машинное обучение, киберпропаганда, случайная избыточная выборка, TF-IDF, логистическая регрессия, SVC.

Аннотация

Киберпропаганда, распространяемая в социальных сетях, становится новой формой идеологической манипуляции и представляет серьезную угрозу информационной безопасности общества. Скрытая структура, целенаправленное воздействие и сложные семантические особенности киберпропагандистского контента существенно осложняют его автоматическое выявление. В связи с этим применение современных методов обработки естественного языка и глубокого обучения является актуальной задачей.

В данной работе рассматриваются методы обнаружения киберпропаганды на основе семантического анализа и тонкой настройки предварительно обученных трансформерных языковых моделей. На основе специализированного корпуса, включающего киберпропагандистские и нейтральные тексты, были адаптированы одноязычные и многоязычные модели на архитектуре BERT. Для устранения дисбаланса классов использовались методы Random Oversampling, SMOTE и SMOTE-ENN.

Экспериментальные результаты показали, что дообученные модели значительно превосходят традиционные подходы по точности и устойчивости. В частности, модель KazBERT продемонстрировала значение AUC=0.97 по ROC-кривой, что свидетельствует о высокой способности различения. Полученные результаты подтверждают эффективность трансформерных моделей для автоматического выявления киберпропаганды и могут быть использованы при разработке интеллектуальных систем мониторинга информационной безопасности.

ИСПОЛЬЗОВАНИЕ МАШИННОГО ОБУЧЕНИЯ И СЕМАНТИЧЕСКИХ МОДЕЛЕЙ ДЛЯ ОБНАРУЖЕНИЯ КИБЕРПРОПАГАНДИСТСКОГО КОНТЕНТА

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu