ИСПОЛЬЗОВАНИЕ МАШИННОГО ОБУЧЕНИЯ И СЕМАНТИЧЕСКИХ МОДЕЛЕЙ ДЛЯ ОБНАРУЖЕНИЯ КИБЕРПРОПАГАНДИСТСКОГО КОНТЕНТА
DOI:
https://doi.org/10.32014/2026.2518-1726.404Ключевые слова:
машинное обучение, киберпропаганда, случайная избыточная выборка, TF-IDF, логистическая регрессия, SVC.Аннотация
Киберпропаганда, распространяемая в социальных сетях, становится новой формой идеологической манипуляции и представляет серьезную угрозу информационной безопасности общества. Скрытая структура, целенаправленное воздействие и сложные семантические особенности киберпропагандистского контента существенно осложняют его автоматическое выявление. В связи с этим применение современных методов обработки естественного языка и глубокого обучения является актуальной задачей.
В данной работе рассматриваются методы обнаружения киберпропаганды на основе семантического анализа и тонкой настройки предварительно обученных трансформерных языковых моделей. На основе специализированного корпуса, включающего киберпропагандистские и нейтральные тексты, были адаптированы одноязычные и многоязычные модели на архитектуре BERT. Для устранения дисбаланса классов использовались методы Random Oversampling, SMOTE и SMOTE-ENN.
Экспериментальные результаты показали, что дообученные модели значительно превосходят традиционные подходы по точности и устойчивости. В частности, модель KazBERT продемонстрировала значение AUC=0.97 по ROC-кривой, что свидетельствует о высокой способности различения. Полученные результаты подтверждают эффективность трансформерных моделей для автоматического выявления киберпропаганды и могут быть использованы при разработке интеллектуальных систем мониторинга информационной безопасности.




