ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ ДЕСТРУКТИВНОГО ВЕБ-КОНТЕНТА НА КАЗАХСКОМ ЯЗЫКЕ
DOI:
https://doi.org/10.32014/2024.2518-1726.310Ключевые слова:
деструктивные сообщения, буллинг, расизм, насильственный экстремизм, нацизм, Logistic Regression, SVM, Naive Bayes, Uni-bi-gram;Аннотация
В статье комплексно рассматриваются проблемы выявления и анализа деструктивных сообщений в сети интернет. Авторы представляют эффективные алгоритмы автоматического сбора и маркировки текстовых данных агрессивного содержания. Этот интегрированный подход фокусируется на сбалансированном обучении моделей посредством сбора, обработки и построения целевых наборов данных. В ходе исследования было доказано, что предложенные алгоритмы достигли высокой точности по F-мере и эффективны при решении дисбаланса целевого класса. Деструктивные послания делятся на пять основных классов: издевательства, расизм, нацизм, насильственный экстремизм. В исследовании четко подчеркивается важность сбора этого контента из различных социальных сетей (YouTube, ВКонтакте, Telegram). Подчеркивается необходимость своевременного обнаружения с целью снижения негативного воздействия такой информации на общество и национальную безопасность. Авторы отмечают, что интернет стал инструментом экстремистских и террористических группировок для распространения идеологии и организации опасной деятельности, и анализируют способы борьбы с таким контентом.
В статье акцентируется внимание на важности понимания и изучения динамики распространения агрессивной информации. Обоснована актуальность создания корпуса для анализа данных, полученных из открытых источников на казахском языке. Социальные сети и сбор данных рекомендуются как эффективный шаг на пути усиления мер безопасности, улучшения борьбы с экстремизмом и защиты информационного пространства. Авторы подчеркивают важность использования современных методов обработки данных для эффективного обнаружения агрессивной информации в глобальной сети. В данном исследовании представлены эффективные инструменты, направленные на предотвращение распространения агрессивного контента, укрепление национальной безопасности и защиту информационного пространства. Результаты исследования считаются важными для совершенствования аналитических мер и мер безопасности.