ҚАЗАҚ ТІЛІНДЕГІ ДЕСТРУКТИВТІ ВЕБ-КОНТЕНТТІ АНЫҚТАУ ҮШІН МАШИНАЛЫҚ ОҚЫТУ ӘДІСТЕРІН ҚОЛДАНУ

М. Болатбек; М. Сағынай; Ш. Мусиралиева

doi:10.32014/2024.2518-1726.310

Авторы

Болатбек М. PhD, старший преподаватель кафедры «Информационные системы» Казахского национального университета имени аль-Фараби, Алматы, Казахстан
Сағынай М. преподаватель кафедры «Информационные системы» Казахского национального университета имени аль-Фараби, Алматы, Казахстан
Мусиралиева Ш. кандидат физико-математических наук, заведующая кафедрой «Информационные системы» Казахского национального университета им. аль-Фараби, Алматы, Казахстан

DOI:

https://doi.org/10.32014/2024.2518-1726.310

Ключевые слова:

деструктивные сообщения, буллинг, расизм, насильственный экстремизм, нацизм, Logistic Regression, SVM, Naive Bayes, Uni-bi-gram;

Аннотация

В статье комплексно рассматриваются проблемы выявления и анализа деструктивных сообщений в сети интернет. Авторы представляют эффективные алгоритмы автоматического сбора и маркировки текстовых данных агрессивного содержания. Этот интегрированный подход фокусируется на сбалансированном обучении моделей посредством сбора, обработки и построения целевых наборов данных. В ходе исследования было доказано, что предложенные алгоритмы достигли высокой точности по F-мере и эффективны при решении дисбаланса целевого класса. Деструктивные послания делятся на пять основных классов: издевательства, расизм, нацизм, насильственный экстремизм. В исследовании четко подчеркивается важность сбора этого контента из различных социальных сетей (YouTube, ВКонтакте, Telegram). Подчеркивается необходимость своевременного обнаружения с целью снижения негативного воздействия такой информации на общество и национальную безопасность. Авторы отмечают, что интернет стал инструментом экстремистских и террористических группировок для распространения идеологии и организации опасной деятельности, и анализируют способы борьбы с таким контентом.

В статье акцентируется внимание на важности понимания и изучения динамики распространения агрессивной информации. Обоснована актуальность создания корпуса для анализа данных, полученных из открытых источников на казахском языке. Социальные сети и сбор данных рекомендуются как эффективный шаг на пути усиления мер безопасности, улучшения борьбы с экстремизмом и защиты информационного пространства. Авторы подчеркивают важность использования современных методов обработки данных для эффективного обнаружения агрессивной информации в глобальной сети. В данном исследовании представлены эффективные инструменты, направленные на предотвращение распространения агрессивного контента, укрепление национальной безопасности и защиту информационного пространства. Результаты исследования считаются важными для совершенствования аналитических мер и мер безопасности.

ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ ДЕСТРУКТИВНОГО ВЕБ-КОНТЕНТА НА КАЗАХСКОМ ЯЗЫКЕ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu