SOCIAL NETWORK DATA MINING FOR AUTOMATED OFFENSIVE LANGUAGE DETECTION

С.T. Ахметова; A.A. Юнусова; С.С. Алишева; Б.T. Олжатаева; Э.Б. Мүсірепова

doi:10.32014/2026.2518-1726.399

Авторы

Ахметова С.T. кандидат физико-математических наук, доцент кафедры информационных систем Южно-Казахстанского университета им. Мухтара Ауэзова, Шымкент, Казахстан
Юнусова A.A. кандидат технических наук, старший преподаватель кафедры информационных и коммуникационных технологий Центрально-Азиатского инновационного университета, Шымкент, Казахстан
Aлишева С.С. кандидат наук, кафедра информационно-коммуникационных технологий, Южно-Казахстанский университет им. Мухтара Ауэзова, Шымкент, Казахстан
Oлжатаева Б.T. магистр, старший преподаватель, кафедра информационно- коммуникационных технологий, Университет «Мирас», Шымкент, Казахстан
Мүсірепова Э.Б. кандидат наук, кафедра информационных систем, Южно- Казахстанский университет им. Мухтара Ауэзова, Шымкент, Казахстан

DOI:

https://doi.org/10.32014/2026.2518-1726.399

Ключевые слова:

обнаружение разжигания ненависти, гибридная модель LSTM–CNN, категоризация текста, мониторинг социальных сетей, автоматическая модерация контента

Аннотация

Непрерывное развитие социальных сетей, расширяя возможности получения и передачи информации, также способствует быстрому распространению комментариев в социальных сетях, полных агрессии, дискриминации и ненависти. Рост количества сообщений и комментариев, содержащих ненависть и кибербуллинг, в социальных сетях и на онлайн-платформах создает необходимость в разработке эффективных и надежных методов автоматического обнаружения. В этом контексте данное исследование направлено на совершенствование методов машинного обучения для автоматического обнаружения комментариев с оскорбительным содержанием в социальных сетях.

Целью исследовательской работы является создание гибридной модели глубокого обучения, сочетающей архитектуры LSTM и CNN, для классификации комментариев, полученных из социальных сетей, и оценка ее эффективности. Предложенная модель использует сеть LSTM для выявления долгосрочных контекстных зависимостей и сеть CNN для извлечения локальных n-граммовых признаков. Такая архитектура позволяет проводить всесторонний анализ семантической структуры текста и точно идентифицировать последовательности слов с оскорбительным содержанием.

В исследовании использовался предварительно аннотированный набор данных из социальных сетей. Для повышения качества и надежности аннотирования данных был использован подход с участием человека, а также проанализирован уровень согласованности между аннотаторами. В процессе обучения и валидации модели использовались широко распространенные метрики оценки, такие как точность, прецизия, полнота, F1-мера и AUC-ROC.

Экспериментальные результаты показали, что предложенная гибридная модель LSTM–CNN превзошла существующие классические методы, включая машины опорных векторов, случайные леса и отдельные модели LSTM и CNN. В частности, модель достигла точности 93,2%, специфичности 91,5%, полноты 94,0%, F1-меры 92,7% и AUC-ROC 0,95.

Результаты исследования показали, что предложенный метод может эффективно выявлять сложные лингвистические закономерности даже в случае дисбаланса данных. Полученный подход может быть использован для создания автоматизированных систем модерации контента, направленных на повышение безопасности в Интернете. В будущем планируется внедрение преобразованных эмбеддингов, механизмов внимания и возможностей кроссплатформенной адаптации для повышения точности и обобщающей способности модели.

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ ДЛЯ АВТОМАТИЧЕСКОГО ВЫЯВЛЕНИЯ ЯЗЫКА НЕНАВЕСТИ В СОЦИАЛЬНЫХ СЕТЯХ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu