ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ ДЛЯ АВТОМАТИЧЕСКОГО ВЫЯВЛЕНИЯ ЯЗЫКА НЕНАВЕСТИ В СОЦИАЛЬНЫХ СЕТЯХ
DOI:
https://doi.org/10.32014/2026.2518-1726.399Ключевые слова:
обнаружение разжигания ненависти, гибридная модель LSTM–CNN, категоризация текста, мониторинг социальных сетей, автоматическая модерация контентаАннотация
Непрерывное развитие социальных сетей, расширяя возможности получения и передачи информации, также способствует быстрому распространению комментариев в социальных сетях, полных агрессии, дискриминации и ненависти. Рост количества сообщений и комментариев, содержащих ненависть и кибербуллинг, в социальных сетях и на онлайн-платформах создает необходимость в разработке эффективных и надежных методов автоматического обнаружения. В этом контексте данное исследование направлено на совершенствование методов машинного обучения для автоматического обнаружения комментариев с оскорбительным содержанием в социальных сетях.
Целью исследовательской работы является создание гибридной модели глубокого обучения, сочетающей архитектуры LSTM и CNN, для классификации комментариев, полученных из социальных сетей, и оценка ее эффективности. Предложенная модель использует сеть LSTM для выявления долгосрочных контекстных зависимостей и сеть CNN для извлечения локальных n-граммовых признаков. Такая архитектура позволяет проводить всесторонний анализ семантической структуры текста и точно идентифицировать последовательности слов с оскорбительным содержанием.
В исследовании использовался предварительно аннотированный набор данных из социальных сетей. Для повышения качества и надежности аннотирования данных был использован подход с участием человека, а также проанализирован уровень согласованности между аннотаторами. В процессе обучения и валидации модели использовались широко распространенные метрики оценки, такие как точность, прецизия, полнота, F1-мера и AUC-ROC.
Экспериментальные результаты показали, что предложенная гибридная модель LSTM–CNN превзошла существующие классические методы, включая машины опорных векторов, случайные леса и отдельные модели LSTM и CNN. В частности, модель достигла точности 93,2%, специфичности 91,5%, полноты 94,0%, F1-меры 92,7% и AUC-ROC 0,95.
Результаты исследования показали, что предложенный метод может эффективно выявлять сложные лингвистические закономерности даже в случае дисбаланса данных. Полученный подход может быть использован для создания автоматизированных систем модерации контента, направленных на повышение безопасности в Интернете. В будущем планируется внедрение преобразованных эмбеддингов, механизмов внимания и возможностей кроссплатформенной адаптации для повышения точности и обобщающей способности модели.




