НЕЙРОСЕТЕВАЯ МОДЕЛЬ ДЛЯ АВТОМАТИЧЕСКОГО ОБНАРУЖЕНИЯ ДИСКРИМИНАЦИИ В КАЗАХСКОМ ЯЗЫКЕ
DOI:
https://doi.org/10.32014/2025.2518-1726.382Ключевые слова:
сбор данных, онлайн-контент, дискриминационные слова, нейронная сеть, глубокое обучение, обнаружениеАннотация
В данной статье описывается использование современных алгоритмов машинного и глубокого обучения для автоматического обнаружения оскорбительных слов в казахскоязычном веб-контенте. Исследование направлено на защиту цифровой среды и снижение уровня дискриминационной лексики в социальных сетях и на пользовательских платформах. Для достижения этой цели были разработаны и протестированы методы сбора, предварительной обработки данных, создания и оптимизации моделей классификации.
В статье описывается сбор данных из социальных сетей (Instagram, TikTok, YouTube, Facebook), новостных сайтов и форумов с казахскоязычным пользовательским контентом. Предварительная обработка данных включает удаление шума, токенизацию, лемматизацию и удаление стоп-слов. Для обеспечения достоверности результатов аннотированный корпус классифицировал сообщения как «язык вражды» или «язык не вражды».
Авторы используют гибридную архитектуру глубокого обучения для создания эффективной и гибкой системы автоматического обнаружения дискриминации в казахскоязычном интернете. Изучаются модели CNN, LSTM, Bi-LSTM и Transformer, а также их интеграция с процессом внимания для учета локальных и контекстных особенностей текста. Целью статьи является обучение и валидация модели, способной распознавать оскорбительные и ненормативные слова в режиме реального времени. Данный подход к платформам модерации социальных сетей направлен на повышение безопасности пользователей, удаление опасных комментариев и создание основы для исследований в области обработки естественного языка на казахском языке. Многоязычные платформы могут использовать предложенный метод для создания интеллектуальных систем автоматической модерации и долгосрочной защиты цифровой среды.




