НЕЙРОСЕТЕВАЯ МОДЕЛЬ ДЛЯ АВТОМАТИЧЕСКОГО ОБНАРУЖЕНИЯ ДИСКРИМИНАЦИИ В КАЗАХСКОМ ЯЗЫКЕ

Авторы

  • A.O. Алиева кандидат педагогических наук, доцент кафедры Компьютерной инженерии, Международный казахско-турецкий университет имени Ходжи Ахмета Яссави, Туркестан, Казахстан
  • Б.С. Омаров PhD, доцент кафедры Информационные системы, Международный университет информационных технологий, Алматы, Казахстан
  • Р.Б. Абдрахманов кандидат технических наук, доцент, Международный университет туризма и гостеприимства, Туркестан, Казахстан
  • Д.Р. Султан PhD, доцент кафедры Информационные системы, Университет Нархоз, Алматы, Казахстан
  • А.Б. Токтарова PhD, кафедра Информационно-коммуникационных технологий, Южно-Казахстанский университет им. М. Ауэзова, Шымкент, Казахстан

DOI:

https://doi.org/10.32014/2025.2518-1726.382

Ключевые слова:

сбор данных, онлайн-контент, дискриминационные слова, нейронная сеть, глубокое обучение, обнаружение

Аннотация

В данной статье описывается использование современных алгоритмов машинного и глубокого обучения для автоматического обнаружения оскорбительных слов в казахскоязычном веб-контенте. Исследование направлено на защиту цифровой среды и снижение уровня дискриминационной лексики в социальных сетях и на пользовательских платформах. Для достижения этой цели были разработаны и протестированы методы сбора, предварительной обработки данных, создания и оптимизации моделей классификации.

В статье описывается сбор данных из социальных сетей (Instagram, TikTok, YouTube, Facebook), новостных сайтов и форумов с казахскоязычным пользовательским контентом. Предварительная обработка данных включает удаление шума, токенизацию, лемматизацию и удаление стоп-слов. Для обеспечения достоверности результатов аннотированный корпус классифицировал сообщения как «язык вражды» или «язык не вражды».

Авторы используют гибридную архитектуру глубокого обучения для создания эффективной и гибкой системы автоматического обнаружения дискриминации в казахскоязычном интернете. Изучаются модели CNN, LSTM, Bi-LSTM и Transformer, а также их интеграция с процессом внимания для учета локальных и контекстных особенностей текста. Целью статьи является обучение и валидация модели, способной распознавать оскорбительные и ненормативные слова в режиме реального времени. Данный подход к платформам модерации социальных сетей направлен на повышение безопасности пользователей, удаление опасных комментариев и создание основы для исследований в области обработки естественного языка на казахском языке. Многоязычные платформы могут использовать предложенный метод для создания интеллектуальных систем автоматической модерации и долгосрочной защиты цифровой среды.

Загрузки

Опубликован

2025-12-22

Как цитировать

Aliyeva, A., Omarov, B., Abdrakhmanov, R. ., Sultan, D., & Toktarova, A. (2025). НЕЙРОСЕТЕВАЯ МОДЕЛЬ ДЛЯ АВТОМАТИЧЕСКОГО ОБНАРУЖЕНИЯ ДИСКРИМИНАЦИИ В КАЗАХСКОМ ЯЗЫКЕ . Academic Scientific Journal of Computer Science, 356(4), 40–54. https://doi.org/10.32014/2025.2518-1726.382

Выпуск

Раздел

Информационно-коммуникационные технологии