COLLECTING HATE SPEECH DATABASE ON SOCIAL NETWORK IN KAZAKH LANGUAGE BY USING MACHINE LEARNING

Авторы

  • A.B. Toktarova Международный Казахско-Турецкий Университет им. Ходжа Ахмет Ясауи
  • B.S. Omarov
  • G.N. Kazbekova
  • S.A. Mamikov
  • F.E. Temirbekova

DOI:

https://doi.org/10.32014/2023.2518-1726.177

Ключевые слова:

онлайн контент, искуственный интеллект, нецензурная лексика, парсинг, NLP

Аннотация

Сегодня можно использовать машинное обучение для разработки автоматизированных методов, упрощающих сбор негативных комментариев в социальных сетях. В настоящее время ситуация ухудшается из-за крайне неблагоприятных комментариев к онлайн-контенту.

Мы формируем базу пошлых высказываний в казахстанских социальных сетях и новостных агентствах. Изучив жалобы, полученные из многочисленных социальных сетей, мы обнаружили, что количество публикаций пренебрежительных или оскорбительных комментариев в онлайн-контенте растет с каждым днем.

Результаты нашего исследования, в котором использовались методы машинного обучения, помогут не только проанализировать происхождение оскорбительных фраз, размещенных в социальных сетях, но и классифицировать различные формы оскорбительных замечаний и получить доступ к автоматизированным источникам данных. Измерение точности пополнения словарного запаса с помощью различных показателей. Мы создаем набор пользователей Интернета в Казахстане, которые используют социальные сети и СМИ, чтобы поделиться своим мнением. Описание предлагаемой исследовательской работы описывает сбор данных для классификации и выявления наборов слов деструктивного содержания.

Загрузки

Опубликован

2023-03-31

Как цитировать

Toktarova, A., Berkimbaev, K., Kazbekova, G., Mamikov, S., & Sultan, D. (2023). COLLECTING HATE SPEECH DATABASE ON SOCIAL NETWORK IN KAZAKH LANGUAGE BY USING MACHINE LEARNING. Известия НАН РК. Серия физико-математическая, (1), 191–203. https://doi.org/10.32014/2023.2518-1726.177