COLLECTING HATE SPEECH DATABASE ON SOCIAL NETWORK IN KAZAKH LANGUAGE BY USING MACHINE LEARNING
DOI:
https://doi.org/10.32014/2023.2518-1726.177Ключевые слова:
онлайн контент, искуственный интеллект, нецензурная лексика, парсинг, NLPАннотация
Сегодня можно использовать машинное обучение для разработки автоматизированных методов, упрощающих сбор негативных комментариев в социальных сетях. В настоящее время ситуация ухудшается из-за крайне неблагоприятных комментариев к онлайн-контенту.
Мы формируем базу пошлых высказываний в казахстанских социальных сетях и новостных агентствах. Изучив жалобы, полученные из многочисленных социальных сетей, мы обнаружили, что количество публикаций пренебрежительных или оскорбительных комментариев в онлайн-контенте растет с каждым днем.
Результаты нашего исследования, в котором использовались методы машинного обучения, помогут не только проанализировать происхождение оскорбительных фраз, размещенных в социальных сетях, но и классифицировать различные формы оскорбительных замечаний и получить доступ к автоматизированным источникам данных. Измерение точности пополнения словарного запаса с помощью различных показателей. Мы создаем набор пользователей Интернета в Казахстане, которые используют социальные сети и СМИ, чтобы поделиться своим мнением. Описание предлагаемой исследовательской работы описывает сбор данных для классификации и выявления наборов слов деструктивного содержания.