ИСПОЛЬЗОВАНИЕ BILSTM ДЛЯ ОПРЕДЕЛЕНИЯ ОСКОРБИТЕЛЬНОГО ЯЗЫКА В ЯЗЫКАХ С НИЗКИМ УРОВНЕМ РЕСУРСОВ

А. Токтарова; Б. Омаров; Б. Калдарова; А. Турсынбаев; Р. Абдрахманов

doi:10.32014/2024.2518-1726.299

Авторы

Токтарова А. докторант, Международный Казахско-Турецкий университет им. Ходжа Ахмета Ясауи, Туркестан, Казахстан
Омаров Б. PhD, кафедра информационных систем, Казахский Национальный университет им. аль- Фараби, Алматы, Казахстан
Калдарова Б. к.т.н., Южно-Казахстанский университет имени М. Ауезова, Шымкент, Казахстан
Турсынбаев А. к.п.н., Южно-Казахстанский университет имени Мухтара Ауезова, Шымкент, Казахстан
Абдрахманов Р. к.т.н., и.о. доцента, Международный университет туризма и гостеприимства Туркестан, Қазахстан

DOI:

https://doi.org/10.32014/2024.2518-1726.299

Ключевые слова:

оскорбительная лексика, машинное обучение, глубокое обучение, обработка естественного языка, язык с ограниченными ресурсами и классификация.

Аннотация

Выявление ненормативной лексики является важнейшей задачей, позволяющей создавать эффективные системы модерации контента в современной цифровой эпохе. Но когда нет аннотированного материала, это становится особенно сложным на языках с ограниченными ресурсами. Данное исследование в первую очередь занимается поиском ругательств на казахском языке, который считается малоресурсным языком. Чтобы решить эту проблему, мы создали новую тактику, основанную на сетях долговременной двунаправленной памяти (BiLSTM), которые продемонстрировали удивительную эффективность в задачах обработки естественного языка. Благодаря двунаправленному компоненту архитектуры BiLSTM мы можем фиксировать как долгосрочные зависимости, так и контекстные отношения во входном тексте. Это позволяет лучше распознавать ненормативную лексику. Чтобы уменьшить нехватку аннотированных данных в условиях с ограниченными ресурсами, мы также применяем стратегии трансферного обучения. Мы показываем эффективность предложенного нами метода с помощью обширных экспериментов с набором данных казахского оскорбительного языка, что дает самые современные результаты в распознавании оскорбительной речи на казахском языке с низким уровнем ресурсов. Кроме того, мы исследуем эффективность нашей стратегии, используя различные настройки моделей и подходы к обучению. Результаты этого исследования дают ценную информацию о методах обнаружения ненормативной лексики на языках с ограниченными ресурсами и открывают путь к разработке более эффективных систем модерации контента, адаптированных к конкретным языковым контекстам.

ИСПОЛЬЗОВАНИЕ BILSTM ДЛЯ ОПРЕДЕЛЕНИЯ ОСКОРБИТЕЛЬНОГО ЯЗЫКА В ЯЗЫКАХ С НИЗКИМ УРОВНЕМ РЕСУРСОВ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu