ИСПОЛЬЗОВАНИЕ BILSTM ДЛЯ ОПРЕДЕЛЕНИЯ ОСКОРБИТЕЛЬНОГО ЯЗЫКА В ЯЗЫКАХ С НИЗКИМ УРОВНЕМ РЕСУРСОВ
DOI:
https://doi.org/10.32014/2024.2518-1726.299Ключевые слова:
оскорбительная лексика, машинное обучение, глубокое обучение, обработка естественного языка, язык с ограниченными ресурсами, классификацияАннотация
Выявление ненормативной лексики является важнейшей задачей, позволяющей создавать эффективные системы модерации контента в современной цифровой эпохе. Но когда нет аннотированного материала, это становится особенно сложным на языках с ограниченными ресурсами. Данное исследование в первую очередь занимается поиском ругательств на казахском языке, который считается малоресурсным языком. Чтобы решить эту проблему, мы создали новую тактику, основанную на сетях долговременной двунаправленной памяти (BiLSTM), которые продемонстрировали удивительную эффективность в задачах обработки естественного языка. Благодаря двунаправленному компоненту архитектуры BiLSTM мы можем фиксировать как долгосрочные зависимости, так и контекстные отношения во входном тексте. Это позволяет лучше распознавать ненормативную лексику. Чтобы уменьшить нехватку аннотированных данных в условиях с ограниченными ресурсами, мы также применяем стратегии трансферного обучения.
Мы показываем эффективность предложенного нами метода с помощью обширных экспериментов с набором данных казахского оскорбительного языка, что дает самые современные результаты в распознавании оскорбительной речи на казахском языке с низким уровнем ресурсов. Кроме того, мы исследуем эффективность нашей стратегии, используя различные настройки моделей и подходы к обучению. Результаты этого исследования дают ценную информацию о методах обнаружения ненормативной лексики на языках с ограниченными ресурсами и открывают путь к разработке более эффективных систем модерации контента, адаптированных к конкретным языковым контекстам.