ПРИМЕНЕНИЕ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОТВЕТОВ В МУЛЬТИЯЗЫЧНЫХ ВОПРОСНО ОТВЕТНЫХ СИСТЕМАХ
DOI:
https://doi.org/10.32014/2025.2518-1726.353Ключевые слова:
вопросно-ответные системы, глубокое обучение, малоресурсные языки, мультиязычная обработка естественного языка, казахский язык, модели на базе трансформаторовАннотация
Стремительный рост объёма глобальной информации усложнил процесс отслеживания и поиска релевантных данных. Вопросно-ответные системы (QA) стали ключевыми инструментами для структурирования и извлечения полезной информации из неструктурированных текстовых данных. Однако мультиязычные QA-системы, особенно для малоресурсных языков, таких как казахский, сталкиваются с рядом трудностей, обусловленных языковыми особенностями, включая агглютинацию, свободный порядок слов и нехватку данных. В данном исследовании рассматривается применение методов глубокого обучения для повышения точности ответов в мультиязычных QA-системах, с особым вниманием к казахским юридическим текстам.
Глубокое обучение, особенно модели на основе трансформеров, продемонстрировало значительный потенциал в обработке естественного языка (NLP). Однако существующие мультиязычные модели, такие как mBERT, показывают недостаточную эффективность для казахского языка из-за ограниченного объёма обучающих данных. Для решения этой проблемы мы предлагаем методологию, включающую дополнительное дообучение mBERT на специализированных отраслевых датасетах, аугментацию данных с использованием нейронного машинного перевода и применение контрастивного обучения для улучшения межъязыкового переноса знаний. Оценочные метрики, включая коэффициент Жаккара, F1-меру и точное совпадение, демонстрируют, что наша дообученная модель превосходит базовые мультиязычные модели. Наш подход представляет собой масштабируемое решение для улучшения мультиязычных QA-систем для низкоресурсных языков, прокладывая путь для дальнейших исследований в области юридических и специализированных текстов.