ПРИМЕНЕНИЕ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОТВЕТОВ В МУЛЬТИЯЗЫЧНЫХ ВОПРОСНО ОТВЕТНЫХ СИСТЕМАХ

Авторы

  • Рaхимова Д. PhD, ассоциированный профессор Казахского Национального университета имени аль-Фараби, Алматы, Казахстан
  • Сарсенбаева А. магистр, докторант Казахского Национального университета имени аль Фараби, Алматы, Казахстан
  • Турарбек А. PhD, и.о. доцента Казахского Национального университета имени аль-Фараби, Алматы, Казахстан
  • Ауезова А. магистр, старший преподаватель Международного университета информационных технологий, Алматы, Казахстан

DOI:

https://doi.org/10.32014/2025.2518-1726.353

Ключевые слова:

вопросно-ответные системы, глубокое обучение, малоресурсные языки, мультиязычная обработка естественного языка, казахский язык, модели на базе трансформаторов

Аннотация

Стремительный рост объёма глобальной информации усложнил процесс отслеживания и поиска релевантных данных. Вопросно-ответные системы (QA) стали ключевыми инструментами для структурирования и извлечения полезной информации из неструктурированных текстовых данных. Однако мультиязычные QA-системы, особенно для малоресурсных языков, таких как казахский, сталкиваются с рядом трудностей, обусловленных языковыми особенностями, включая агглютинацию, свободный порядок слов и нехватку данных. В данном исследовании рассматривается применение методов глубокого обучения для повышения точности ответов в мультиязычных QA-системах, с особым вниманием к казахским юридическим текстам.

Глубокое обучение, особенно модели на основе трансформеров, продемонстрировало значительный потенциал в обработке естественного языка (NLP). Однако существующие мультиязычные модели, такие как mBERT, показывают недостаточную эффективность для казахского языка из-за ограниченного объёма обучающих данных. Для решения этой проблемы мы предлагаем методологию, включающую дополнительное дообучение mBERT на специализированных отраслевых датасетах, аугментацию данных с использованием нейронного машинного перевода и применение контрастивного обучения для улучшения межъязыкового переноса знаний. Оценочные метрики, включая коэффициент Жаккара, F1-меру и точное совпадение, демонстрируют, что наша дообученная модель превосходит базовые мультиязычные модели. Наш подход представляет собой масштабируемое решение для улучшения мультиязычных QA-систем для низкоресурсных языков, прокладывая путь для дальнейших исследований в области юридических и специализированных текстов.

Загрузки

Опубликован

2025-06-20

Как цитировать

Рaхимова Д., Сарсенбаева, А., Турарбек, А., & Ауезова, А. (2025). ПРИМЕНЕНИЕ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОТВЕТОВ В МУЛЬТИЯЗЫЧНЫХ ВОПРОСНО ОТВЕТНЫХ СИСТЕМАХ. Известия НАН РК. Серия физико-математическая, (2), 196–211. https://doi.org/10.32014/2025.2518-1726.353