РАЗРАБОТКА МНОГОУРОВНЕВОЙ МОДЕЛИ В ЗАДАЧАХ РЕЗЮМИРОВАНИЯ ТЕКСТА НА ОСНОВЕ ПРЕДВАРИТЕЛЬНО ОБУЧЕННЫХ МОДЕЛЕЙ

Авторы

  • Оралбекова Д. PhD, ассоц. проф., Институт информационных и вычислительных технологий, Алматы, Казахстан
  • Мамырбаев О. PhD, профессор, заместитель генерального директора, Институт информационных и вычислительных технологий. Алматы, Казахстан
  • Ахмедиярова А. PhD, профессор, Satbayev Университет, Алматы, Казахстан
  • Касымова Д. PhD ассоц. проф., ALT университет имени М. Тынышпаева, Алматы, Казахстан
  • Алибиева Ж. PhD, ассоц. проф., Satbayev Университет, Алматы, Казахстан

DOI:

https://doi.org/10.32014/2026.2518-1726.415

Ключевые слова:

гибридное резюмирование, многоуровневое моделирование, казахский язык, трансформерные модели, mBART, mT5, XLM-RoBERTa

Аннотация

В данной работе исследуется применение современных трансформерных моделей для задачи абстрактивного резюмирования текстов на казахском языке, который относится к числу малоресурсных и характеризуется агглютинативной структурой и сложной морфологией. Эти особенности существенно ограничивают эффективность классических методов обработки текста и требуют разработки специализированных архитектур языкового моделирования. В исследовании предлагается многоуровневая архитектура резюмирования, включающая обработку текста на символьном, подсловном, словном и контекстном уровнях, что позволяет более полно учитывать морфологические и семантические свойства казахского языка. В качестве базовых моделей использованы многоязычные трансформеры mBART, mT5 и XLM-RoBERTa, которые были адаптированы и дообучены для задачи абстрактивного резюмирования. Для обучения и оценки качества моделей был сформирован специализированный корпус из 1000 новостных статей на казахском языке с вручную составленными аннотациями. В процессе предобработки применялись символьные представления, подсловная токенизация SentencePiece, словные векторы FastText и контекстные эмбеддинги трансформеров.

Качество сгенерированных резюме оценивалось с использованием набора автоматических метрик, включая ROUGE-1, ROUGE-2, ROUGE-L, BLEU, METEOR и BERTScore F1, что позволило проанализировать как поверхностные совпадения, так и семантическое соответствие эталонным аннотациям. Экспериментальные результаты показали, что модель mBART продемонстрировала наилучшие показатели по большинству метрик, а связка XLM-RoBERTa и BART также обеспечила стабильные и конкурентоспособные результаты. Полученные данные подтверждают эффективность многоуровневого подхода и перспективность использования современных трансформерных моделей для абстрактивного резюмирования текстов на казахском языке.

Загрузки

Опубликован

2026-03-27

Как цитировать

Оралбекова, Д., Мамырбаев , О., Ахмедиярова , А., Касымова, Д., & Алибиева , Ж. (2026). РАЗРАБОТКА МНОГОУРОВНЕВОЙ МОДЕЛИ В ЗАДАЧАХ РЕЗЮМИРОВАНИЯ ТЕКСТА НА ОСНОВЕ ПРЕДВАРИТЕЛЬНО ОБУЧЕННЫХ МОДЕЛЕЙ. Academic Scientific Journal of Computer Science, 357(1), 316–336. https://doi.org/10.32014/2026.2518-1726.415

Выпуск

Раздел

Информационно-коммуникационные технологии