РАЗРАБОТКА МНОГОУРОВНЕВОЙ МОДЕЛИ В ЗАДАЧАХ РЕЗЮМИРОВАНИЯ ТЕКСТА НА ОСНОВЕ ПРЕДВАРИТЕЛЬНО ОБУЧЕННЫХ МОДЕЛЕЙ

Д. Оралбекова; О. Мамырбаев; А. Ахмедиярова; Д. Касымова; Ж. Алибиева

doi:10.32014/2026.2518-1726.415

Авторы

Оралбекова Д. PhD, ассоц. проф., Институт информационных и вычислительных технологий, Алматы, Казахстан
Мамырбаев О. PhD, профессор, заместитель генерального директора, Институт информационных и вычислительных технологий. Алматы, Казахстан
Ахмедиярова А. PhD, профессор, Satbayev Университет, Алматы, Казахстан
Касымова Д. PhD ассоц. проф., ALT университет имени М. Тынышпаева, Алматы, Казахстан
Алибиева Ж. PhD, ассоц. проф., Satbayev Университет, Алматы, Казахстан

DOI:

https://doi.org/10.32014/2026.2518-1726.415

Ключевые слова:

гибридное резюмирование, многоуровневое моделирование, казахский язык, трансформерные модели, mBART, mT5, XLM-RoBERTa

Аннотация

В данной работе исследуется применение современных трансформерных моделей для задачи абстрактивного резюмирования текстов на казахском языке, который относится к числу малоресурсных и характеризуется агглютинативной структурой и сложной морфологией. Эти особенности существенно ограничивают эффективность классических методов обработки текста и требуют разработки специализированных архитектур языкового моделирования. В исследовании предлагается многоуровневая архитектура резюмирования, включающая обработку текста на символьном, подсловном, словном и контекстном уровнях, что позволяет более полно учитывать морфологические и семантические свойства казахского языка. В качестве базовых моделей использованы многоязычные трансформеры mBART, mT5 и XLM-RoBERTa, которые были адаптированы и дообучены для задачи абстрактивного резюмирования. Для обучения и оценки качества моделей был сформирован специализированный корпус из 1000 новостных статей на казахском языке с вручную составленными аннотациями. В процессе предобработки применялись символьные представления, подсловная токенизация SentencePiece, словные векторы FastText и контекстные эмбеддинги трансформеров.

Качество сгенерированных резюме оценивалось с использованием набора автоматических метрик, включая ROUGE-1, ROUGE-2, ROUGE-L, BLEU, METEOR и BERTScore F1, что позволило проанализировать как поверхностные совпадения, так и семантическое соответствие эталонным аннотациям. Экспериментальные результаты показали, что модель mBART продемонстрировала наилучшие показатели по большинству метрик, а связка XLM-RoBERTa и BART также обеспечила стабильные и конкурентоспособные результаты. Полученные данные подтверждают эффективность многоуровневого подхода и перспективность использования современных трансформерных моделей для абстрактивного резюмирования текстов на казахском языке.

РАЗРАБОТКА МНОГОУРОВНЕВОЙ МОДЕЛИ В ЗАДАЧАХ РЕЗЮМИРОВАНИЯ ТЕКСТА НА ОСНОВЕ ПРЕДВАРИТЕЛЬНО ОБУЧЕННЫХ МОДЕЛЕЙ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu