РАЗРАБОТКА МНОГОУРОВНЕВОЙ МОДЕЛИ В ЗАДАЧАХ РЕЗЮМИРОВАНИЯ ТЕКСТА НА ОСНОВЕ ПРЕДВАРИТЕЛЬНО ОБУЧЕННЫХ МОДЕЛЕЙ
DOI:
https://doi.org/10.32014/2026.2518-1726.415Ключевые слова:
гибридное резюмирование, многоуровневое моделирование, казахский язык, трансформерные модели, mBART, mT5, XLM-RoBERTaАннотация
В данной работе исследуется применение современных трансформерных моделей для задачи абстрактивного резюмирования текстов на казахском языке, который относится к числу малоресурсных и характеризуется агглютинативной структурой и сложной морфологией. Эти особенности существенно ограничивают эффективность классических методов обработки текста и требуют разработки специализированных архитектур языкового моделирования. В исследовании предлагается многоуровневая архитектура резюмирования, включающая обработку текста на символьном, подсловном, словном и контекстном уровнях, что позволяет более полно учитывать морфологические и семантические свойства казахского языка. В качестве базовых моделей использованы многоязычные трансформеры mBART, mT5 и XLM-RoBERTa, которые были адаптированы и дообучены для задачи абстрактивного резюмирования. Для обучения и оценки качества моделей был сформирован специализированный корпус из 1000 новостных статей на казахском языке с вручную составленными аннотациями. В процессе предобработки применялись символьные представления, подсловная токенизация SentencePiece, словные векторы FastText и контекстные эмбеддинги трансформеров.
Качество сгенерированных резюме оценивалось с использованием набора автоматических метрик, включая ROUGE-1, ROUGE-2, ROUGE-L, BLEU, METEOR и BERTScore F1, что позволило проанализировать как поверхностные совпадения, так и семантическое соответствие эталонным аннотациям. Экспериментальные результаты показали, что модель mBART продемонстрировала наилучшие показатели по большинству метрик, а связка XLM-RoBERTa и BART также обеспечила стабильные и конкурентоспособные результаты. Полученные данные подтверждают эффективность многоуровневого подхода и перспективность использования современных трансформерных моделей для абстрактивного резюмирования текстов на казахском языке.




