ИССЛЕДОВАНИЕ МЕТОДОВ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ДЛЯ ВЫЯВЛЕНИЯ И ИЗВЛЕЧЕНИЯ ТЕКСТОВЫХ ДАННЫХ НА КАЗАХСКОМ ЯЗЫКЕ

Авторы

  • Оралбекова Д. PhD, старший научный сотрудник, Институт информационных и вычислительных технологий, Алматы, Казахстан
  • Ахмедиярова А. PhD, профессор, Satbayev Университет, Алматы, Казахстан
  • Касымова Д. PhD, ассистент-профессор, ALT университет имени М. Тынышпаева, Алматы, Казахстан
  • Алибиева Ж. PhD, Associate professor, Satbayev University, Almaty, Kazakhstan,

DOI:

https://doi.org/10.32014/2025.2518-1726.372

Ключевые слова:

казахский язык, Transformer, морфологический анализ, синтаксический и семантический анализ, NLP, предобученные модели

Аннотация

В данной статье рассматриваются современные методы лингвистического анализа, применяемые для обработки казахского языка, с целью автоматического выявления и извлечения текстовой информации. Особое внимание уделяется морфологическому, синтаксическому и семантическому анализу, а также их адаптации к особенностям казахского языка, который относится к агглютинативным языкам и характеризуется свободным порядком слов. Это создаёт определённые трудности при применении традиционных подходов, разработанных для языков с фиксированным порядком слов, таких как английский.
В исследовательской работе анализируются современные подходы, включая методы на основе конечных автоматов, статистические модели, глубокие нейронные сети и трансформерные архитектуры. Рассматриваются существующие программные инструменты, такие как HFST, Apertium, KazNERD, BeeBERT и Kaz-RoBERTa и другие модели, специально адаптированные для языков со сложной морфологической структурой, а также их потенциал и ограничения в контексте обработки казахских текстов. Особое внимание уделяется вопросам точности морфологического анализа, устойчивости моделей к полисемии, а также способности справляться с редкими и сложными словоформами. Также обсуждаются практические области применения современных NLP-решений для казахского языка — в системах машинного перевода, автоматической классификации текстов, извлечении именованных сущностей и анализе тональности. Представлены конкретные примеры применения моделей в образовательной и юридической сферах. В заключении даны рекомендации по созданию национальных текстовых корпусов, развитию инструментов морфологического анализа, а также дальнейшему исследованию интеграции различных методологических подходов для повышения качества обработки казахского языка в задачах NLP.

Загрузки

Опубликован

2025-09-27

Как цитировать

Оралбекова, Д. ., Ахмедиярова, А., Касымова, Д., & Алибиева , Ж. (2025). ИССЛЕДОВАНИЕ МЕТОДОВ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ДЛЯ ВЫЯВЛЕНИЯ И ИЗВЛЕЧЕНИЯ ТЕКСТОВЫХ ДАННЫХ НА КАЗАХСКОМ ЯЗЫКЕ. Academic Scientific Journal of Computer Science, 355(3), 188–203. https://doi.org/10.32014/2025.2518-1726.372

Выпуск

Раздел

Информационно-коммуникационные технологии