ИССЛЕДОВАНИЕ МЕТОДОВ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ДЛЯ ВЫЯВЛЕНИЯ И ИЗВЛЕЧЕНИЯ ТЕКСТОВЫХ ДАННЫХ НА КАЗАХСКОМ ЯЗЫКЕ

Д.  Оралбекова; А. Ахмедиярова; Д. Касымова; Ж. Алибиева

doi:10.32014/2025.2518-1726.372

Авторы

Оралбекова Д. PhD, старший научный сотрудник, Институт информационных и вычислительных технологий, Алматы, Казахстан
Ахмедиярова А. PhD, профессор, Satbayev Университет, Алматы, Казахстан
Касымова Д. PhD, ассистент-профессор, ALT университет имени М. Тынышпаева, Алматы, Казахстан
Алибиева Ж. PhD, Associate professor, Satbayev University, Almaty, Kazakhstan,

DOI:

https://doi.org/10.32014/2025.2518-1726.372

Ключевые слова:

казахский язык, Transformer, морфологический анализ, синтаксический и семантический анализ, NLP, предобученные модели

Аннотация

В данной статье рассматриваются современные методы лингвистического анализа, применяемые для обработки казахского языка, с целью автоматического выявления и извлечения текстовой информации. Особое внимание уделяется морфологическому, синтаксическому и семантическому анализу, а также их адаптации к особенностям казахского языка, который относится к агглютинативным языкам и характеризуется свободным порядком слов. Это создаёт определённые трудности при применении традиционных подходов, разработанных для языков с фиксированным порядком слов, таких как английский.
В исследовательской работе анализируются современные подходы, включая методы на основе конечных автоматов, статистические модели, глубокие нейронные сети и трансформерные архитектуры. Рассматриваются существующие программные инструменты, такие как HFST, Apertium, KazNERD, BeeBERT и Kaz-RoBERTa и другие модели, специально адаптированные для языков со сложной морфологической структурой, а также их потенциал и ограничения в контексте обработки казахских текстов. Особое внимание уделяется вопросам точности морфологического анализа, устойчивости моделей к полисемии, а также способности справляться с редкими и сложными словоформами. Также обсуждаются практические области применения современных NLP-решений для казахского языка — в системах машинного перевода, автоматической классификации текстов, извлечении именованных сущностей и анализе тональности. Представлены конкретные примеры применения моделей в образовательной и юридической сферах. В заключении даны рекомендации по созданию национальных текстовых корпусов, развитию инструментов морфологического анализа, а также дальнейшему исследованию интеграции различных методологических подходов для повышения качества обработки казахского языка в задачах NLP.

ИССЛЕДОВАНИЕ МЕТОДОВ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ДЛЯ ВЫЯВЛЕНИЯ И ИЗВЛЕЧЕНИЯ ТЕКСТОВЫХ ДАННЫХ НА КАЗАХСКОМ ЯЗЫКЕ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu