КҮРДЕЛІ МОРФОЛОГИЯЛЫҚ ҚҰРЫЛЫМЫ БАР ТІЛГЕ АРНАЛҒАН ЗАМАНАУИ ТІЛДІК МОДЕЛЬДЕУ ӘДІСТЕРІН ЗЕРТТЕУ

Авторы

  • Д. Оралбекова Институт информационных и вычислительных технологий
  • О. Мамырбаев Институт информационных и вычислительных технологий
  • А. Жунусова
  • Б. Жумажанов

DOI:

https://doi.org/10.32014/2023.2518-1726.209

Ключевые слова:

языковое моделирование, казахский язык, n-граммы, BERT, GPT, LSTM

Аннотация

Данная научная статья представляет сравнительный анализ современных методов языкового моделирования и их применение к агглютинативному языку, как казахский язык. Языковая модель — это тип модели машинного обучения, обученной проводить распределение вероятностей по словам. Языковая модель пытается предсказать следующее наиболее подходящее слово для заполнения пробела в предложении или фразе, исходя из контекста определенного текста. Основной акцент сделан на изучение модели BERT (Bidirectional Encoder Representations from Transformers) и ее способности эффективно моделировать языки, характеризующиеся морфологической разнообразностью. В статье представлен обзор n-граммных моделей, рекуррентных нейронных сетей и их ограничений в улавливании долгосрочных зависимостей и семантических отношений в тексте. Затем подробно рассмотрена модель BERT, ее архитектура и принципы работы, включая механизмы внимания и многоуровневые Transformer блоки. Далее представлены результаты исследования, включающие адаптацию модели BERT к языкам со сложной морфологической структурой, включая казахский язык. Показано, что модель BERT демонстрирует высокую точность в моделировании контекстуальных зависимостей и семантических отношений между словами в таких языках. статья подчеркивает значимость и перспективы применения современных методов языкового моделирования, особенно модели BERT, для языков со сложной морфологической структурой. Она также указывает на необходимость дальнейших исследований в области адаптации модели BERT к конкретным языкам, разработки новых архитектур и методов, а также решения вызовов, связанных с редкими и малораспространенными языками Полученные результаты этого исследования помогут улучшить понимание и эффективность языковой обработки текста на казахском языке, а также способствуют развитию области NLP в целом.

Загрузки

Опубликован

2023-09-30

Как цитировать

Оралбекова, Д., Мамырбаев, Ө., Жунусова, А., & Жумажанов , Б. . (2023). КҮРДЕЛІ МОРФОЛОГИЯЛЫҚ ҚҰРЫЛЫМЫ БАР ТІЛГЕ АРНАЛҒАН ЗАМАНАУИ ТІЛДІК МОДЕЛЬДЕУ ӘДІСТЕРІН ЗЕРТТЕУ. Известия НАН РК. Серия физико-математическая, (3), 131–146. https://doi.org/10.32014/2023.2518-1726.209