ПРИМЕНЕНИЕ ВЕКТОРНЫХ МОДЕЛЕЙ В ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ ИНФОРМАЦИОННОГО ПОИСКА

Авторы

  • Cадыкова Т.C. аспирант, кафедра информационных систем, Международный университет информационных технологий, Алматы, Казахстан
  • Синчев Б.К. профессор, кафедра информационных систем, Международный университет информационных технологий, Алматы, Казахстан
  • Im Cho Young профессор, Faculty of Computer Engineering, «Gachon University», Сеул, Южная Корея
  • Ауезова А.С. аспирант, кафедра информационных систем, Международный университет информационных технологий, Алматы, Казахстан

DOI:

https://doi.org/10.32014/2025.2518-1726.370

Ключевые слова:

семантическое сходство, агглютинативный язык, морфологическая обработка, трансформерная архитектура, релевантность, казахскоязычный корпус

Аннотация

Актуальность данного исследования обусловлена возрастающей необходимостью повышения эффективности семантического поиска информации в условиях стремительного роста объёма текстовых данных, особенно для низкоресурсных языков, к числу которых относится казахский язык. Целью исследования является формирование научно обоснованного подхода к выбору и сравнению моделей векторизации текстов, применяемых в интеллектуальных поисковых системах с учётом морфологических и синтаксических особенностей казахского языка, а также построение математической модели для вычисления семантического сходства в многомерном векторном пространстве. Методология базируется на эмпирическом тестировании шести моделей (TF-IDF, Word2Vec, FastText, GloVe, BERT и KazBERT) на корпусе из 24 000 казахских текстов. Векторизация производилась с использованием CLS-токенов; для морфологической предобработки использовался инструмент Kaznlp. Семантическое сходство измерялось с помощью косинусной метрики, доработанной с учётом грамматической совместимости. Эффективность моделей оценивалась по показателям точности, полноты и F1-меры. Полученные результаты свидетельствуют о том, что модель KazBERT в сочетании с морфологическим анализом обеспечивает наивысшую точность при работе с вариативными словоформами, превосходя многоязычный BERT на 11–15 % и TF-IDF более чем на 30 %. Модель FastText показала устойчивость к морфологическим вариациям, однако была менее результативна при обработке синтаксически сложных запросов. Научная новизна исследования заключается в создании гибридной модели интеллектуального поиска, адаптированной к агглютинативной природе казахского языка, а также во внедрении авторской морфосинтаксической метрики, позволяющей повысить чувствительность к грамматическим признакам. В заключение подтверждается, что адаптация векторных моделей с учётом грамматических особенностей существенно увеличивает релевантность результатов поиска. Предложенная архитектура может быть применена в практических системах, работающих с различными типами пользовательских запросов.

Загрузки

Опубликован

2025-09-27

Как цитировать

Sadykova, T. ., Sinchev , B. ., Young , I. C., & Auyezova А. . (2025). ПРИМЕНЕНИЕ ВЕКТОРНЫХ МОДЕЛЕЙ В ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ ИНФОРМАЦИОННОГО ПОИСКА. Academic Scientific Journal of Computer Science, 355(3), 160–175. https://doi.org/10.32014/2025.2518-1726.370

Выпуск

Раздел

Информационно-коммуникационные технологии