СЕМАНТИКАЛЫҚ ДЕРЕКТЕРДІ ТАЛДАУ АРҚЫЛЫ КІЛТ СӨЗДЕРДІ ҚАМТУ

Авторы

  • А.М. Бисенгалиева
  • А.У. Исембаева Западно-Казахстанский аграрно-техническии университет им. Жангир хана, Уральск, Казахстан
  • Т.К. Душаева
  • Н.М. Алмабаева
  • Г.О. Ильясова

DOI:

https://doi.org/10.32014/2024.2518-1726.270

Аннотация

В данной статье осуществляется тщательный сравнительный анализ двух современных гибридных подходов в машинном обучении, такие как Bidirectional Encoder Representations from Transformers (BERT) в сочетании с автокодировщиком (Autoencoder, AE) и Термино-Частотное Обратное Документное Частотное (Term Frequency-Inverse Document Frequency, TF-IDF) в сочетании с автокодировщиком. Исследование фокусируется на задаче извлечения ключевых слов с применением методов семантического анализа текстовых данных. Основная цель работы заключается в оценке эффективности данных методов для обеспечения адекватного охвата ключевых слов в больших текстовых корпусах, охватывающих различные тематические области. Авторы подробно изучают архитектуру и принципы работы каждого из рассматриваемых методов. Особое внимание уделяется особенностям интеграции этих методов с автоэнкодерами, что позволяет значительно улучшить семантическую целостность и релевантность выделенных ключевых слов. Экспериментальная часть исследования включает в себя детальный анализ эффективности обоих методов на различных наборах текстовых данных, демонстрируя, как структура и семантическая насыщенность исходных данных влияют на результаты работы каждого из методов. В работе также подробно описывается примененная методология оценки качества извлечения ключевых слов, включая такие показатели, как точность, полнота и мера F1. Анализируются преимущества и недостатки каждого подхода, а также их пригодность для конкретных типов текстовых задач. Результаты исследования предоставляют ценные данные для научного сообщества и могут быть использованы для выбора наиболее подходящего метода обработки текстов в различных приложениях, где требуется глубокое понимание семантического содержания и высокая точность извлечения информации.  

Загрузки

Опубликован

2024-06-15

Как цитировать

Бисенгалиева, А. ., Исембаева, А., Душаева , Т., Алмабаева, . Н. ., & Ильясова, . Г. . (2024). СЕМАНТИКАЛЫҚ ДЕРЕКТЕРДІ ТАЛДАУ АРҚЫЛЫ КІЛТ СӨЗДЕРДІ ҚАМТУ. Известия НАН РК. Серия физико-математическая, (2), 108–119. https://doi.org/10.32014/2024.2518-1726.270