ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОХВАТА КЛЮЧЕВЫХ СЛОВ

Авторы

  • Баегизова А.С. старший преподаватель кафедры Радиотехники, электроники и телекоммуникаций Евразийского национального университета имени Л.Н. Гумилева, Астана, Казахстан
  • Мухамедрахимова Г.И. старший преподаватель кафедры Радиотехники, электроники и телекоммуникаций Евразийского национального университета имени Л.Н. Гумилева, Астана, Казахстан
  • Бапиев И.М. Западно-Казахстанский аграрно-технический университет имени Жангир хана, и.о. доцента, PhD, Уральск, Казахстан
  • Базарова М.Ж. Восточно-Казахстанский университет имени С. Аманжолова, ассоциированный профессор кафедры «Компьютерное моделирование и информационные технологии», PhD, Усть-Каменогорск, Казахстан
  • Смайлова У.М. Центр педагогического мастерства АОО «Назарбаев Интеллектуальные школы», Астана, Казахстан

DOI:

https://doi.org/10.32014/2024.2518-1726.308

Ключевые слова:

машинное обучение, ключевые слова, семантический ана лиз, BERT, Autoencoder, TF-IDF, гибридные подходы, извлечение информации.

Аннотация

В данной статье осуществляется тщательный сравнительный анализ двух современных гибридных подходов в машинном обучении, такие как Bidirectional Encoder Representations from Transformers (BERT) в сочетании с автокодировщиком (Autoencoder, AE) и Термино-Частотное Обратное Документное Частотное (Term Frequency-Inverse Document Frequency, TF-IDF) в сочетании с автокодировщиком. Исследование фокусируется на задаче извлечения ключевых слов с применением методов семантического анализа текстовых данных. Основная цель работы заключается в оценке эффективности данных методов для обеспечения адекватного охвата ключевых слов в больших текстовых корпусах, охватывающих различные тематические области. Авторы подробно изучают архитектуру и принципы работы каждого из рассматриваемых методов. Особое внимание уделяется особенностям интеграции этих методов с автоэнкодерами, что позволяет значительно улучшить семантическую целостность и релевантность выделенных ключевых слов. Экспериментальная часть исследования включает в себя детальный анализ эффективности обоих методов на различных наборах текстовых данных, демонстрируя, как структура и семантическая насыщенность исходных данных влияют на результаты работы каждого из методов. В работе также подробно описывается примененная методология оценки качества извлечения ключевых слов, включая такие показатели, как точность, полнота и мера F1. Анализируются преимущества и недостатки каждого подхода, а также их пригодность для конкретных типов текстовых задач. Результаты исследования предоставляют ценные данные для научного сообщества и могут быть использованы для выбора наиболее подходящего метода обработки текстов в различных приложениях, где требуется глубокое понимание семантического содержания и высокая точность извлечения информации.  

Загрузки

Опубликован

2024-12-03

Как цитировать

Баегизова, А., Мухамедрахимова, Г., Бапиев, И., Базарова, М., & Смайлова, У. (2024). ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОХВАТА КЛЮЧЕВЫХ СЛОВ. Известия НАН РК. Серия физико-математическая, (4), 73–88. https://doi.org/10.32014/2024.2518-1726.308