ТҮЙІНДІ СӨЗДЕРДІ ҚАМТУ ҮШІН МАШИНАЛЫҚ ОҚЫТУ ӘДІСТЕРІНІҢ ТИІМДІЛІГІН БАҒАЛАУ

А.С. Баегизова; Г.И. Мухамедрахимова; И.М. Бапиев; М.Ж. Базарова; У.М. Смайлова

doi:10.32014/2024.2518-1726.308

Авторы

Баегизова А.С. старший преподаватель кафедры Радиотехники, электроники и телекоммуникаций Евразийского национального университета имени Л.Н. Гумилева, Астана, Казахстан
Мухамедрахимова Г.И. старший преподаватель кафедры Радиотехники, электроники и телекоммуникаций Евразийского национального университета имени Л.Н. Гумилева, Астана, Казахстан
Бапиев И.М. Западно-Казахстанский аграрно-технический университет имени Жангир хана, и.о. доцента, PhD, Уральск, Казахстан
Базарова М.Ж. Восточно-Казахстанский университет имени С. Аманжолова, ассоциированный профессор кафедры «Компьютерное моделирование и информационные технологии», PhD, Усть-Каменогорск, Казахстан
Смайлова У.М. Центр педагогического мастерства АОО «Назарбаев Интеллектуальные школы», Астана, Казахстан

DOI:

https://doi.org/10.32014/2024.2518-1726.308

Ключевые слова:

машинное обучение, ключевые слова, семантический ана лиз, BERT, Autoencoder, TF-IDF, гибридные подходы, извлечение информации.

Аннотация

В данной статье осуществляется тщательный сравнительный анализ двух современных гибридных подходов в машинном обучении, такие как Bidirectional Encoder Representations from Transformers (BERT) в сочетании с автокодировщиком (Autoencoder, AE) и Термино-Частотное Обратное Документное Частотное (Term Frequency-Inverse Document Frequency, TF-IDF) в сочетании с автокодировщиком. Исследование фокусируется на задаче извлечения ключевых слов с применением методов семантического анализа текстовых данных. Основная цель работы заключается в оценке эффективности данных методов для обеспечения адекватного охвата ключевых слов в больших текстовых корпусах, охватывающих различные тематические области. Авторы подробно изучают архитектуру и принципы работы каждого из рассматриваемых методов. Особое внимание уделяется особенностям интеграции этих методов с автоэнкодерами, что позволяет значительно улучшить семантическую целостность и релевантность выделенных ключевых слов. Экспериментальная часть исследования включает в себя детальный анализ эффективности обоих методов на различных наборах текстовых данных, демонстрируя, как структура и семантическая насыщенность исходных данных влияют на результаты работы каждого из методов. В работе также подробно описывается примененная методология оценки качества извлечения ключевых слов, включая такие показатели, как точность, полнота и мера F1. Анализируются преимущества и недостатки каждого подхода, а также их пригодность для конкретных типов текстовых задач. Результаты исследования предоставляют ценные данные для научного сообщества и могут быть использованы для выбора наиболее подходящего метода обработки текстов в различных приложениях, где требуется глубокое понимание семантического содержания и высокая точность извлечения информации.

ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОХВАТА КЛЮЧЕВЫХ СЛОВ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu