ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО И ГЛУБОКОГО ОБУЧЕНИЯ ПРИ ИЗВЛЕЧЕНИИ КЛЮЧЕВЫХ СЛОВ
DOI:
https://doi.org/10.32014/2024.2518-1726.289Аннотация
В связи с быстрым развитием интернет-технологий и быстрым распространением новостного контента в последнее время важность извлечения ключевых слов из текста возрастает. Использование ключевых слов, связанных с такими потребностями, позволяет читателю легко и быстро получить доступ к необходимой информации. Извлечение ключевых слов — важная область исследований в области обработки текста, естественного языка и поиска информации. Из-за важности ключевого слова и сложности его маркировки вручную автоматическая генерация ключевых слов позволяет получить значительные результаты. Извлечение ключевых слов, которое является одной из подтем обработки естественного языка, включает в себя автоматическое индексирование, автоматическое агрегирование, автоматическую классификацию, автоматическую кластеризацию, автоматическую фильтрацию. В области обработки естественного языка методы на основе искусственного интеллекта начали использоваться в начале 2000-х годов благодаря подходам машинного обучения и глубокого обучения. Для извлечения ключевых слов предложено множество методов и алгоритмов. Эти методы можно сгруппировать под двумя основными заголовками: контролируемые и неконтролируемые подходы. В настоящее время методы машинного и глубокого обучения, а также исследования в области обработки естественного языка ограничены для казахского языка. Поскольку корпуса, представляющего казахский язык, не существует, исследования по выделению ключевых слов на сегодняшний день отсутствуют. Эта область требует больше усилий из-за значительного увеличения количества онлайн-казахского контента и редкости ключевых слов, вводимых вручную в существующих электронных документах. В этом исследовании представлен обзор методов машинного обучения и методов глубокого обучения для извлечения ключевых слов, а также рассмотрены важные исследования.